'PER' 태그의 글 목록

[Ray RLlib로 강화학습 쉽게 사용하기] 3편: 이산 행동 알고리즘(DQN 변형) 쉽게 돌려보기

앞선 글에서 RLlib을 이용하면 Config 기반으로 알고리즘과 파라미터를 손쉽게 변경할 수 있음을 확인했습니다. 이번 글에서는 이산적 행동 공간 환경(Discrete Action Space)에서 DQN과 그 변형(Double DQN, Dueling DQN, Prioritized Replay 등)을 RLlib으로 실행하는 방법을 자세히 살펴보고, 다양한 환경(예: CartPole, Atari)을 적용하는 예제를 소개하겠습니다.이산 행동 알고리즘과 RLlibDQN은 이산적 행동 공간을 전제로 개발된 알고리즘으로, RLlib에서 DQNTrainer를 통해 바로 사용할 수 있습니다. 지난 글에서 DQN에 Double/Dueling 옵션을 추가하는 방법을 봤는데, 여기서는 좀 더 다양한 설정(우선순위 리플레이..

format_list_bulleted 개발 이야기/PyTorch (파이토치)
· 2024. 12. 21.
textsms

[PyTorch로 시작하는 강화학습 입문] 6편: 우선순위 경험 리플레이(Prioritized Experience Replay)로 샘플링 효율 개선

기존 DQN에서는 모든 경험을 동일한 확률로 샘플링합니다. 그러나 강화학습에서는 특정 경험(transition)이 학습 초기에는 별로 도움이 안 되지만, 나중에 정책이 개선되면서 가치가 달라지거나, 에이전트가 특정 상황에서 큰 TD 오차(Temporal-Difference Error)를 낼 경우 그 경험이 정책 개선에 더 크게 기여할 수 있습니다.우선순위 경험 리플레이(PER)의 핵심 아이디어는 TD 오차가 큰(즉, 현재 네트워크의 예측과 실제 타겟 간 차이가 큰) 경험을 더 자주 샘플링하는 것입니다. 이를 통해 에이전트는 정책 개선에 유용한 경험을 빠르게 재학습하고, 경험 데이터 활용 효율을 높일 수 있습니다.참고자료:Schaul et al., 2016. "Prioritized Experience Re..

format_list_bulleted 개발 이야기/PyTorch (파이토치)
· 2024. 12. 13.
textsms

navigate_before
1
navigate_next

[Ray RLlib로 강화학습 쉽게 사용하기] 3편: 이산 행동 알고리즘(DQN 변형) 쉽게 돌려보기

[PyTorch로 시작하는 강화학습 입문] 6편: 우선순위 경험 리플레이(Prioritized Experience Replay)로 샘플링 효율 개선

티스토리툴바