'Cartpole' 태그의 글 목록

[Ray RLlib로 강화학습 쉽게 사용하기] 1편: Ray와 RLlib 소개 및 환경 설정

강화학습(RL)을 다루다 보면, 다양한 알고리즘(DQN, PPO, SAC 등)을 일일이 직접 구현하고, 하이퍼파라미터를 조정하며, 환경을 실행하는 과정이 만만치 않다는 걸 실감하게 됩니다. 이전 시리즈에서는 PyTorch로 직접 RL 알고리즘을 구현해봤지만, 실제 실험 단계에선 이런 구현 부담을 덜어주는 라이브러리가 큰 도움이 됩니다.Ray RLlib는 그런 니즈에 부합하는 강력한 분산 강화학습 프레임워크입니다. RLlib은 다음과 같은 장점을 갖습니다.다양한 알고리즘 내장: DQN, PPO, SAC, A3C/A2C, IMPALA 등 대표적인 알고리즘을 기본 지원간단한 Config 기반 설정: 하이퍼파라미터, 환경 설정, 알고리즘 변형을 Config 딕셔너리로 쉽게 제어분산/병렬 학습 지원: Ray의 멀..

format_list_bulleted 개발 이야기/PyTorch (파이토치)
· 2024. 12. 19.
textsms

[PyTorch로 시작하는 강화학습 입문] 7편: 정책기반 접근 살펴보기 – REINFORCE 알고리즘 구현

지금까지 다룬 DQN 계열 알고리즘은 Q값(Q(s,a))을 근사하고, 이를 바탕으로 최적 행동을 선택하는 가치기반(Value-based) 방식이었습니다. 반면, 정책기반(Policy-based) 방법은 Q함수를 명시적으로 다루지 않고, 정책(π(a|s))을 직접 파라미터화(파라미터 θ)하고 이를 최적화하는 접근을 사용합니다.정책기반 접근의 장점:연속적이고 큰 행동 공간 처리 용이: Q테이블이나 Q함수를 모든 행동에 대해 근사하는 것이 어려운 상황에서 정책을 직접 근사하면 편리합니다.확률적 정책: 정책이 확률적으로 행동을 샘플링하기 때문에 탐색을 내장하고 있습니다.정책 개선의 직관성: 목표는 "정책의 기대 return을 최대화"하는 것이며, 이를 직접 최적화 가능합니다.이번 글에서는 가장 기초적인 정책기반..

format_list_bulleted 개발 이야기/PyTorch (파이토치)
· 2024. 12. 14.
textsms

[PyTorch로 시작하는 강화학습 입문] 3편: DQN(Deep Q-Network) 기초 구현 – 경험 리플레이와 타겟 네트워크

지난 글에서 가치 기반 접근과 Q함수 근사를 위한 PyTorch 신경망 구조를 마련했다면, 이번 글에서는 이를 실제로 학습시키기 위한 대표적인 딥 강화학습 알고리즘인 DQN(Deep Q-Network)의 기본 골격을 구현해 봅니다. 여기서는 경험 리플레이(Replay Buffer)와 ε-탐욕적(epsilon-greedy) 정책, 그리고 타겟 네트워크(Target Network) 개념을 소개하고, CartPole 환경에서 DQN을 간단히 훈련시키는 예제를 통해 Q함수를 실제로 업데이트하는 과정을 살펴보겠습니다. 강화학습에서 Q함수를 딥뉴럴넷으로 근사하는 것은 확장성 측면에서 유용하지만, 단순히 Q-learning을 신경망에 직접 대입하는 것만으로는 학습이 불안정합니다. 경험(transition)을 순서대로..

format_list_bulleted 개발 이야기/PyTorch (파이토치)
· 2024. 12. 11.
textsms

[PyTorch로 시작하는 강화학습 입문] 1편: 강화학습과 PyTorch 소개, 개발환경 준비, 그리고 첫 실행 예제

강화학습(Reinforcement Learning, RL)은 에이전트(Agent)가 환경(Environment)과 상호작용하며 보상(Reward)을 최대화할 수 있는 정책(Policy)을 학습하는 기계학습 분야입니다. 최근 딥러닝 기술과 결합되어, Atari 게임을 수준 높게 공략하거나 로봇팔 제어, 자율주행 의사결정, 바둑·스타크래프트 같은 복잡한 게임에서 인간 프로나 챔피언을 능가하는 성능을 선보이면서 큰 주목을 받았습니다.이 시리즈에서는 RL에 처음 입문하는 독자를 위해, 파이썬과 PyTorch를 활용해 기본적인 강화학습 알고리즘을 단계적으로 구현하고 실험해 볼 예정입니다. 이 과정을 따라가며 RL의 기본 구조와 PyTorch를 사용한 신경망 연산을 체득할 수 있습니다. 이번 글에서는 먼저 강화학습..

format_list_bulleted 개발 이야기/PyTorch (파이토치)
· 2024. 12. 11.
textsms

[Ray RLlib로 강화학습 쉽게 사용하기] 1편: Ray와 RLlib 소개 및 환경 설정

[PyTorch로 시작하는 강화학습 입문] 7편: 정책기반 접근 살펴보기 – REINFORCE 알고리즘 구현

[PyTorch로 시작하는 강화학습 입문] 3편: DQN(Deep Q-Network) 기초 구현 – 경험 리플레이와 타겟 네트워크

[PyTorch로 시작하는 강화학습 입문] 1편: 강화학습과 PyTorch 소개, 개발환경 준비, 그리고 첫 실행 예제

티스토리툴바