[PyTorch로 시작하는 강화학습 입문] 2편: 가치 기반 접근과 Q함수 개념, PyTorch 신경망으로 Q함수 근사하기
강화학습에서는 에이전트가 상태(State)마다 어떤 행동(Action)을 취해야 하는지 결정하기 위해 정책(Policy)을 개선해나갑니다. 앞서 1편에서 살펴본 랜덤 정책 에이전트는 전혀 학습을 하지 않고, 그저 무작위로 행동을 선택하기 때문에 성능이 저조했습니다. 이제는 "가치(Value)" 개념을 도입하여, 각 상태-행동 쌍이 얼마나 좋은지(미래 보상을 많이 얻을 수 있는지)를 평가하는 방식으로 정책을 개선할 실마리를 잡아봅시다.이번 글의 목표는 다음과 같습니다.가치기반(Value-based) 접근 개념 정리: Q함수(Q-value)를 통해 상태-행동 쌍의 가치를 정의Q학습(Q-learning) 아이디어 소개: 벨만(Bellman) 방정식을 이용한 Q함수 업데이트 개념(이론적 상세는 추가 자료 참조)..