Yak Shaving: 야크 털 깎기
close
프로필 배경
프로필 로고

Yak Shaving: 야크 털 깎기

  • 분류 전체보기 (589)
    • 개발 이야기 (274)
      • C++ (121)
      • CUDA (10)
      • Vulkan (20)
      • OpenCL (10)
      • SYCL (시클) (7)
      • CMake (19)
      • Rust (러스트) (29)
      • Python (파이썬) (22)
      • PyTorch (파이토치) (27)
      • 기타 (8)
    • 미국 빅테크 (176)
      • 코드 인터뷰 (11)
      • 빅테크 커리어 (37)
      • 일일 영어 (113)
      • 개발자 영어 (15)
    • 과학 | 테크 (11)
    • 수학 (4)
    • 미국 생활 (107)
      • 비자 이민 (10)
      • 재테크 (43)
      • 이곳, 저곳 (0)
      • 기타 (52)
    • IT 뉴스 (3)
    • 스크랩 (2)
    • 혼잣말 (6)
      • 블로깅 (3)
      • TIL (1)
    • 관리 (0)
  • 홈
  • C++
  • Rust (러스트)
  • 빅테크
  • 개발자 영어
  • 재테크
  • 태그
  • 글쓰기
[PyTorch로 시작하는 강화학습 입문] 9편: 안정적인 정책 업데이트 – PPO(Proximal Policy Optimization) 소개 및 구현

[PyTorch로 시작하는 강화학습 입문] 9편: 안정적인 정책 업데이트 – PPO(Proximal Policy Optimization) 소개 및 구현

A2C까지는 정책과 가치를 동시에 학습하는 Actor-Critic 방법론의 기본을 익혔습니다. 그러나 A2C나 A3C, TRPO 같은 알고리즘들은 정책 업데이트 과정에서 제한이 명확하지 않아, 큰 갱신으로 인한 성능 퇴보가 발생할 수 있습니다.PPO(Proximal Policy Optimization)는 이를 개선하기 위해 다음과 같은 핵심 아이디어를 제안합니다.정책 업데이트 시, 새로운 정책과 기존 정책의 차이를 '클리핑(clipping)'하여, 정책이 한 번에 크게 바뀌지 않도록 제약이로써 안정적인 학습이 가능해지고, 복잡한 수학적 보증이 필요한 TRPO보다 구현이 단순하며, 널리 사용되는 SOTA급 RL 알고리즘으로 자리매김핵심 개념:Probability Ratio (r):r(θ) = π_θ(a|s..

  • format_list_bulleted 개발 이야기/PyTorch (파이토치)
  • · 2024. 12. 16.
  • textsms
반응형
  • navigate_before
  • 1
  • navigate_next
전체 카테고리
  • 분류 전체보기 (589)
    • 개발 이야기 (274)
      • C++ (121)
      • CUDA (10)
      • Vulkan (20)
      • OpenCL (10)
      • SYCL (시클) (7)
      • CMake (19)
      • Rust (러스트) (29)
      • Python (파이썬) (22)
      • PyTorch (파이토치) (27)
      • 기타 (8)
    • 미국 빅테크 (176)
      • 코드 인터뷰 (11)
      • 빅테크 커리어 (37)
      • 일일 영어 (113)
      • 개발자 영어 (15)
    • 과학 | 테크 (11)
    • 수학 (4)
    • 미국 생활 (107)
      • 비자 이민 (10)
      • 재테크 (43)
      • 이곳, 저곳 (0)
      • 기타 (52)
    • IT 뉴스 (3)
    • 스크랩 (2)
    • 혼잣말 (6)
      • 블로깅 (3)
      • TIL (1)
    • 관리 (0)
반응형
KoreanEnglishFrenchGermanJapaneseSpanishChinese (Simplified)
최근 글
인기 글
태그
  • #Design Patterns
  • #expected
  • #C++
  • #Software Development
  • #c++20
  • #python
  • #개발자 영어
  • #concepts
  • #modern C++
  • #c++23
전체 방문자
오늘
어제
전체
Copyright © Yak Shaving: 야크 털 깎기 All rights reserved.
Designed by JJuum

티스토리툴바