Yak Shaving: 야크 털 깎기
close
프로필 배경
프로필 로고

Yak Shaving: 야크 털 깎기

  • 분류 전체보기 (589)
    • 개발 이야기 (274)
      • C++ (121)
      • CUDA (10)
      • Vulkan (20)
      • OpenCL (10)
      • SYCL (시클) (7)
      • CMake (19)
      • Rust (러스트) (29)
      • Python (파이썬) (22)
      • PyTorch (파이토치) (27)
      • 기타 (8)
    • 미국 빅테크 (176)
      • 코드 인터뷰 (11)
      • 빅테크 커리어 (37)
      • 일일 영어 (113)
      • 개발자 영어 (15)
    • 과학 | 테크 (11)
    • 수학 (4)
    • 미국 생활 (107)
      • 비자 이민 (10)
      • 재테크 (43)
      • 이곳, 저곳 (0)
      • 기타 (52)
    • IT 뉴스 (3)
    • 스크랩 (2)
    • 혼잣말 (6)
      • 블로깅 (3)
      • TIL (1)
    • 관리 (0)
  • 홈
  • C++
  • Rust (러스트)
  • 빅테크
  • 개발자 영어
  • 재테크
  • 태그
  • 글쓰기
[PyTorch로 시작하는 강화학습 입문] 7편: 정책기반 접근 살펴보기 – REINFORCE 알고리즘 구현

[PyTorch로 시작하는 강화학습 입문] 7편: 정책기반 접근 살펴보기 – REINFORCE 알고리즘 구현

지금까지 다룬 DQN 계열 알고리즘은 Q값(Q(s,a))을 근사하고, 이를 바탕으로 최적 행동을 선택하는 가치기반(Value-based) 방식이었습니다. 반면, 정책기반(Policy-based) 방법은 Q함수를 명시적으로 다루지 않고, 정책(π(a|s))을 직접 파라미터화(파라미터 θ)하고 이를 최적화하는 접근을 사용합니다.정책기반 접근의 장점:연속적이고 큰 행동 공간 처리 용이: Q테이블이나 Q함수를 모든 행동에 대해 근사하는 것이 어려운 상황에서 정책을 직접 근사하면 편리합니다.확률적 정책: 정책이 확률적으로 행동을 샘플링하기 때문에 탐색을 내장하고 있습니다.정책 개선의 직관성: 목표는 "정책의 기대 return을 최대화"하는 것이며, 이를 직접 최적화 가능합니다.이번 글에서는 가장 기초적인 정책기반..

  • format_list_bulleted 개발 이야기/PyTorch (파이토치)
  • · 2024. 12. 14.
  • textsms
반응형
  • navigate_before
  • 1
  • navigate_next
전체 카테고리
  • 분류 전체보기 (589)
    • 개발 이야기 (274)
      • C++ (121)
      • CUDA (10)
      • Vulkan (20)
      • OpenCL (10)
      • SYCL (시클) (7)
      • CMake (19)
      • Rust (러스트) (29)
      • Python (파이썬) (22)
      • PyTorch (파이토치) (27)
      • 기타 (8)
    • 미국 빅테크 (176)
      • 코드 인터뷰 (11)
      • 빅테크 커리어 (37)
      • 일일 영어 (113)
      • 개발자 영어 (15)
    • 과학 | 테크 (11)
    • 수학 (4)
    • 미국 생활 (107)
      • 비자 이민 (10)
      • 재테크 (43)
      • 이곳, 저곳 (0)
      • 기타 (52)
    • IT 뉴스 (3)
    • 스크랩 (2)
    • 혼잣말 (6)
      • 블로깅 (3)
      • TIL (1)
    • 관리 (0)
반응형
KoreanEnglishFrenchGermanJapaneseSpanishChinese (Simplified)
최근 글
인기 글
태그
  • #expected
  • #concepts
  • #modern C++
  • #C++
  • #Design Patterns
  • #python
  • #c++23
  • #c++20
  • #Software Development
  • #개발자 영어
전체 방문자
오늘
어제
전체
Copyright © Yak Shaving: 야크 털 깎기 All rights reserved.
Designed by JJuum

티스토리툴바