본문 바로가기

트렌드 한눈에 보기/학계 트렌드

[CS234] Lecture 10: Policy Search III 정리

9과에서 (제대로 이해한 것은 아니지만) 배운 내용은 위 슬라이드에 다 담겨있다.

Return 과 Target (Advantage Estimate), 그리고

해당 Gradient 방향으로 얼마나 이동할 것인지를 결정하는 방법을 배웠고

이를 총 집합하면 "기본적인" Policy Gradient 알고리즘을 익히게 되는 것이다. 

특히 해당하는 gradient 방향으로 "얼마나" 가야하는지에 관한 문제는

Step Size를 자동화하는 것과 맞닿아있으며

미래의 정보 없이 과거 데이터만 가지고 있는 상황에서

다음 step으로 얻을 데이터를 활용해서 만들어내는 행동지침이

현재와 버금가는 가치를 지니고 있을 것인지 판단하는 것이 필요했다.

(지루한) 식 전개 결과, Loss Function을 특정하게 변형시켜준다면

새로운 행동지침의 value를 현재 value보다 크거나 같도록

설정해줄 수 있다는 것이 밝혀졌다.

하지만 그렇게 계산한 결과, 문제가 또 발생했는데

기존 행동지침에서 변화를 너무 조금씩만 가져가려고 한 것이다.

그렇게 함으로써 value 변화를 최소한으로 할 수 있었지만,

학습을 위해서는 더 빠르게 수렴하는 알고리즘이 필요하다.

그래서 Trust Region Policy Optimization (TRPO)가 나타났다.

 

Trust Region이라는 말이 의미하듯,

Policy가 변할 수 있는 영역을 설정해줌으로써

행동지침 개선이 그래도 큰 폭으로 이뤄지게끔 바꿔준 것으로 보인다.

 

이후 10강의 내용을 중간고사 전 간략한 리뷰였다.

배운 내용을 주욱 훑어보기에 좋은 자료였으니

지금껏 들었던 강의가 가물가물할 때 쯤 듣기 적절했다.