본문 바로가기

트렌드 한눈에 보기/학계 트렌드

[CS234] Lecture 13: Fast Learning III 정리 (2)

13강에서 MBIE-EB에 대한 설명은 정말 똥이다.

웬만큼 중요한 내용이라면 구글에 영어로든 한국어로든

튜토리얼 글이 올라와 있을텐데, 전혀 없다. 

그래서 그냥 넘기기로 했다. 퉤퉤퉤.

다음 내용은 Model-Based RL에 Baysian 을 적용하는 것이다.

실생활에서는 Model Based 자체가 성립하지 않기 때문에

상세한 알고리즘 보다는, Model-free Control에 사용하기 위해서

중요하게 여겨야 하는 점들을 위주로 공부하면 될 것 같다.

 

또 헷갈리는 용어가 많이 등장하는데, 

우선, 상태 전환 확률 매트릭스인 T는

Multinomial Distribution으로 나타난다고 한다.

Binomial Distribution이 동전의 앞면 뒷면 같은 분포였다면

유한한 n개의 선택지가 있을 때의 분포상태라고 보면 될 것 같다.

 

Thompson Sampling을 사용하게 되는데,

12강에서 배웠던 Thompson Sampling 사용 목적은

"최적의 행동을 찾아주는 e-greedy, UCB에 이은 세 번째 방법"이었다.

슬라이드에는 P, R을 추출해주는 것에 쓴다는 아리송한 말밖에 없지만,

MDP 모델에서도 최적의 행동을 찾아내는 것에

Thompson Sampling을 사용할 수 있다는 것으로 이해하면 될 것 같다. 

 

코드는 위와 같다.

 

이제 보다 일반적인 사례들을 대상으로 알고리즘을 확장할 차례이다.

MBIE-EB 등의 Bandit 대상 알고리즘은 유한한 상태로 국한되어 있었기에

일상생활처럼 연속적인 상태 혹은 무한히 많은 상태에서도 

최적의 행동을 잘 추출해내는 알고리즘이 필요한 것이다. 

 

이는 MBIE-EB에서 몇 가지 조항들을 수정해줌으로써도 해결 가능한데,

대표적인 사례가 (S, A) Pair로 몇 번 이상 접근하지 못하도록 하는

Count를 대체하는 것이다. 

무수히 많은 상태값을 대상으로 하는 알고리즘에서는 

하나의 (S, A)를 다시 방문할 확률이 적어지므로 

해당 조항을 적절히 수정해주어야 한다. 

 

그래서 단순히 방문 횟수에 대해 보너스를 주는 것보다

해당 상태에 방문했을 때 받을 수 있는 보상의 불확실성에 비례해서

보너스 보상을 받도록 설정해 줄 수 있다.