[CS234] Lecture 12: Fast Learning II 정리
지난 시간에 이어, 이번 강의도 Fast Learning에 관한 내용이다. 다만, 아직까지 "Bandit"을 어떻게 이해해야 할지 잘 모르겠다. 여러 대의 슬롯머신에서 최적의 전략을 뽑아내는 것을 "Multi-armed Bandits"라고 이해했는데, "Bayesian Bandits"라고 하면, 그건 또 무슨 말이람? 이런 남모를 고충을 강의에서도 이해했는지, 간략한 복습을 진행해주었다. 지난 시간에 정의한 "Bandit"은, MDP의 간소화된 예시였다. 그렇담 MDP는 무엇이었나? (S, A, P, R)로 구성된 Markov Chain을 일컫는 말이었다. 다시 말하자면, "상태 - 행동 - 상태 전환 확률 - 보상" 변수들로 이루어지면서 현재 상태가 과거의 모든 정보를 포함하고 있는 모델이었다. Ban..