본문 바로가기

전체 글

(377)
[CS234] Lecture 2: Given a model of the world 정리 Lecture 2: Markov Decision Process가 주어졌을 때 올바른 결정을 내리는 방법 Markov Decision Process(MDP)란 무엇인지, 올바르단 것은 무엇인지 확인하면 됨 MDP 이외에도 Markov Reward Process 같은 게 등장하는데 핵심은 역시 MDP라는 것을 잊지 말자 Markov Process: 지난 시간에도 나왔지만, 핵심적인 내용이므로 다시 보면 좋음 과거의 정보가 현재 상태에 모두 녹아있어서, 미래는 현재 상태만 관찰해서도 알 수 있음 즉, 미래는 과거와는 상관이 없다, 현재 상태만 있다면. Markov Process의 구성 Markov Process는 1. 한정된 수량의(무한대도 상관없다) 상태(State) 값과, 2. 한 상태에서 다른 상태로 너..
[도서 리뷰] "이 글이 재밌으면, 블로그 구독해봐야지" - 개리 마커스, 클루지 지능의 사생활 편에 이은 진화심리학 도서 리뷰이다. 어렸을 때는 마냥 꿈만 같은 이론들인 "시크릿"이라든지 "꿈꾸는 다락방" 등을 읽고 가슴 뛰었던 것 같은데, 최근에는 왜 이렇게 냉철한 종류만 읽게 되는지 모를 일이다. 차가운 내용에도 불구하고, 실증될 수 있다는 점이 진화심리학의 가장 큰 매력이라고 생각된다. 저자인 개리 마커스는 만 23살 무렵에 MIT에서 심리학 전공으로 박사를 받았다. 아무리 계산해도 어떻게 그렇게 빠르게 박사를 취득했는지 답이 나오지 않는다. 대학을 15살 쯤 들어갔을까? 대학 전공도 인지과학이라는 분야를 스스로 설계해서 졸업했다고 하니, 뭐 보통 사람은 아니다. 게다가 AI를 이용해서 지도를 만드는 회사를 차려서 2년만에 우버에 매각했다고 한다. 하여튼 "지능"에 관련된 것은..
[CS234] Reinforcement Learning: Lecture 1 정리 강화학습을 어떻게 공부하면 좋을까 싶어 찾아보다가 딥러닝 공부로 CS231n이 필수 요소처럼 여겨지는 만큼 CS234 역시 같은 위상에 있지 않을까 하는 마음에 듣게 되었다. 하지만 설명 방식이 나와는 잘 맞지 않았다. 예시를 좀 더 들어주면서 설명하면 좋을텐데, 알고리즘만 때려넣는 설명방식이랄까...? 중간 정도까지 강의를 들었지만, 도대체 이해할 수 없이 넘어간 부분이 많았고 한 번 다시 들으면서 내 나름대로 내용을 채워 넣었다. 최대한 한국어 용어와 비유를 사용해서 설명하려고 맷돌을 굴려봤지만 제대로 성공하지 못한 경우가 많다. Goal of RL: Learn to make good sequences of decision 연속된 결정들을 잘 내릴 수 있도록 학습하는 것 Sequences of dec..