트렌드 한눈에 보기 (209) 썸네일형 리스트형 [CS234] Lecture 10: Policy Search III 정리 9과에서 (제대로 이해한 것은 아니지만) 배운 내용은 위 슬라이드에 다 담겨있다. Return 과 Target (Advantage Estimate), 그리고 해당 Gradient 방향으로 얼마나 이동할 것인지를 결정하는 방법을 배웠고 이를 총 집합하면 "기본적인" Policy Gradient 알고리즘을 익히게 되는 것이다. 특히 해당하는 gradient 방향으로 "얼마나" 가야하는지에 관한 문제는 Step Size를 자동화하는 것과 맞닿아있으며 미래의 정보 없이 과거 데이터만 가지고 있는 상황에서 다음 step으로 얻을 데이터를 활용해서 만들어내는 행동지침이 현재와 버금가는 가치를 지니고 있을 것인지 판단하는 것이 필요했다. (지루한) 식 전개 결과, Loss Function을 특정하게 변형시켜준다면 새.. [CS234] Assignment 2 풀이 CS234 Assignment 2는 Tensorflow에 대한 기본적인 이해가 필요하다. 과제를 풀기 위해 Tensorflow Wiki를 정독하는 것은 너무 비효율적으로 느껴졌고, 사실 Wiki를 이해하기도 쉽지 않았다. 그래서 과제가 어떻게 구성되어 있는지를 먼저 익혀보고자 한다. Imitation Learning의 일종이라고 생각하면 될 것 같다. 전문가가 짜놓은 Deep Q Network 구조를 학습함으로써 RL에 대한 감을 좀 익히고....는 사실 과제 해답을 먼저 보지 않으면 과제 자체를 풀 자신이 없다. Assignment 2의 코딩 과제는 총 다섯 문제(Q1 ~ Q5)이다. 각 문제 당 여러 개의 함수를 작성해야 하니, 실제 양은 그보다 많다. 모든 문제를 풀면 Mnih 교수의 Atari D.. [전공] 자동차업계에서 따돌림 당하는 기계공학 학생들 며칠 전 친구 결혼식에서 만난 선배는 서울대 대학원 기계공학 내연기관 분야 전공 박사과정 학생이었다. 내연기관 분야가 이렇게 빨리 사그라질 줄은 그 분이 전공을 정하던 학부 3~4학년 시절에는 몰랐을 테다. 뿐만 아니라, 요즘 대부분의 채용 공고에서 기계과는 제외되어 있기 일쑤다. 말하자면 소프트웨어의 시대라는 것이다. 소프트웨어의 발달이 끝나고 다시금 하드웨어의 시기가 올 수 있을까? 기계과는 그동안 뭘로 먹고 살아야 하는가? 자동차의 파워트레인(동력장치)이 모터 혹은 하이브리드로 바뀌게 되면 우선 부품 수가 많이 준다. 일단 모터가 엔진보다 생산하기가 쉽기에 발생하는 일이다. 하지만 모터에 필요한 부품이 따로 생겨나는 일도 있다. 대표적인 사례가 베어링이다. 베어링은 사실 회전하는 제품에는 모두 들어.. [CS234] Lecture 9: Policy Search II 정리 지난 시간에 배웠던 Policy Search를 9강에서도 이어서 한다. 지루한 식 전개 부분들을 굉장히 많이 건너 뛰면서 강의를 들었는데, 이 부분이 전체 수업에서 가장 중요한 부분이라고 한다. 뭐 어떻게든 되겠지...? 오늘 배울 부분은 Actor Critic 방법이다. 지난 시간 전에는 Model Free, Value Based Policy Search 방법이었다면 지난 시간에는 Value Function 없이 Policy를 파라미터화 하는 법을 배웠고 이번에는 적절히 섞는 것이다. 늘 그렇듯 적절히 섞는 것이 가장 효과가 좋을 테다. Actor Critic을 통해 얻을 수 있는 효과는 "Monotonic Improvements"라고 수업에서 강조했는데, 효과가 좋아지면 그만이지, 꼭 일정한 증가가 .. [CS234] Lecture 8: Policy Gradient I 정리 강화학습의 구성이라고 할 수 있는 네 가지이다. 이 네 가지를 좀 더 효율적으로 진행하고자 지난 시간에는 Imitation Learning을 배웠었고 이번에는 Policy Search 를 배운다. 해석하자면 최적의 행동지침을 찾기 위한 방법이라는 것일텐데 강의 제목이 Policy Gradient인 것으로 보아서는 Gradient Descent 방식을 사용하는 것 같다. CS231n도 그게 가장 핵심이었는데 이번 강좌도 마찬가지인가보다. 모델이 주어지지 않은 상태에서 행동지침을 설정하는 방법을(Model Free Policy Control) 배울 때 행동지침은 value function을 통해 학습되었다. (Q = r + $\gamma$* max Q' 등등) 이번 강의에서는 직접 행동지침을 파라미터화 하는.. [CS234] Lecture 7: Imitation Learning 정리 갑자기 CS234 페이지가 사라졌다...! 당황스러움을 진정시키고, 인터넷에 학생들이 올린 코드와 강의 자료들을 수집했다(대부분 중국인들이 올렸다). cs231n은 그대로 접속 가능한 것으로 보아 사이트 문제는 아닌데, cs234만 사라진 이유가 무엇일까? 유튜브 강의도 사라질지 모른다. 이번 강의까지가 Deep Reinforcement Learning에 관한 내용이니 그나마 다행이다. 지난 시간에 빠르게 지나갔던 Dueling DQN의 추가 설명이다. State Value Function: V는 현재 상태에서 특정 행동지침을 따를 때 받을 수 있는 보상의 현재가치이고, State Action Value Function: Q는 현재 상태에서 행동을 취한 후에 특정 행동지침을 따를 때 받는 보상의 현재가치.. [CS234] Lecture 6: CNNs and Deep Q Learning 정리 Lecture 6에서는 지난 시간에 배웠던 VFA(Value Function Approximation)을 Deep Neural Network (특히 CNN)을 통해 구현하는 방법을 배울 것이다. 이상적인 모델은 Oracle이라는 존재로부터 Value Function에 대한 참값을 받은 후 근사값과의 오차를 계산해서 그 오차를 줄여가는 방법으로 학습에 필요한 V 와 Q 값을 계산하는 것이었지만, Oracle은 존재하지 않는다. 그래서 몬테카를로나 TD Learning을 이용한 값을 Value Function 참값 대신에 집어넣는 것이었다. 하지만 DNN이 발달하면서 Linear VFA보다 더 잘 작동하게끔 참값을 추정할 수 있음이 밝혀졌고, 강화학습 분야에도 사용이 확산되었다. DNN은 위 슬라이드에 보이.. [CS234] Lecture 5: Value Function Approximation 정리 이전 강의에서는 표를 활용해서 보상 값이니, 상태가 변할 확률이니 하는 것들을 제시해주었다. 하지만 실제 삶에서는 그렇게 명확하게 값이 주어지는 것을 거의 찾아보기 힘들다. 그래서 이번 Lecture 5에서는 그런 값들을 추산하는 방법(Value Function Approximation)과 일반화(Generalization)기법을 배울 것이다. 일반화를 통해 이제껏 보지 못한 사례도 해결할 수 있는 강화학습을 만들어낼 수 있지 않을까 기대해본다. VFA 방식을 도식화한 슬라이드이다. 이전 강의에서는 V와 Q를 구하기 위해 주어진 값들을 활용해 공식에다 대입했다면 이 방식은 어떤 계수(parameter)들을 활용해서 s를 표현하는 것이다. s가 (1,1)로 표현이 되고, w가 (2$s_1$ + 3$s_2$.. [CS234] Assignment 1 풀이 코딩 과제를 풀면서 느낀 점은, 전반적으로 강의 내용과 다르다는 점이다. 과제 풀이가 있었으면 좋겠다고 생각했지만, 코딩에 주석이 상세하게 달려있거나 도식화해서 설명해 놓은 글을 찾을 수가 없어서 직접 작성해보았다. Assignment 1의 코딩 과제 (4번) 풀이는 다음과 같다. 먼저 알아야 할 것은 환경 설정이 어떻게 되어 있는가 하는 것이다. 뭘 풀어야 하는 것인지에 대한 내용이 없다 보니, 코드가 잘 이해가 가지 않을 수 있다. 이 문제는 OpenAI에서 만든 Frozen Lake라는 배경을 강화학습을 통해 빠져나가도록 하는 게 목표이다. S로 표시된 Start 지점에서 G로 표시된 Goal까지 이동해야 하는데 중간에 H로 표시된 구멍에 빠지면 게임이 리셋된다. F라고 표시된 완벽하게 얼어있는 부.. 곤충 재배 회사가 12억 원을 투자받은 이유 - Beta Hatch "남들이 모두 반대하는 것을 알면서도 당신 스스로는 믿고 있는 명제는 무엇인가?" 페이팔 출신 벤처투자가인 피터 틸의 '제로 투 원'에 나오는 질문이다. 창업 후에 금세 회사를 팔아버리는 식으로 일할 수도 있겠지만, 정말로 세상을 바꿀만한, 0에서 1로 만들어낼 수 있는 기업을 만들기 위해서는 저 명제를 만족시키는 질문에서 시작해야 한다고 주장한다. 때문에 많은 스타트업들이 "그런 분야에서도 일을 해?" 하는 질문을 받으면서 회사를 성장시키고 있다. 이번에는 미국 북부의 스타트업이 미국 최대 규모의 밀웜 사육장을 짓기 위해 11억 원 가량을 투자받았기에 해당 산업이 왜 존재하는지 조사해보았다. 이번에 투자를 유치한 스타트업 Beta Hatch의 논리는 이러하다. 곡물 생산의 30%가 가축의 사료로 쓰인다.. 이전 1 ··· 17 18 19 20 21 다음