본문 바로가기

트렌드 한눈에 보기/학계 트렌드

(114)
[CS234] Lecture 15: Batch RL 정리 14강은 Chelsea Finn 교수의 Meta-Learning 강좌였고 15강은 Batch Reinforcement Learning의 차례이다. 사실 CS231n강좌를 들을 때에도 Batch Normalization은 욕하면서 넘겼기에(이해가 안된다 퉤퉤) 오히려 Meta-Learning 강의를 듣고 싶었는데, 아쉽게도 해당 영상은 유튜브에 업로드 되지를 않았다. 근데 이참에 batch류에 대해 이해할 수 있다고 생각하니, 오히려 좋아. Batch RL이 상정하는 문제는 다음과 같다. 치료 과정의 경우, 주사를 맞고 약을 먹는 것과 약을 먹고 주사를 맞는 경우에 회복률 차이가 존재하는지? 그 차이를 정확히 감별하기 위해 필요한 정보는 무엇인지? 일반화해서 말하자면, 기존 프로세스가 있을 때 순서를 바꿈..
[CS234] Lecture 13: Fast Learning III 정리 (2) 13강에서 MBIE-EB에 대한 설명은 정말 똥이다. 웬만큼 중요한 내용이라면 구글에 영어로든 한국어로든 튜토리얼 글이 올라와 있을텐데, 전혀 없다. 그래서 그냥 넘기기로 했다. 퉤퉤퉤. 다음 내용은 Model-Based RL에 Baysian 을 적용하는 것이다. 실생활에서는 Model Based 자체가 성립하지 않기 때문에 상세한 알고리즘 보다는, Model-free Control에 사용하기 위해서 중요하게 여겨야 하는 점들을 위주로 공부하면 될 것 같다. 또 헷갈리는 용어가 많이 등장하는데, 우선, 상태 전환 확률 매트릭스인 T는 Multinomial Distribution으로 나타난다고 한다. Binomial Distribution이 동전의 앞면 뒷면 같은 분포였다면 유한한 n개의 선택지가 있을 때..
[CS234] Lecture 13: Fast Learning III 정리 (1) 역시 지난 시간에 빠르게 훑고 지나갔던 MDP에서 Fast Learning을 적용하는 방법에 대해 설명하는 것으로 13강이 시작되었다. PAC는 Probably Approximately Correct의 줄임말로, Bandit 문제에 Bayesian Regret 등을 적용한 것처럼 MDP에 fast learning을 적용하는 방법의 이름인 것 같다. 좀 더 검색을 해보니, 기본적으로는 머신러닝 알고리즘의 성능을 설명하기 위한 방법이라고 한다. 근데 fast learning이랑은 무슨 관계가 있는 거지? Model Based Interval Estimation[MBIE]은 PAC의 일종이다. 모델을 기반으로 interval을 추정한다는 이름이 너무 열받는다. 어떻게 이렇게 하나도 감이 안오게 이름을 지을 수..
[CS234] Lecture 12: Fast Learning II 정리 지난 시간에 이어, 이번 강의도 Fast Learning에 관한 내용이다. 다만, 아직까지 "Bandit"을 어떻게 이해해야 할지 잘 모르겠다. 여러 대의 슬롯머신에서 최적의 전략을 뽑아내는 것을 "Multi-armed Bandits"라고 이해했는데, "Bayesian Bandits"라고 하면, 그건 또 무슨 말이람? 이런 남모를 고충을 강의에서도 이해했는지, 간략한 복습을 진행해주었다. 지난 시간에 정의한 "Bandit"은, MDP의 간소화된 예시였다. 그렇담 MDP는 무엇이었나? (S, A, P, R)로 구성된 Markov Chain을 일컫는 말이었다. 다시 말하자면, "상태 - 행동 - 상태 전환 확률 - 보상" 변수들로 이루어지면서 현재 상태가 과거의 모든 정보를 포함하고 있는 모델이었다. Ban..
왜 알파고 자율주행은 나오지 않는 것일까? (부제: 당신의 이미지 트레이닝이 실패하는 이유) 인간 수준을 뛰어넘는 바둑실력을 가진 알파고가 나온지 5년이 다 되어 간다. 그렇다면 왜 인간 실력을 뛰어넘는 운전실력을 가진 자율주행은 개발되기가 이렇게 어려운 것일까? 문제는 인공지능의 학습세계와 실제세계가 너무 다르다는 것이다. 알파고가 바둑을 둘 뿐만 아니라, 실제로 바둑알을 들어서 바둑판에 놓을 수 있는 로봇팔까지 가지고 있었다면 좋았겠지만 그렇지 못했던 것은 바둑알의 마찰력, 바둑판까지의 이동 등을 모두 고려할만큼 성능이 좋지 못했기 때문이다. 덕분에 아마추어 6단 정도나 하는 사람이 "아 나는 바둑이랑은 안되겠다" 하는 식으로 포기한 뒤 알파고 개발자로 나서서는 알파고 대신 바둑알을 놓게 된 것이다. 그렇다면 그간 SF영화에서 봐왔던 인공지능 로봇을 어떻게 탄생할 수 있을까? 인공지능 학습이..
[CS234] Lecture 11: Fast Reinforcement Learning 정리 이제 CS234 강좌의 마지막 단계를 배울 차례이다. 강화학습에 필요한 네 가지, 즉 Optimization, Delayed Conseqencies, Exploration and Generalization에 대해 어느 정도 짚고 넘어갔으니 네 단계들을 보다 효율적으로 수행할 수 있는 방안에 대해서 배우는 것이다. Q-Learning을 배우면서 계산량을 줄여주려는 시도를 살펴봤었다. Q-Learning은 복습하자면, 모델이 주어지지 않은 학습환경에서 최적의 행동지침을 만들어내는 과정이었다. 또한 TD Learning을 활용한 방식에서 계산을 조금 간소화한 기법이었다. (이전 글 참조) 이와는 달리, 보다 적은 데이터로 학습을 진행해야 하는 경우가 있다. 의료 산업, 교육 산업 같은 경우에 특히나 실제 사람..
"Ultra" 칭호를 부여받은 첫 번째 웨어러블 Sincere 라는 말의 유래를 아십니까? 르네상스 시대의 조각상들 중에는 왁스를 사용한 작품이 많다. 손가락 같은 정밀한 부분을 조각하다가 대리석이 부러지기라도 하면 왁스를 본드처럼 사용한 것이다. 하지만 그 와중에도 미켈란젤로 같은 최고의 예술가는 왁스 없이도 작품 뚝딱이었다. Sine (Without) + Cera (Wax)가 합쳐져서 아 저 작품은 왁스 없이 만들어진 진또배기구나, Sincere하구나 하는 단어가 탄생한 것이다. 손의 움직임을 재현하는 것은 예나 지금이나 어렵다. 뉴질랜드의 스타트업 "Stretch Sense"의 경우에는 오직 손의 움직임을 재현하는 것만으로 제품을 만들었을 정도이다. Stretch Sense 작동 영상 위 Stretch Sense는 장갑 전체에 Stretch Se..
기계과 창업이 망하는 이유 - 교수 창업의 예시들 2016년 서울대 기계과 박종우 교수가 창업한 "세이지리서치"는 현재 48억 원 이상을 투자받으며 성장하고 있다. 박종우 교수 본인의 주 연구 분야는 로보틱스, 즉 제어 측면이다. MIT EECS(전기전자 및 컴퓨터 공학) 학사와 하버드 응용수학 박사를 졸업해서 기계과 교수로 임용되었을 만큼 탄탄한 수리체계를 바탕으로 로봇 제어를 가르쳤고 교과서로 쓰이는 교재까지 집필할 정도로 해당 분야의 권위자이다. "으음 로봇 제어분야에서 창업이라... 로봇팔을 만드나?" 세이지리서치는 놀랍게도 제어와는 거의 상관이 없다. 딥러닝을 바탕으로 한 영상인식을 통해 제품의 품질을 검사하는 시스템이 주된 상품인 것이다. 교수 본인이 CEO로 있고, 9명의 재직자들은 대부분 연구실 출신이거나 현재도 석박사 과정에 있는 사람들..
[CS234] Lecture 10: Policy Search III 정리 9과에서 (제대로 이해한 것은 아니지만) 배운 내용은 위 슬라이드에 다 담겨있다. Return 과 Target (Advantage Estimate), 그리고 해당 Gradient 방향으로 얼마나 이동할 것인지를 결정하는 방법을 배웠고 이를 총 집합하면 "기본적인" Policy Gradient 알고리즘을 익히게 되는 것이다. 특히 해당하는 gradient 방향으로 "얼마나" 가야하는지에 관한 문제는 Step Size를 자동화하는 것과 맞닿아있으며 미래의 정보 없이 과거 데이터만 가지고 있는 상황에서 다음 step으로 얻을 데이터를 활용해서 만들어내는 행동지침이 현재와 버금가는 가치를 지니고 있을 것인지 판단하는 것이 필요했다. (지루한) 식 전개 결과, Loss Function을 특정하게 변형시켜준다면 새..
[CS234] Assignment 2 풀이 CS234 Assignment 2는 Tensorflow에 대한 기본적인 이해가 필요하다. 과제를 풀기 위해 Tensorflow Wiki를 정독하는 것은 너무 비효율적으로 느껴졌고, 사실 Wiki를 이해하기도 쉽지 않았다. 그래서 과제가 어떻게 구성되어 있는지를 먼저 익혀보고자 한다. Imitation Learning의 일종이라고 생각하면 될 것 같다. 전문가가 짜놓은 Deep Q Network 구조를 학습함으로써 RL에 대한 감을 좀 익히고....는 사실 과제 해답을 먼저 보지 않으면 과제 자체를 풀 자신이 없다. Assignment 2의 코딩 과제는 총 다섯 문제(Q1 ~ Q5)이다. 각 문제 당 여러 개의 함수를 작성해야 하니, 실제 양은 그보다 많다. 모든 문제를 풀면 Mnih 교수의 Atari D..