본문 바로가기

분류 전체보기

(393)
[CS234] Lecture 11: Fast Reinforcement Learning 정리 이제 CS234 강좌의 마지막 단계를 배울 차례이다. 강화학습에 필요한 네 가지, 즉 Optimization, Delayed Conseqencies, Exploration and Generalization에 대해 어느 정도 짚고 넘어갔으니 네 단계들을 보다 효율적으로 수행할 수 있는 방안에 대해서 배우는 것이다. Q-Learning을 배우면서 계산량을 줄여주려는 시도를 살펴봤었다. Q-Learning은 복습하자면, 모델이 주어지지 않은 학습환경에서 최적의 행동지침을 만들어내는 과정이었다. 또한 TD Learning을 활용한 방식에서 계산을 조금 간소화한 기법이었다. (이전 글 참조) 이와는 달리, 보다 적은 데이터로 학습을 진행해야 하는 경우가 있다. 의료 산업, 교육 산업 같은 경우에 특히나 실제 사람..
[도서리뷰]64조 원 자산가가 첫 매출이 나기도 전에 회사를 팔아버릴 뻔 했던 사연 - 마이클 블룸버그 스토리 (2) 그는 해고된 뒤에, 주식을 거래하던 경험을 살려서 보다 트레이딩을 간편하게 만들어줄 수 있는 방법을 모색하게 되었고 그것이 바로 정보의 전산화 센터인 지금의 "블룸버그"였다. 당시에는 Innovative Market System이라는 이름을 가지고 있었다. 하지만 곧바로 데이터 사업을 시작한 것도 아니고, 컨설팅 업무로 금융계에 들어서게 된다. 금융업계의 "컨설팅"이란, 자료조사 업무와 동일하다고 보면 된다. 이런 저런 자료들을 모아서 보고서를 만들면 되는 것이다. 투자회사 메릴린치를 첫 고객으로 모셔와서는 그래도 훌륭하게 업무를 수행했다. 그리고는 아직 완성하지도 않은 컴퓨터 기반 데이터베이스를 6개월 뒤에 납품해서 만족스러울 경우에 돈을 받겠다는 요상한 계약까지 완성시킨다. 이미 메릴린치 내부에서는 ..
[도서리뷰] 64조 원 자산가가 첫 매출이 나기도 전에 회사를 팔아버릴 뻔 했던 사연 - 마이클 블룸버그 스토리 (1) "슈카월드"라는 채널은 시사 상식들을 쉽고 재밌게 풀어줘서 배속으로 들으면 이만한 채널이 또 없다. 채널 영상 중에 이런 제목을 단 것이 있다. "120억 원을 64조로 만든 데이터의 가격" 영상은 분명 유익하지만, 데이터를 활용한 사업이 어떻게 성공했는가에 대한 내용만 담고 있을 뿐 어떤 방식으로 사업을 운영해왔는지, 왜 퇴직금을 120억 원이나, 그것도 39살에 받을 수 있었는지에 대한 내용이 없어서 자서전을 읽으면서 어떤 사람인지 파악해보았다. 마이클 블룸버그는 중산층 정도 되는 가정에서 태어났다. 월급 회계사인 아버지와 주부인 어머니라고 하니, 분류하기는 애매할 수도 있다. 하지만 확실한 것은 미래에 64조 원을 모을 수 있을 것이라고 예견할 수는 없는 집안이라는 것이다. 중고등학생 때는 전자회사..
별 보러 가기 좋은 숨은 명소 - 속리산숲체험휴양마을 확진자 1000명 시대도 한 달이 다 되어 간다. 그와는 별개로 몇 년만에 맞이하는 화이트 크리스마스이기도 했다. 셀프 자가격리가 최고지만, 사람들이 많이 오지 않으니까 괜찮겠지- 하는 안일한 마음으로 속리산 숲체험 휴양마을로 1박2일 여행을 다녀왔다. 방이 상당히 많은데, 내가 묵은 방은 학소대였다. 4인실이라 적혀있는데, 침대 두 개에 온돌방이었다. 네 명이서 간 터라 바닥에서도 잤어야 했는데 온돌이 생각보다 후끈하게 잘 작동해서 따숩게 잘 잤다. 속리산숲체험휴양마을은 기와집 - 통나무집 - 초가집 - 너와집 등등 다양한 컨셉이 있는데 사진에서도 볼 수 있듯이 학소대는 초가집이다. 그럼에도 가격은 18만원으로 (성수기 비수기 동일) 비싸다는 단점이 있지만 장점이 워낙 명확하다. 1. 다른 투숙객들과 ..
경영학 전공자의 빅데이터 활용기 - Kaggle로 EPL 승부 예측 "데이터 처리 공부 좀 해보려면 어떻게 해야 돼?" "캐글 함 들어가봐" 이런 간단한 이유로 캐글에 접속하게 되었다. 무슨 콘테스트가 계속 열린다고만 알고 있었던 캐글이었는데, 생각보다 더 다양한 콘텐츠들이 있었다. 1. 타이타닉 생존자 계산 입문 캐글에 접속한 사람이라면 꼭 해봐야 하는 튜토리얼이다. 1912년 4월 15일 침몰한 타이타닉은 100년이 더 지났음에도 불구하고 승객정보를 꽤나 자세하게 보유하고 있었고 또 지금까지 보관 중이었다. 덕분에 당시의 비극은 현재의 공부수단이 되어 사람들이 탑승자 정보를 바탕으로 생존확률을 계산하게 되었다. 생각해보면 끔찍하기도 한 이야기이다. 당시의 생존자는 벌써 자연사했겠지만, 희생자의 직계비속 정도는 살아있을테고 꽤나 가슴아픈 추억일텐데... 그래도 당시 탑..
"Ultra" 칭호를 부여받은 첫 번째 웨어러블 Sincere 라는 말의 유래를 아십니까? 르네상스 시대의 조각상들 중에는 왁스를 사용한 작품이 많다. 손가락 같은 정밀한 부분을 조각하다가 대리석이 부러지기라도 하면 왁스를 본드처럼 사용한 것이다. 하지만 그 와중에도 미켈란젤로 같은 최고의 예술가는 왁스 없이도 작품 뚝딱이었다. Sine (Without) + Cera (Wax)가 합쳐져서 아 저 작품은 왁스 없이 만들어진 진또배기구나, Sincere하구나 하는 단어가 탄생한 것이다. 손의 움직임을 재현하는 것은 예나 지금이나 어렵다. 뉴질랜드의 스타트업 "Stretch Sense"의 경우에는 오직 손의 움직임을 재현하는 것만으로 제품을 만들었을 정도이다. Stretch Sense 작동 영상 위 Stretch Sense는 장갑 전체에 Stretch Se..
기계과 창업이 망하는 이유 - 교수 창업의 예시들 2016년 서울대 기계과 박종우 교수가 창업한 "세이지리서치"는 현재 48억 원 이상을 투자받으며 성장하고 있다. 박종우 교수 본인의 주 연구 분야는 로보틱스, 즉 제어 측면이다. MIT EECS(전기전자 및 컴퓨터 공학) 학사와 하버드 응용수학 박사를 졸업해서 기계과 교수로 임용되었을 만큼 탄탄한 수리체계를 바탕으로 로봇 제어를 가르쳤고 교과서로 쓰이는 교재까지 집필할 정도로 해당 분야의 권위자이다. "으음 로봇 제어분야에서 창업이라... 로봇팔을 만드나?" 세이지리서치는 놀랍게도 제어와는 거의 상관이 없다. 딥러닝을 바탕으로 한 영상인식을 통해 제품의 품질을 검사하는 시스템이 주된 상품인 것이다. 교수 본인이 CEO로 있고, 9명의 재직자들은 대부분 연구실 출신이거나 현재도 석박사 과정에 있는 사람들..
[CS234] Lecture 10: Policy Search III 정리 9과에서 (제대로 이해한 것은 아니지만) 배운 내용은 위 슬라이드에 다 담겨있다. Return 과 Target (Advantage Estimate), 그리고 해당 Gradient 방향으로 얼마나 이동할 것인지를 결정하는 방법을 배웠고 이를 총 집합하면 "기본적인" Policy Gradient 알고리즘을 익히게 되는 것이다. 특히 해당하는 gradient 방향으로 "얼마나" 가야하는지에 관한 문제는 Step Size를 자동화하는 것과 맞닿아있으며 미래의 정보 없이 과거 데이터만 가지고 있는 상황에서 다음 step으로 얻을 데이터를 활용해서 만들어내는 행동지침이 현재와 버금가는 가치를 지니고 있을 것인지 판단하는 것이 필요했다. (지루한) 식 전개 결과, Loss Function을 특정하게 변형시켜준다면 새..
[CS234] Assignment 2 풀이 CS234 Assignment 2는 Tensorflow에 대한 기본적인 이해가 필요하다. 과제를 풀기 위해 Tensorflow Wiki를 정독하는 것은 너무 비효율적으로 느껴졌고, 사실 Wiki를 이해하기도 쉽지 않았다. 그래서 과제가 어떻게 구성되어 있는지를 먼저 익혀보고자 한다. Imitation Learning의 일종이라고 생각하면 될 것 같다. 전문가가 짜놓은 Deep Q Network 구조를 학습함으로써 RL에 대한 감을 좀 익히고....는 사실 과제 해답을 먼저 보지 않으면 과제 자체를 풀 자신이 없다. Assignment 2의 코딩 과제는 총 다섯 문제(Q1 ~ Q5)이다. 각 문제 당 여러 개의 함수를 작성해야 하니, 실제 양은 그보다 많다. 모든 문제를 풀면 Mnih 교수의 Atari D..
[전공] 자동차업계에서 따돌림 당하는 기계공학 학생들 며칠 전 친구 결혼식에서 만난 선배는 서울대 대학원 기계공학 내연기관 분야 전공 박사과정 학생이었다. 내연기관 분야가 이렇게 빨리 사그라질 줄은 그 분이 전공을 정하던 학부 3~4학년 시절에는 몰랐을 테다. 뿐만 아니라, 요즘 대부분의 채용 공고에서 기계과는 제외되어 있기 일쑤다. 말하자면 소프트웨어의 시대라는 것이다. 소프트웨어의 발달이 끝나고 다시금 하드웨어의 시기가 올 수 있을까? 기계과는 그동안 뭘로 먹고 살아야 하는가? 자동차의 파워트레인(동력장치)이 모터 혹은 하이브리드로 바뀌게 되면 우선 부품 수가 많이 준다. 일단 모터가 엔진보다 생산하기가 쉽기에 발생하는 일이다. 하지만 모터에 필요한 부품이 따로 생겨나는 일도 있다. 대표적인 사례가 베어링이다. 베어링은 사실 회전하는 제품에는 모두 들어..