본문 바로가기

트렌드 한눈에 보기

(209)

[CS234] Lecture 4: Model Free Control 정리 지난 lecture 3에서는 행동지침을 어떻게 평가하는지를 배웠고, 이번 시간에는 행동지침 평가 방식을 통해 좋은 행동지침을 구별할 수 있다면 그걸 어떻게 배울 것인지에 관한 내용을 배울 것이다. 중요한 개념이 하나 나오는데, On Policy 와 Off Policy라는 것이다. Monte Carlo On Policy, Monte Carlo Off Policy 같은 용어로 쓰인다. 지금 배우고 있는 것이 모델이 주어지지 않은 상태에서 과거의 경험만으로 행동지침을 세우는 방식이기 때문에 On Policy라 함은, 과거의 경험 그대로 행동지침을 세우는 것을 뜻하고 Off Policy는 과거의 경험과는 다른 방식을 선택하는 것을 뜻한다. $$ (s_1, a_1, s_2, a_2) \\ (s_1, a_2, s_..

[CS234] Lecture 3 - Model Free Policy Evaluation 정리 Lecture 2가 Model(상태가 변할 확률, 보상 함수 등)이 주어졌을 때 행동지침의 평가에 대한 내용이었다면 이번 Lecture 3 강좌는 그런 것들이 주어지지 않았을 때 어떻게 행동지침을 세울 수 있는지에 대한 내용이다. 직관적으로 생각해보면, 상태가 변할 확률까지는 없어도 되겠다만 보상에 대한 정보 없이 행동지침을 세울 수 있는지 의문이다. 파블로프의 개만 하더라도 "맛있는 음식"이라는 보상이 있었기에 종소리에 침을 흘리는 행동지침을 세우지 않았나? 무슨 내용인지 좀 더 살펴보자. 모델이 있을 때 행동지침을 평가하는 방법은 Dynamic Programming이었다. 이런식으로 아예 모델을 곱해가면서 반복 계산을 수행하는 것이었는데 모델이 없을 경우에는 이렇게 곱해주진 못한다. 모델이 없을 때 ..

[CS234] Lecture 2: Given a model of the world 정리 Lecture 2: Markov Decision Process가 주어졌을 때 올바른 결정을 내리는 방법 Markov Decision Process(MDP)란 무엇인지, 올바르단 것은 무엇인지 확인하면 됨 MDP 이외에도 Markov Reward Process 같은 게 등장하는데 핵심은 역시 MDP라는 것을 잊지 말자 Markov Process: 지난 시간에도 나왔지만, 핵심적인 내용이므로 다시 보면 좋음 과거의 정보가 현재 상태에 모두 녹아있어서, 미래는 현재 상태만 관찰해서도 알 수 있음 즉, 미래는 과거와는 상관이 없다, 현재 상태만 있다면. Markov Process의 구성 Markov Process는 1. 한정된 수량의(무한대도 상관없다) 상태(State) 값과, 2. 한 상태에서 다른 상태로 너..

[CS234] Reinforcement Learning: Lecture 1 정리 강화학습을 어떻게 공부하면 좋을까 싶어 찾아보다가 딥러닝 공부로 CS231n이 필수 요소처럼 여겨지는 만큼 CS234 역시 같은 위상에 있지 않을까 하는 마음에 듣게 되었다. 하지만 설명 방식이 나와는 잘 맞지 않았다. 예시를 좀 더 들어주면서 설명하면 좋을텐데, 알고리즘만 때려넣는 설명방식이랄까...? 중간 정도까지 강의를 들었지만, 도대체 이해할 수 없이 넘어간 부분이 많았고 한 번 다시 들으면서 내 나름대로 내용을 채워 넣었다. 최대한 한국어 용어와 비유를 사용해서 설명하려고 맷돌을 굴려봤지만 제대로 성공하지 못한 경우가 많다. Goal of RL: Learn to make good sequences of decision 연속된 결정들을 잘 내릴 수 있도록 학습하는 것 Sequences of dec..

[서울대 기계과] 웨어러블의 방향은 아이언맨을 향해 가고 있나요? (하편) 상편에서 이어집니다 1. 메시: 딥러닝 아이언맨은 말그대로 철로 만든 갑옷을 입고 있기에 아이언맨이지만, 실제로 철을 그대로 입게 되면 피부가 짓무르고 난리도 아닐 것이다. 피부는 연약해서 더 부드러운 재질과 닿아야 하고, 그렇게 소프트로봇이 발달했다. 일반적으로 생각하는 로봇팔처럼 단단한 물체가 아니라, 고무처럼 부드러운 재질을 제어해서 원하는 움직임을 행하도록 하는 것이다. 문제는 부드러운 재질일 수록 제어가 어렵다는 것이다. 이불을 갤 때 생각하는 것처럼 4등분이 되지 않는 이유는 제어하고자 하는 위치 이외의 부분이 작은 힘에도 움직이기 때문이다. 아래 그래프는 실제로 고무 재질로 만들어진 로봇의 움직임을 표현한 것이다. 뭘 알아볼 수 있어야 제어를 하건 말건 하는데, 이건 답이 없다. 인간의 머리..

[서울대 기계과] 웨어러블의 방향은 아이언맨을 향해 가고 있나요? (상편) "태블릿PC" 라는 말을 들으면 기분이 어떻습니까? 으음 태블릿 PC군... 딱 그 정도이다. 그래서 뭐? "양자컴퓨터" 했을 때처럼 "오 개쩐다" 하는 반응은 없다. 2011년이면 모를까. 지금 웨어러블의 상태가 딱 그렇다. 으응 웨어러블... 자 그럼 딥러닝을 공부해볼까요? 하듯이 물흐르듯 지나간다. 문제는 태블릿 PC처럼 확실한 제품이 있는 것이 아니란 사실이다. 시작하기도 전에 끝나버린 싸움을 웨어러블 업계는 붙잡고 있는 것일까. 이 글은 2021년부터 웨어러블을 공부해야 하는 대학원생이 앞으로의 향방을 점쳐본 결과이다. 보스턴 컨설팅그룹 (BCG)에서 만든 표인데, 한 기업이 가지고 있는 아이템이 현재 어떤 단계에 있으며 앞으로 어떻게 변화해야 하는가- 하는 것을 알아보기 쉽게 그린 것이다. 시..

[현대자동차 Open RnD Day] 2025년 Top 3를 노릴 수 있는 이유 "군대보단 현대가 심합니다." 현대그룹의 딱딱한 문화를 설명하는 한 마디이다. 실제로 현대자동차 산학장학생 설명회에 참석했을 때 강연자 중 한 명이던 산학장학생에게 현대의 문화를 물어봤을 때 나왔던 대답이었다. 물론 "그런 말은 옛말이구요~ㅎㅎ 이제는 달라요~^^" 하는 것이 요지였지만 삽시간에 주변 실무자의 표정이 흙빛이 되는 것을 볼 수 있었다. 그럼에도, 현대자동차는 2025년 친환경 부문 자동차 Top 3안에 포함될 것이라고 자신있게 공개 콘퍼런스에서 선언했다. 0. Open RnD Day의 의미 콘퍼런스는 13시부터 16시 30분까지 3시간 30분 간 꽤 길게 진행되는데, 다양한 분야에서의 사업다각화를 추진 중인 상태에서 왜 이런 전략을 추진하고 있는지 설명하는 자리이다. 현대자동차의 미래는 아..

4000%의 투자 증가에도 친환경 스타트업이 쫄딱 망하는 이유 0. 왜 이제와서 친환경을? 투자처가 마땅치 않아 새로운 산업 투자처를 모색 중이든가, 앞으로 친환경이 대세라고 하기에 스타트업 아이템을 구상 중이든가, 그것도 아니면 잠깐 불어왔던 테슬라 주식 열풍에 휩쓸렸던 개미라면 꼭 알아둬야할 친환경 산업 관련 상식이 있다. 2013년부터(2차 오바마 행정부) 지금까지 친환경 관련 투자규모는 3750% 증가했음에도 투자금을 회수했다고 말할만한 기업은 전무하다. 그 이유와, 앞으로 바이든 행정부에서는 또 어떻게 달라질지 전망을 살펴보도록 하자 1. 친환경 투자의 역사 2016년 MIT에서 연구한 결과에 따르면, 2006년부터 2011년까지 USD 25 Billion (한화 약 27조 원)이 투자되었는데 투자 대상의 현재 기업가치는 그 절반도 안될 뿐더러 해당 기업의..

[서울대학교 기계과] 자기소개서에 바로 넣을 수 있는 IROS2020 로봇 연구 동향 0. 왜 IROS인가? "로봇" 이라는 말에 어떤 명령이든 수행하는 사물만 떠올리면서 흥미로워한다면 그것이야말로 아마추어에 가깝다. 아마추어는 학교에서 거들떠도 보지 않는다. 어떤 주제가 있고 자신이 관심있는 주제에 어떤 이슈가 있으며 자신은 어떤 방식으로 해당 주제에서 권위자가 되고 싶은지 세세하게 파악할 수 있어야 한다. 이를 가장 알기 쉬운 것이 로봇 학회에 참가하는 것이다. 그리고 현재 세계에서 가장 큰 로봇학회가 코로나 때문에 비대면으로, 그것도 무료로 일반대중에게 공개되었다. 위 사진을 클릭하면 IROS-2020 으로 연결된다 학회는 자신이 연구한 내용을 간략하게 설명하는 자리이기 때문에 논문을 끝까지 읽을 필요도 없이 연사가 말하는 핵심 내용을 듣고 알아서 판단하면 된다. 이것조차 알지 ..

이전 1 ··· 18 19 20 21 다음

티스토리툴바