본문 바로가기

분류 전체보기

(393)
PyTorch를 활용한 Soft Actor Critic - 2탄 Soft Actor Critic을 처음 발표한 논문은, DQN 논문처럼 "와! 직관적이다!" 하는 감탄을 자아내지는 않는다. 기본적으로 '엔트로피'라는 추상적이기 그지없는 개념을 사용하는 것으로 학습의 목적함수를 설정하고 나섰기 때문이기도 하다. SAC의 목적함수는 위와 같이, 총 에피소드에서의 보상과 함께 엔트로피의 합을 최대화하는 것이다. 일반적으로 엔트로피가 큰 상태는, 굉장히 어질러져 있는 것을 의미하므로 목적함수는 이렇게 말하는 것이다. "보상을 최대화시키는 행동지침을 짜 와! 그런데 학습이 충분히 랜덤화되어 있어야 해!" 이를테면, "집안 곳곳을 잘 둘러보되 기름이 담긴 찻 숟가락도 온전히 보전해오게"라고 하는 옛 현자의 말(꼬장)과 비슷하다. 다행인 것은, 집안을 둘러보면서 조심조심 찻 숟가..
신안 해상풍력단지 조성 - 세계 풍력발전단지 실패 사례 지난 주 금요일, 문재인 대통령이 직접 전남 신안에 방문하여 세계 최대 규모가 될 풍력발전단지 사업을 둘러보았다. 기사에 따르면 2030년까지 48조 5천억 원 가량 투자가 이뤄지고 발전용량은 8.2GW 급이라고 하니, 현재 남한 내 원자력 발전소 9기의 총 용량(10.15GW)에 버금가는 규모가 된다. 8.2GW급 규모는 현재 세계 최대 해상규모 풍력발전단지인 영국 Hornsea Wind Farm의 174개 바람개비를 활용한 1.2GW를 가뿐하게 뛰어넘는다. Hornsea의 향후 계획이 6 GW 생산인 것을 감안해도 큰 규모인 것이다. 풍력발전 자체로서는 굉장히 전도 유망한 재생에너지임이 틀림없다. 미국 풍력발전량 추이를 살펴보더라도, 주춤하는 구석이 별로 없이 연간 발전설비용량이 10% 정도씩은 늘 ..
★★★★☆ 넷플릭스, 승리호 - 반드시 봐줘야 할 올해의 역작! 개인적으로는 송중기 팬이다. 실제로 본 작품은 태양의 후예밖에 없는 데다가, 송중기의 팬이라기 보다는, 송혜교의 미모에 반했던 것이 큰 시청요인이었지만 아무튼 송중기님 응원합니다. 그래도 이번에 넷플릭스에서 개봉한 승리호는 좀 너무했다 싶다. 송중기에 김태리, 진선규, 유해진까지 연기로는 흠잡을 데 없는 사람들이다만 대본이 좀 지나치게 상투적이다. 우주 쓰레기를 모아다가 고물상에 팔아넘기는 직업을 가진 사람들인데, 쿨한 성격을 묘사하고자 어두컴컴한 우주선에서 선글라스까지 끼고는 운전 지휘를 하며 위스키를 꼴깍 꼴깍, 다른 사람들이 끌어가려던 우주 쓰레기를 낚아채서는 "좀 비켜라-" 목소리를 깔고 질겅질겅 씹으며 내뱉는 대사. 영화에 필요한 것이 뭐 영상적인 요소들도 있겠지만, 역시 두 시간 여를 투자해야..
북한산 백운대 코스, 운동화로 가능? 나는 군생활을 인왕산에서 했는데, 매일 같이 산에 오르다보니, 인왕산 뒤켠에 자리잡은 북한산을 언젠가는 가봐야지- 생각을 하게 되었다. 인왕산은 344m의 바위산으로 야트막하기 그지 없는데, 나름 또 험준한 맛이 있는데다가 경치가 기가 막히니까 북한산처럼 높은 산은 몇 배 더 멋지겠다- 하는 생각이었다. 친구들에게 북한산에 가보자 말할 때마다 욕만 바가지로 먹고는, 제대한 지 5년이 지난 지금에서야 북한산을 다녀오게 되었다. 북한산우이역에서 내려 가까이서 보니 더 장관이었다. 계림이니, 베트남 판시판이니 하는 곳을 가본 적이 있지만 그에 못지 않게끔 멋진 광경이었다. 북한산은 단위면적 대비 가장 많은 방문객 수로 기네스북까지 올랐으니, 계림이나 판시판 보다도 대단한 곳일 수 있다. 북한산에 올랐던 두 번..
PyTorch를 활용한 Soft Actor Critic - 1탄 Soft Actor Critic은 2018년 발표된 알고리즘인데, Actor Critic 계에서는 아직도 최정상급 최적화를 자랑하고 있다. 그래서 이 알고리즘을 마지막으로 OpenAI Cartpole 예제를 마무리하려고 했는데, 그것이 화근이었다. 기존의 DDPG(지난 포스팅) 알고리즘은 Deterministic Policy Gradient를 사용하고 있으며 이는 주어진 상황에 행동을 매치시킬 때, 확률로 표현되지 않는다는 것을 의미한다. 예를 들어 A라는 상황에는 왼쪽, B라는 상황에는 오른쪽이 매칭되고 A 상황에 적합한 행동이 왼쪽일 확률이 80%, 오른쪽일 확률이 20% 같은 방식으로는 작동하지 않는 것이다. 하지만 실생활의 많은 부분에서는 그렇게 상황과 행동이 딱 들어맞는 경우가 없기에 초기 파라..
PyTorch를 활용한 Actor-Critic Tutorial 3탄 2016년 발표된 논문을 따라 읽던 중, 해당 논문의 알고리즘이 DDPG라는 이름을 가지고 있다는 것을 알게 되었고 더 나아가, colab의 코드가 해당 논문에 기반하고 있다는 확신을 얻게 되었다. 그래서 본격적으로 논문을 정리해 보았다. 1. DDPG Deep Deterministic Policy Gradient의 줄임말로서, DPG라는 알고리즘을 개선한 것이다. 구체적으로는, DQN와 DPG를 섞었다는 게 포인트인데, DQN은 discreet한 상황이 주어졌을 때에만 적용 가능하다는 한계점이 있다. 매 상황마다 최적의 Q를 찾아야 하는데, 연속된 상황(continuous states)이 주어졌을 경우에는 처리해야 하는 계산량이 기하급수적으로 늘어나기 때문이다. 반면에 DPG는 Actor Critic ..
서부면허시험장 - 따릉이로 연습해서 합격한 후기 친구들을 만나러 이곳 저곳 돌아다니다 보니, 도대체 죄다 운전을 하며 나를 반겨주었다. 면허도 없는 내가 참 민망도 하고, 애처롭기도 하여 금세 "아 면허 따야겠다" 마음 먹게 되었다. 어렸을 때부터 자동차에 대해 무서운 마음도 있었던 데다가, 주위에서 2종 자동 정도는 학원에 다니지 않고도 순풍순풍 잘 취득하는 친구들이 있다보니, 독학으로 면허를 따야겠다 마음을 먹고서는 그 동안 시행을 안했던 것이다. 사실 2020년 11월에 기능까지는 붙었지만, 강남 면허시험장에서 도로주행을 코스 이탈로 떨어지고 나서 더욱이 면허에 대한 생각이 사라진 상태였다. 그래도 마음을 먹은 김에 재빨리 따버리자 싶어서 월요일(어제)에 도로주행 시험을 열심히 예약했다. 참 비효율적으로 신청하도록 되어 있는 것이, 인터넷 접수는..
PyTorch를 활용한 Actor-Critic Tutorial 2탄 Actor Critic의 역사가 생각보다 오래되어서 내가 적용한 알고리즘에 대체 어느 논문에 기반해있는지 알아보기가 어려웠다. OpenAI의 한 연구원이 정리해놓은 내용에 따르면 2016년부터 현재까지 활발히 사용되는 알고리즘만 7개는 넘는 것 같다. Actor Critic 자체는 1998년 머신러닝 교과서에도 수록되어있는 터라, PyTorch로 구현한 내용은 이와는 분명히 다를 텐데... 하며 검색하다가 2016년에 발표된 논문을 찾을 수 있었다. 하지만 생각보다 논문이 너무 무섭게(어렵게) 쓰여있는 바람에 읽어볼 엄두는 못내고, 일단 코드를 분석하면서 의미를 파악해보기로 했다. 기본적인 Actor Critic의 내용은 지난 CS234 수업에서 배웠듯이, Policy와 Value 네트워크를 따로따로 학..
Python를 활용한 코스피 재무 데이터 확인 방법 3 + 1가지 "데이터를 만지려면 크롤링은 기본이지" 이렇게 말한 친구가 있었다. 크롤링이란, 인터넷에 있는 데이터를 코드를 통해 자동으로 긁어오도록 만드는 작업을 뜻하는데 예를 들면 네이버 금융을 통해 조회한 네이버 주가 정보 중에서 실시간으로 업데이트되는 내용을 자동으로 받아올 수 있다. 물론 맞는 말이다. 하지만 실시간으로 업데이트 되는 내용이 굳이 필요하지 않다면, 다시 말해 분기별로 발표되는 재무제표 데이터를 확인하고 싶다면 굳이 크롤링의 영역까지는 넘어가지 않아도 된다. 이미 관련 정보들을 잘 정리해 놓은 API가 많이 존재하기 때문이다. API는 코딩계의 프로그램이자 공식이라고 생각하면 된다. 원의 둘레를 구할 때, 열심히 미분과 적분을 때려가며 구하는 것이 크롤링이라면 2*$\pi$ * R 에서 R 값만..
PyTorch를 활용한 Actor-Critic Tutorial 1탄 DQN의 형편없는 performance에 굴하지 않고, actor-critic을 활용해서 cartpole 문제를 풀어보기로 했다. 마찬가지로, 오늘은 실행해보는데 의의를 뒀으며 정확히 어떤 알고리즘인지 파악하지는 못했다. colab.research.google.com/drive/1od7-cpNDHKUBdn8A-zL8da7tgVL3DYrf?usp=sharing Google Colaboratory colab.research.google.com 그럼에도 불구하고 코드는 상당히 간결하고 결과물은 상당히 좋았다. 오히려 DQN보다도 코드가 짧았던 것 같다. 에피소드가 1000번이 넘도록 풀리지 않던 문제가 꼴랑 400회 만에 너끈히 풀린 것이다. 또한 최대 reward가 200에 묶여있다는 사실도 알게 되었다. ..