CNN의 가장 보편화된 버전인 ResNet을 익혔으니, 내가 알고 있는 언어 모델의 가장 보편화된 버전인 Transformer를 공부하기 전에 LSTM을 읽어봐야겠다 생각했다. 우선 "보편화"에 대한 정의를 생각해보자면, 1) 만족할만한 성능을 내면서 2) 구현하기 쉽도록 각종 튜토리얼이 많이 쌓여있어야 한다는 점이다. 그리고 Transformer를 바로 공부하지 않고 LSTM을 보는 까닭은, 예전에 하던 딥러닝 스터디에서 봤던 강연의 제목 때문이다.
위 제목 때문에, "아, Transformer를 이해하려면 LSTM부터 알아야겠구나!" 하는 생각을 했던 것이다. Transformer와 LSTM의 비교가 이뤄지는 강연이니, LSTM을 알면 Transformer를 더 잘 이해할 수 있을 것이라는 생각을 했다.
하지만, LSTM을 막상 찾아보니, 어떤 것으로 공부를 해야 하는지 막막했다. 아주 예전에 CS231n 혹은 다른 강의를 통해 접했던 Hidden Markov 등등 이름만 알고 있는 개념들이 즐비했기에 1995년부터 누적된 LSTM의 전체 역사를 다 훑기에는 시간이 좀 아까웠다. 어차피 알고 싶은 것은 Transformer인걸!
Understanding LSTM Networks -- colah's blog
그래서 LSTM에 대한 기본적인 내용들은 위 블로그를 읽어보면서 정리해보기로 했다. 수박 겉핥기 식이더라도, 한 번 훑고 나면 Transformer 이해에 좀 더 도움이 되기를 바랄 뿐이다.
'트렌드 한눈에 보기 > 학계 트렌드' 카테고리의 다른 글
RoNIN: Robust Neural Inertial Navigation, IMU 사용기 (0) | 2023.03.14 |
---|---|
[딥러닝 공부] 2일차: Transformer를 공부하기 전에 훑어보는 LSTM (이론편) (0) | 2023.01.03 |
[딥러닝 공부] 1일차: ResNet (2016)을 공부하는 2022년의 나 (실습편) (0) | 2022.12.25 |
[딥러닝 공부] 1일차: ResNet (2016)을 공부하는 2022년의 나 (이론편) (0) | 2022.12.17 |
[딥러닝 공부] 0일차: pytorch 튜토리얼 진행 (1) | 2022.12.17 |