본문 바로가기

전체 글

(393)
[딥러닝 공부] 2일차: Transformer를 공부하기 전에 훑어보는 LSTM (준비편) CNN의 가장 보편화된 버전인 ResNet을 익혔으니, 내가 알고 있는 언어 모델의 가장 보편화된 버전인 Transformer를 공부하기 전에 LSTM을 읽어봐야겠다 생각했다. 우선 "보편화"에 대한 정의를 생각해보자면, 1) 만족할만한 성능을 내면서 2) 구현하기 쉽도록 각종 튜토리얼이 많이 쌓여있어야 한다는 점이다. 그리고 Transformer를 바로 공부하지 않고 LSTM을 보는 까닭은, 예전에 하던 딥러닝 스터디에서 봤던 강연의 제목 때문이다. 위 제목 때문에, "아, Transformer를 이해하려면 LSTM부터 알아야겠구나!" 하는 생각을 했던 것이다. Transformer와 LSTM의 비교가 이뤄지는 강연이니, LSTM을 알면 Transformer를 더 잘 이해할 수 있을 것이라는 생각을 했..
[딥러닝 공부] 1일차: ResNet (2016)을 공부하는 2022년의 나 (실습편) ResNet 실습을 어떻게 해볼까 고민을 하다가, 그냥 github에 올라온 실습 코드를 그대로 따라가보기로 했다. ResNet: Deep Residual Learning for Image Recognition (꼼꼼한 딥러닝 논문 리뷰와 코드 실습) - YouTube 위 영상에서 소개해주는 ResNet 원리와 코드들이 상당히 쉽고 좋았다. 다만, 예제 코드에서는 ImageNet dataset을 사용하는데, 2021년 3월 이래로 사이트 개편이 되면서 더 이상 imagenet 예제를 사용할 수 없게 되었다. 다양한 예제들을 주피터 노트북을 통해 시도해봤지만, 일주일이 지난 오늘, 뭐가 뭔지 기억조차 잘 나지 않는다. 하지만 첫 술에 배부르랴? 일단 ResNet을 시도해봤으니 다음 논문으로 넘어가나 봐야겠다.
[딥러닝 공부] 1일차: ResNet (2016)을 공부하는 2022년의 나 (이론편) 아니 14만 회 인용된 논문은 난생 처음 본다. 아마 CNN을 처음으로 제안했던 논문은 이보다 더하겠지? CVPR이라는 Computer Vision 관련 학회에 2016년 publish된 논문으로, Kaiming He 등 microsoft 출신 연구진 4명이 작성했다. 이름만 들었을 때는 "어디 오스트리아쪽 사람인가?" 했더니 중국인이었다. 4명 모두 중국계다. 아래 그래프를 통해 보여지듯, ResNet의 장점은 두 가지라고 한다. 1) 성능 향상: 기존에 layer를 쌓아갈 때 발생하던 성능 저하 문제를 "잔여학습 (Residual Network)"를 통해 해결했음 2) 쉬운 알고리즘: 이해하기 쉬운 간단한 방법. 다만, 아래 그래프에는 첫 번째 장점 (성능 향상)만 확인할 수 있다. 초반 intro만..