본문 바로가기

분류 전체보기9

MobileNet 논문 리뷰 https://arxiv.org/pdf/1704.048611. IntroductionCNN은 Alexnet이후 CV분야에서 널리 사용되고 있다. 이 후 더 높은 정확도를 달성하기 위해 더 깊고 더 복잡한 네트워크를 만드는 추세지만 이는 크기와 속도 면에서 효율적으로 만드는 것이 아니며 자율주행, 로봇 과 같은 실제 응용분야에서는 계산적으로 제한된 플랫폼에서 수행되어야 합니다.해당 논문에서는 모바일에서도 쉽게 부합할 수 있는 매우 작고 저지연의 모델을 구축하기 위한 효율적인 네트워크 구조와 두개의 하이퍼 파라미터세트에 대해 설명합니다.작은 모델에 대한 선행연구(2)와 MobileNet 아키텍쳐와 두가지 하이퍼 파라미터인 width multiplier, resolution multiplier(3)를 설명하고.. 2025. 4. 8.
GPT-1 논문 리뷰 https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf 1. IntroductionNLP분야에서 labeled 데이터는 매우 부족하기 때문에 해당 논문에서는 unlabeled 된 데이터를 활용해 generative pre-training과정을 거친 후, 특정 task에 맞는 labeled 데이터를 파인 튜닝하여 성능을 도출합니다.기존의 딥러닝 모델은 대부분 대량의 수작업 라벨링 데이터를 요구하지만, 이런 데이터는 많은 도메인에서 확보하기 어렵고 비용도 많이 듭니다. 따라서 라벨이 없는 데이터를 효과적으로 활용할 수 있는 방법이 중요합니다.논문에서는 Transformer 모델을 사용해 긴 문맥을 잘 처리할 수 있도록 학습하고, 이후에.. 2025. 4. 8.
Transformer 논문 리뷰 https://arxiv.org/abs/1706.03762Abstract시퀀스 모델 대부분은 인코더와 디코더를 포함한 CNN기반의 모델들이다. 가장 성능이 좋은 모델 역시 인코더와 디코더를 포함한 attention기반 방식이다.해당 논문에서는 RNN 및 CNN이 아닌 attention 기반의 Transformer라는 새로운 모델 구조를 소개한다.기계번역 분야에서 해당 모델은 품질이 우수하면서도 병렬화가 더 잘되고 학습 시간이 짧은 모습을 보여주었으며, WMT 2014 영어-프랑스어 번역 작업에서 8개의 GPU에서 3.5일 학습 후 41.8의 BLEU점수를 확립하였다.1. IntroductionRNN, LSTM, GRU와 같은 모델들이 제안되었는데 이는 한번에 한 단어씩 넣는 방식처럼시퀀스에 포함된 각각의.. 2025. 4. 1.
U-Net 논문 리뷰 https://arxiv.org/abs/1505.04597 1.Introduction최근 2년간 딥 합성곱 신경망이 다양한 시각 인식 작업에서 기존 기술보다 우수한 성능을 보여왔습니다. 그러나 초기 합성곱 신경망은 훈련 데이터와 네트워크 크기의 한계로 인해 성과가 제한되었습니다. Krizhevsky 등의 연구에서는 ImageNet 데이터셋(100만 개 이미지)에서 8개 층과 수백만 개의 매개변수를 가진 대형 네트워크를 지도 학습하여 획기적인 성과를 달성하였으며, 이후 더 크고 깊은 네트워크들이 개발되었습니다.합성곱 신경망은 일반적으로 이미지 분류에 사용되지만, 생물 의학 이미지 처리에서는 픽셀 단위의 지역화가 필요합니다. 그러나 생물 의학 분야에서는 대량의 훈련 데이터를 확보하기 어려운 문제가 있습니다... 2025. 3. 25.