* 컴퓨터 비전과 딥러닝 P524 中....
자연어 처리 백본 모델: BERT, GPT라는 자연어 처리(NLP) 백본 모델이 있다.
-> 이를 이용하여 [언어 번역],[챗봇],[질의응답],[문서 요약] 등을 포함해 수십 가지 응용 문제에 성공적으로 전이 학습하다.
비전 트랜스포머 백본 모델 : SWIN Transformer
(SWIN Transformer는 분류, 검출, 추적 등에 두루 사용할 수 있는 백본 비전 트랜스포머를 만들기 위해 애초에 설계됨)
* 부연 설명 : BERT, GPT 와 같은 [자연어 처리] 백본 모델과 달리 [비전]용 Transformer는 영상의 특성을 고려하여 설계해
야 한다.
영상의 특성 : 영상을 구성하는 물체는 물체끼리 겹치거나 섞이고, 물체와 배경이 심하게 겹치거나 섞여 있는 특징이 있다.
-> 요약해서 말하자면, 문장을 구성하는 단어는 Scale 변화가 없는데 영상을 구성하는 물체는 아주 다양한 크기로 나타난
다. 한 문장을 구성하는 단어는 수십 개에 불과한데 영상을 구성하는 화소는 수만~수백만 개이다.
이러한 이유로 비전 Transformer를 백본으로 설계할 때는 위와 같은 영상의 특성을 고려해야 한다.
CNN 기반의 백본 모델 : VGGNet, GoogLeNet, ResNet
자율학습(self-supervised Learning) 기반의 컴퓨터 비전 사전 훈련 모델 : iGPT, BEit ( 컴퓨터 비전과 딥러닝 P 529)
'딥러닝(Deep Learning) > 딥러닝 기타 지식' 카테고리의 다른 글
정밀도(Precision), 재현율(Recall) (0) | 2024.03.25 |
---|---|
Hyper Paramater Tuning(Feat. 모델 최적화) (0) | 2024.02.19 |