백본 모델(back-born Model) 정리(Feat. CNN기반,자연어 처리, 트랜스포머(Transformer) etc)

딥러닝(Deep Learning)/딥러닝 기타 지식

JIN_YOUNG _KIM 2024. 5. 7. 14:02

* 컴퓨터 비전과 딥러닝 P524 中....

자연어 처리 백본 모델: BERT, GPT라는 자연어 처리(NLP) 백본 모델이 있다.

-> 이를 이용하여 [언어 번역],[챗봇],[질의응답],[문서 요약] 등을 포함해 수십 가지 응용 문제에 성공적으로 전이 학습하다.

비전 트랜스포머 백본 모델 : SWIN Transformer

(SWIN Transformer는 분류, 검출, 추적 등에 두루 사용할 수 있는 백본 비전 트랜스포머를 만들기 위해 애초에 설계됨)

* 부연 설명 : BERT, GPT 와 같은 [자연어 처리] 백본 모델과 달리 [비전]용 Transformer는 영상의 특성을 고려하여 설계해

야 한다.

영상의 특성 : 영상을 구성하는 물체는 물체끼리 겹치거나 섞이고, 물체와 배경이 심하게 겹치거나 섞여 있는 특징이 있다.

-> 요약해서 말하자면, 문장을 구성하는 단어는 Scale 변화가 없는데 영상을 구성하는 물체는 아주 다양한 크기로 나타난

다. 한 문장을 구성하는 단어는 수십 개에 불과한데 영상을 구성하는 화소는 수만~수백만 개이다.

이러한 이유로 비전 Transformer를 백본으로 설계할 때는 위와 같은 영상의 특성을 고려해야 한다.

CNN 기반의 백본 모델 : VGGNet, GoogLeNet, ResNet

자율학습(self-supervised Learning) 기반의 컴퓨터 비전 사전 훈련 모델 : iGPT, BEit ( 컴퓨터 비전과 딥러닝 P 529)