- 유명한 데이터 셋 -(컴퓨터 비전과 딥러닝 p 366)
1. Papers with Code 사이트
-> 딥러닝 관련 논문과 소스 코드, 데이터 셋을 제공. 강점으로는 데이터 셋별로 SOTA 성능의 역사적 추세를 그래프고 제시하여 현재 기술 수준을 가늠할 수가 있다.
2. 위키피디아(list of datasets for machine learning research)
-> 여섯 그룹으로 구분돼 있고 그룹마다 수십 개의 데이터 셋을 소개한다.
3. tensorflow(http://www.tensorflow.org/datasets.org/datasets/catalog/overview)
-> Image, Image classification, Object detection 데이터 셋으로 구분돼 있다.
4. AI 허브
-> 우리나라에서 만든 거임(비전 분야에서 패션,안무,반려견,행동,위성 등이 있다.)
5. ImageNet
-> ILSRVC 대회에서도 활용이 되며, 약 21,841 부류로 분류된 1,400만장 가량의 데이터셋이 있다.
6. COCO 데이터 셋
-> 80부류에 대한 33만 장의 영상이 있다.
분할 정보가 제공되며 영상을 설명하는 문장이 있다.
7. Open Images
-> 구글에서 제공한 것이며, [분류,검출,분할] 정보가 미리 레이블링돼 있고, 각 데이터에 'woman is jumping' , 'dogs inside car' 와 같은 레이블이 붙어 있어 [행동 분류]에도 활용 가능하다.
(이 아래부터는 특정 분야에 대한 데이터셋 소개)
8. Deep Fashion, Food-101, CheXpert
-> 특히 CheXpert는 환자 6만명의 폐 엑스레이 사진 224,316장이 있으며, 사진별로 의사가 진단한 내용이 텍스트 형태로 붙어 있다. 의료 관련 데이터셋은 장기별로 구축되어 아주 많다.(Li2021a)
또한 MICCAI(Medical Image Computing and Computer Assisted Intervention)이라는, 의료 영상처리 분야에서 가장 권위
있는 학술 대회가 존재한다. U-Net이라는 CNN 신경망은 이 학술 대회에서 처음 발표가 되었으며, 의료 영상을 [분할]할 목
적으로 개발이 되었다.[Ronnebergeer2015]
컴퓨터 비전의 경우 보통 위와 같은 데이터 셋을 사용하여 라벨링(Labeling) 작업이라는 것을 거친다.
LabelMe라는 무료 Labeling Tool이 존재한다.
그러나 대용량 데이터 셋 같은 경우에는 클라우드 소싱(Cloud Sourcing)을 통하여 인터넷에서 수많은 사람이 협력하여
Labeling 작업을 한다.
대표적인 클라우드 소싱(Cloud Sourcing) 사이트는 Mechanical Turk이다.
(Mechanical Turk는 Amazon에서 제공하는 서비스이다)
9. [Minaee2021a, 4절] - 분할(segmentation)을 위한 Dataset
(위에서 언급한 PASCAL VOC, ImageNet, COCO, OpenImages 데이터셋은 모두 분할(segmentation)을 위한 레이블을 포함이 돼 있다.)
10. 도심 도로 장면을 분할하는 데 쓰는 Cityscapes, 유튜브 비디어를 분할하는 Youtube-Objects, 자율 주행을 위한 KITTI
데이터 셋 등이 있다.
11. LVIS - COCO 데이터셋의 확장판이며, 특히 [사례 분할]을 위한 Labeling이 잘 돼 있다.(Gupta2019)
12. RGB-D 영상 데이터 셋
-> NYU-DepthV2, SUN-3D, 2D-3D-s 등
13. 얼굴 인식 데이터 셋
Yale, LFW, MegaFaace, VGG -> [컴퓨터 비전과 딥러닝 P421]에 다운로드 URL이 있다.
MegaFace : 67만명을 대상으로 총 470만장 얼굴 사진 수집VGGFace : 2,622명에 대해 260만 장의 얼굴 사진 수집이외에도 MS-Celeb-1M, Casia, IMDB-face 등이 있는데, 상세한 내용은 [Wang2021b] 참조
14. 성별과 나이 추정을 위한 데이터 셋MORPH 2 : 16세~77세인 사람의 얼굴 사진 55,134 장이 있다. 한 사람이 나이가 들면서 찍은 여러 장(평균 4장)의 사진들이 있어서 나이에 따른 변화를 분석하는 데 활용이 가능IMDB-WIKI : 50만장 이상의 연예인 사진을 성별,나이 정보와 함께 제공AFAD : 성별과 나이 정보를 가진 [아시아인] 얼굴 사진을 16만 장 이상 보유UTKface : [0세 ~ 116세] 사람에게서 수집한 나이, 성별, 인종 종보를 레이블링한 23,708장의 얼굴 사진이 있다. 이 외에도 더 많은 데이터 셋을 알아 보고 싶으면 [Angulu2018] 참조
(컴퓨터 비전과 딥러닝 P424에 위 데이터 셋 다운로드 url이 있다)