Vision Classification
• Image Data
- 대표적인비정형데이터
- 사람은이미지를눈으로보고바로인식할수있지만,
컴퓨터는이미지를각픽셀에입력되어있는 숫자값들의배열로인식
→결국Tensor!
- 컬러이미지는RGB의3개채널로구성, 흑백은1개채널로구성
Vision Classification
- 인간의시각적인지능력을따라잡기위한연구분야인Computer Vision의대표적인Task
- ImageNet Contest 2012(ILSVRC*)에 Alexnet이 최초로
Convolutional Neural Network 구조를 사용
- 당시2위알고리즘과10%이상의성능차이를보이며우승,
이후Vision Transformer 전까지CNN이Vision 분야의가장대표적인모델로등극
Vision Classification
• Convolutional Neural Network?
- Convolutional Layer와 Pooling Layer를 포함하는 신경망 구조
- 이미지처리에좋은성능을보임
- Alexnet, VGG, Resnet, Google Inception Net 등
Vision Classification
• 사용할Dataset : Fashion MNIST- 28 x 28 크기의Grey scale 이미지로,
각종 의류에대한이미지데이터
- 총60000개의학습셋과10000개의테스트셋
Convolutional Operation
- Convolution Filter(=Kernel)이 이동하면서 픽셀과 합성곱을 통해 Feature Map을 생성
- Convolution Filter의 값은 학습의 대상(parameter)으로,
점차 각 filter 마다 이미지의 특정 패턴(선, 색상, 질감등)을학습하게됨
- Filter size는 주로 3x3, 5x5 등 정사각형 모양을 주로사용함
메타코드 4기 서포터즈 활동의 일환으로 작성한 게시글입니다.
'Study > 데이터 분석 딥러닝 입문 + Pytorch 실습 부트캠프' 카테고리의 다른 글
[CNN] 메타코드 강의 후기_챕터 3: Convolutional Neural Network(CNN) - part 1 (0) | 2024.05.31 |
---|---|
[Regression] 메타코드 강의 후기_챕터 3: Pytorch Exercises - Logistic Regression (0) | 2024.05.26 |
[파이토치] 메타코드 강의 후기_챕터2: Tensor 다루기 part 1 (0) | 2024.04.21 |
[파이토치] 메타코드 강의 후기_챕터1: Orientation (0) | 2024.04.17 |