글쟁이, 코딩한다

0201 / k_digital 38일차 / 세미프로젝트3(마무리) 본문

나는 코딩도 한다/TIL

0201 / k_digital 38일차 / 세미프로젝트3(마무리)

Algori 2021. 2. 1. 21:21

0. 

 2월!

 

 세미프로젝트3 

  Mushroom Data 독성 분류 모델 + Simpson Image Dataset 캐릭터 분류 모델 마무리

 

 

1. 발표자료 만들기 

 

버섯

 

 데이터를 이해하도록 돕는 다양한 버섯 사진들

 

버섯 구조. 넓은 범위
버섯 구조. 세밀하게

Mushroom Data Feature

 

  Class : 독성 분류 ; Edible(e) : 먹을 수 있는 / Poisonous(p) : 독성
  Cap : 버섯의 머리 부분 ; shape : 모양 / surface : 표면(돌기) / color : 색깔
  Bruises : 멍
  Odor : 냄새
  Gill : 버섯 머리 아래 주름 ; attachment : 주름이 붙은 모양(형태) / spacing : 주름 사이 틈 / size : 주름 하나 크기 / color : 색깔
  Stalk : 줄기(버섯 몸통) ; shape : 생긴 모양 / root : 뿌리 모양 
   ;; Ring(몸통 가운데 고리) 
    ; surface-above-ring : ring 위 stalk 표면 / surface-below-ring : ring 아래 stalk 표면 / color-above-ring : ring 위  stalk 색깔 / color-below-ring : ring 아래 stalk 색깔
    ; number : 고리 숫자 / type : 종류
  Veil : 버섯 베일 ; type : 베일의 모양 / color : 색깔
  Spor-print-color : 포자 무늬 색깔
  Population : 개체군(버섯끼리 모여 사는 정도) ; 같은 서식지에서 살고 있는 생물 개체들의 집단
  Habitat : 서식지

 

; 이런 자잘한 노력들이 다른 이들의 눈길을 끌 방안이 될 수도.

  만약 데이터 기반 마케팅으로 방향을 잡는다면, 소수보다는 다수의 눈길을 끌 방안을 고려해야 한다.

 

 

심슨


DL 모델
  : 팀원 분이 에포크를 늘린 것만으로도 성능이 꽤나 올라갔다. 85%면 다중 클래스 분류 문제에서 아주 상위권!

 

 

2.


발표 준비 
  1-PPT 고수가 최고다

  2-시각화(움짤 만드는 법을 배워두자)

  3-구글드라이브와 콜랩 사용법

 


발표하며 적었던 키워드들 ;

 

 불균형 데이터 처리 : Under Sampling, Over Sampling

 카테고리별 stack bar 쌓기 ; category, binary, numeric에 따라 어떤 그래프를 활용하는 것이 가장 좋은지 정리해보자

 OneHotEncoding과 Softmax / Sigmoid
 

 Explainable Deeplearning 설명가능한 딥러닝

 Transfer Learning 적용 (이미지 계열 인기 모델 : ResNet)

 dlib (python 3.6 버전에서 활용 가능)

 이미지 분류 색깔 문제 => 흑백으로 구분 

 Early Stoping
 Auto ML/DL을 너무 믿지 말자
 Top K (상위 K개 안에 정답이 있으면 맞췄다고 쳐준다) Accuracy

 FinanceDataReader : 빠르게 증권 정보를 얻을 수 있는 라이브러리
 Loss Function : Huber => L1, L2를 적용한 비용함수 

 

발표에 대해

 

 1-대본을 가지고 할 것 ; 발표 시간도 고려(우리가 고생한 점과 사람들이 궁금한 점은 다를까?)

 2-PPT를 잘 만들 자신이 없다면 깔끔한 흰색 바탕을 쓰자. 그렇다고 민무늬는 너무 성의 없지만.

 

 정답을 맞추기 위해 정해진 데이터가 아닌, 무슨 데이터가 더 필요할지 생각해보자. 만약 회사에 가서 일한다면 정답 데이터를 내가 판단할 수 있을까? 아마 개인 역량보다 사업 방향, 자본 논리에 맞춰 정답은 이미 정해져 있을 것. 따라서 정답을 잘 맞추기 위해 도움이 될 데이터와 이를 설득할 역량이 더 중요할 수도. 그 외 주관적인 정답 판단(장르 구별) 등은 확실히 어려운 문제 => 명확한 정답을 어떻게 뽑아낼 수 있을까?  ===> 정답을 더더 주관적으로 판단하는 것도 어떤 해법이 되지 않을까.

Comments