일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 멋쟁이사자처럼
- 유니오르
- 가브리엘마르케스
- k 디지털
- 문학동네
- 리뷰
- 멋사 k 디지털
- 멋쟁이사자처럼 k 디지털
- til
- AI 국비지원
- 인터뷰
- 멋사 AI
- 인생책짧은글
- 멋쟁이사자처럼 전액국비지원
- AI 코딩
- 멋사 국비지원과정
- k 디지털 후기
- 이렇게 그녀를 잃었다
- 인생책
- 비전공자 코딩교육
- 홍명희 임꺽정
- 영화AI추천
- 민음사
- 영화추천시스템
- 비전공자 멋쟁이사자처럼
- 멋사 AI 교육
- 멋쟁이사자처럼 k-digital
- 추천프로젝트
- 멋사 전액국비지원교육
- 비전공자 코딩
- Today
- Total
글쟁이, 코딩한다
0126 / k_digital 34일차 / 세미프로젝트3 본문
0.
세번째 세미프로젝트, 네번째 프로젝트를 시작했다.
도서관 데이터 기반 추천 서비스, 타이타닉 생존자 예측 ML 모델 제작, 멜론 스테디셀러 차트 가사 기반 추천 서비스에 이어 버섯 맞추기 DL 모델 제작에 들어간다.
머쉬룸.
1. 데이터 선정
버섯 데이터 mushroom dataset
-데이터의 매끈함
-적당한 데이터양(8000+)과 feature(23), 정답 데이터 다수 존재.
-수집과 전처리 과정의 수고를 줄여줌 : 결측치는 feature 하나에만.
-참고용 레퍼런스가 여럿 있다 : 모델 성능 확인과 발전에 용이
www.kaggle.com/uciml/mushroom-classification
(탈락 후보군 : 주가, 트럼프 트윗, 카드데이터, 국민소득 등)
2. 데이터 확인 : 문제 있는 열은 두 개
1) 값이 모두 같은 veil-type(모델 성능에 영향을 미치지 않으므로 헷갈리지 않게 제거)
2) 값이 ?로 채워진 stalk-root (2480개)
해결방법
1 ) 전부 n 으로 대체 (low-level)
2 ) 해당 열 제거 (low-level)
3 ) 예측모델 만들어서 채우기 (‘?’ 가 아닌 값들을 train, test data 로 활용)
4 ) 선: 해당 열 제거 후 class 예측모델 만들기 / 후 : ‘?’ 채우고 모델 다시 돌리기
데이터 전처리에 든 시간이 준 만큼 데이터 모델링에 공을 들이자 => 3번, 4번
방법을 선택하기 위한 1- 상관관계 확인
:데이터 라벨링이 필요하다.
-- 데이터 라벨링 방안들
sklearn.LabelEncoder( ) / pandas get.dummie( ) / pandas map( )
열을 늘리지 않기 위해 get.dummie를 배제했다. 특별한 값을 줄 이유도 없었고 데이터를 확인하려면 일일이 다시 확인해야하는 수고로움에 map도 덜어냈다. LabelEncoder를 사용했고, 문제없이 돌아갔다.
히트맵 분석 => 애매함. 0.35 정도.
---(영향을 끼칠 수는 있지만, 정말 유의미할까?)---
그래도 한다. 전통적인 머신러닝으로!
1) 결측치 채우고 안 채우고를 비교해 볼 수 있다.
2) 학습 데이터 양이 줄어든 만큼 원래 목적인 딥러닝보다 머신러닝을 적용할 의미가 있다.
3. 데이터 시각화
1) 기본 시각화 참고 페이지 www.kaggle.com/elcaiseri/mushroom-exploration-eda-with-visualizations
2) pyplot 시각화
3) 트리모델 이미지 구현 참고 페이지 c11.kr/lqsm
etc...
내일 프로젝트
stalk-root feature 결측치 채우기 용 ML 모델 만들기
전체 mushroom dataset에 적용할 DL 모델 만들기(목표는 99% ++)
오늘의 되돌아보기
늘 프로젝트를 시작하면 그렇지만 부족함을 많이 느낀다. 첫 날에는 어떤 일을 할지 잘 모르기에 준비가 부족하다. 다른 날들은 전날 대강 코드와 방향성을 고민하고 준비해가기에 (최소한의) 역할을 하지만, 첫 날에는 다소 어벙한 모습을 보이기도 한다. 오늘도 시각화 파트에 들어서는 무엇을 해야할지 고민하며 헤매다 끝났다. 다른 팀원들 코드를 들여다보기 바빴다. 다른 팀원들의 성과에 박수를 보내고 칭찬하다가도, 주체적으로 무언가 해내지 못했다는 점은 나를 언제나 괴롭게 한다.
더 자신감을 가질 필요가 있을지도 모르겠다. 처음은 언제나 힘겨웠다. 돌아보면 나는 늘 잘 하지 못 했다. 축구를 할 때도 기타와 베이스를 칠 때도 소설을 쓰기 시작할 때도 그랬다. 재능은 없는 수준이었다. 그래도 내가 잘 하는 것은 좌절하지 않고 오래도록 하는 거다. 비록 서른을 넘어가며 낙천을 많이 빼앗겼어도, 아직 남은 것들을 들여다본다. 나는 나를 응원한다. 여전히 나를 응원하는 이들도 있다. 그건 나의 힘이다. (이렇게 응원해야 할만큼 오래 집에 있었나보다.)
'나는 코딩도 한다 > TIL' 카테고리의 다른 글
0128 / k_digital 36일차 / 세미프로젝트3 (0) | 2021.01.28 |
---|---|
0127 / k_digital 35일차 / 세미프로젝트3 (0) | 2021.01.28 |
0125 / k_digital 33일차 / 복습 (0) | 2021.01.25 |
0122 / k_digital 32일차 / 딥러닝 etc (0) | 2021.01.22 |
0121 / k_digital 32일차 / 딥러닝(TensorFlow실습, 활용사례) (0) | 2021.01.21 |