글쟁이, 코딩한다

0111/ k_digital 24일차 / 세미프로젝트2(마무리) 본문

나는 코딩도 한다/TIL

0111/ k_digital 24일차 / 세미프로젝트2(마무리)

Algori 2021. 1. 11. 23:15

0.

 타이타닉 생존자 머신러닝 예측모델 만들기 프로젝트 마무리.

 

 데이터에 있어 

1) 어떤 데이터를 선택할 것인가

-> 목적이 중요 1- 모델 성능을 올리기 위해서인가  2- 설득을 위해서인가

2) 데이터를 어떻게 개량할까

-> 이를테면, 주어진 숫자 데이터에만 집착하지 말 것. 내일 살펴보겠지만, 타이타닉호 구조를 바탕으로 선실 결측치를 채운 팀이 높은 예측률을 이끌어냈다고 한다. 죽은 데이터라고 인식, 코딩으로만 처리할 생각 말고 해당 자료와 이어진 다양한 데이터를 수집하고 활용할 수 있는 능력을 갖춰야겠다.

3) 모든 작업은 상호보완적

->모델을 적용하고 데이터를 다시 손본다거나 하는 수순은 당연한 것. 그러나 이를 막연히 "해보고 싶다"는 이유가 아닌, 좀 더 단단한 기반 위에 진행할 필요가 있다. 그러기 위해 시각화 등은 중요 요소.

 

 팀플레이에 있어

1) 정돈하면서 가기

-> 코딩은 혼자 작업할 일이 그리 많지 않아 보인다. 혼자 하더라도 언제 어떻게 보여줘야할지 모른다. 의외로 다른 일들보다, 과정이 중요한 작업일수도. 그렇기에 내가 하는 일들을 너무 중구난방으로 벌이면 혼란이 올 때가 많았다. 공유도 일상인 만큼 깔끔하게 정리하며 코딩하는 습관을 기를 필요가 있어 보인다.

2) 의도에 따라 행동하기

-> 위 내용들과 이어지지만, 막연한 행동보다는 적어도 설명할만한 근거와 타당한 목적이 있어야, 활동에 의미가 생겼다.

3) 이왕이면, 적극적으로

->영화든, 밴드든, 하물며 소설 쓰기 합평이든, 적극적으로 임할 때 얻어갈 수 있는 바가 많았다. 타인의 반응에 무관심한 것 만큼 지나친 신경쓰기도 피곤한 법이다. 몰라도 해보자. 바보로 남는 거보다야 지금 바보인 편이 낫다.

4) 속도 올려두기

->따라가려면, 그래도 빠르게 하자. -> 그러려면 더 많이 코드를 사용해보는 것이 가장 좋지 않을까

 

오늘의 (일단) 적어두기

 

  1. get_dummies
  2. skopt와 Bayesian Search +c11.kr/l8c2 (사이킷런 해설 페이지)
  3. pipeline
  4. column transformer

오늘의 써볼만한 것

 

  이루다 기사를 정돈해보자. 끝나기 전에 써봤어야 하는데.

  AI 윤리에 대한 글들을 모아볼 것. 혹은 써볼것.

 

 

 

Comments