일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 멋사 국비지원과정
- 영화추천시스템
- 민음사
- 멋쟁이사자처럼 k 디지털
- 추천프로젝트
- 인생책짧은글
- til
- 비전공자 코딩교육
- 멋사 AI 교육
- 문학동네
- 가브리엘마르케스
- 홍명희 임꺽정
- 멋사 AI
- 영화AI추천
- 멋쟁이사자처럼 k-digital
- 유니오르
- 멋사 k 디지털
- 비전공자 멋쟁이사자처럼
- AI 코딩
- AI 국비지원
- 멋사 전액국비지원교육
- 인생책
- 비전공자 코딩
- 리뷰
- 이렇게 그녀를 잃었다
- 멋쟁이사자처럼
- k 디지털
- 인터뷰
- 멋쟁이사자처럼 전액국비지원
- k 디지털 후기
- Today
- Total
목록나는 코딩도 한다/TIL (53)
글쟁이, 코딩한다
0. 세미프로젝트 2번째 첫날이다. titanic 생존자 예측을 위한 ML 모델 적용하기다. ML 모델이 주요 과제인줄 알았는데, 완전 문제 알았음. pandas를 다루는데 머리가 하얘졌다. 완전 바보 상태. 어버버만 하다가, 이러면 어떨까요.... 하고 완전 쭈구리. 대강 아는 기본이라고만 생각했는데, 완전 멍청이였다. 아는 게 없으니 말도 자꾸 흐트러졌다. 하여간 엄청 폐 끼쳤다. 다른 분들이 다 해주셔서 정돈은 했다만, 다음에도 안 그러려면 얼른얼른 공부해야겠다. 오늘의 (빨리) 복습할 것 pandas groupby apply와 lambda drop hist, scatter, flot, bar, pie 뭐 아무튼 기본 시각화들
0. 0 K-Means Clustering(군집) 방식 #x데이터를 묶어줄뿐 #y데이터(정답 데이터)는 없다 과정 K개(hyper-parameter 값 : 클러스터의 갯수 ; 사용자 임의)의 클러스터 중심값을 랜덤하게 고른다 각 data를 현재 위치에서 가까운 중심값 클러스터에 할당한다. (평면상에서) 클러스터 내 data들의 (x축과 거리, y축과 거리) 평균값을 구해 중심점을 그곳으로 이동시킨다. data들의 클러스터 할당이 바뀌지 않을 때까지 2번, 3번을 반복한다. 결과 결정경계를 구축한다 => 마치 지도학습처럼 신규 데이터에 대한 예측값도 제공한다. 문제1 정말 중심값을 임의의 위치에 줘도 되는가 =해결방안=> hyper-parameter로 조정. (init= 'k-means++') #간단히, ..
0. 머신러닝은 놀랍다. 간단히만 이해하자면 내가 이해할 수 있다는 점도 놀랍다. 1. 전통적인 머신러닝의 대장들. 이해가 온전하지 않았던 수학공식들은 추가 공부를 한 후에 기록한다. SVM (Support Vector Machine, 서포트 벡터 머신) 패턴 인식을 위한 지도 학습 모델 (x가 여럿인 data에서) 두 종류의 데이터를 가르는 더 나은 결정 경계(Decision boundary, 모델선)를 찾는다. 서포트 벡터(Support vector) : 결정 경계에 가장 가까운 클래스 데이터 결정 경계와 평행하며 위쪽 서포트 벡터와 맞닿은 선 : plus-plane 결정 경계와 평행하며 아래쪽 서포트 벡터와 맞닿은 선 : minus-plane plus-plane과 minus-plane 사이 거리 :..
0. 머신러닝, 쉽지않음 또다른 공부라는 점에서 흥미롭기는 하다. 입문에 발만 담갔는데도 세상이 또 넓어지는 기분이다. 이해가 온전하지 않았던 수학공식들은 추가 공부를 한 후에 기록한다. Linear Regression 선형 회귀. 정답 있는 데이터의 추세를 잘 설명하는 선형 함수를 찾아 x에 대한 y를 예측 y=ax+b의 꼴. (a=θ1, b=θ0, θ의 수는 여럿이 되면 y= θ0+ θ1x1 + θ2x2 + ... + θnxn) 결국 θ들(parameter theta)의 값이 정확해야한다 !목표는 가장 적합한 θ들의 set를 찾는 것 어떻게 적합도를 구할까? MSE 평균Mean 제곱Square(d) 오차Error 함수Function, 모델의 평균 에러값 !당연히 작을수록 좋다 #모든 에러 값에 제곱 ..
0. 한 해 지나서 돌아왔음! SQL 1) JOIN INNER JOIN A ON B 교집합 LEFT JOIN A ON B 메인 테이블 중심으로 집합 #WHERE문 앞에 온다 #FROM 테이블에 JOIN 테이블을 가져다 붙이는 개념 #셀프 조인 : 작업 테이블의 복제본이 있다고 상정하고 같은 테이블에 대해 JOIN 작업 / 활용상황이 그리 많지는 않다 2) GROUP BY GROUP BY한 열을 기준으로 묶어줌(pandas의 pivot table 참고) #HAVING : GROUP BY한 결과물을 바탕으로 조건 등을 불러줌(GROUP BY한 결과물만 다룬다)(조건문 WHERE와 흡사) ##GROUP BY 전에 미리 WHERE로 조건을 찾아주면 연산 과정 축소 => 하지만 WHERE는 집계함수 연산을 할 수..
0. 세상에, 한 해가 또 지나간다. DB와 DBMS 데이터베이스(DataBase) : 데이터들을 저장하는 일련의 파일들 => DBMS(DataBase Management System) : 이를 관리하는 소프트웨어 1) DBMS의 종류 최근에는 관계형 데이터베이스를 다루는 R(elation) DBMS를 대부분 사용 => Oracle(보안상 강점 난해한 문법, 비용), MySQL(저렴한 금액), SQLite, MS SQL, PostgreSQL, ... #Oracle, MySQL이 인기가 많다 #ANSI SQL 기반으로 조금씩만 차이를 가지고 있다. 2) Data Lake와 Data Warehouse 모든 데이터를 때려넣어둔 Data Lake, 데이터를 손질해 쌓아둔 Data Warehouse 데이터 처리 ..
0. 세미프로젝트를 마무리하고 발표까지 진행했다. 우리끼리 정리하면서도, 다른 팀들의 발표를 보면서도, 배울 점이 많았다. 다만 오늘 배운 것은 코드에 대한 것뿐 아니라 여러 가지다. 어찌됐든 '오늘 내가 배운 것'이니 또 이를 기록한다. 더불어 소설 스터디도 마지막 모임을 가졌다. 줌으로. 나는 늘 글을 써왔고, 이 모임이 없었다면 아마 이런 글을 계속 써오지 않았을지도 모른다. 사실 내가 무언가를 배웠다면 이 모임에서 더 많은 것을 배웠지만, 그것은 다른 이야기들을 위해 속으로 간직하겠다. 듣고 싶어하는 사람이 많지는 않을 테다. 오늘의 데이터 생각 데이터 선정의 중요성 : "괜찮겠지"란 생각 하지 말자 이를테면 타겟 도시와 인구 밀도가 비슷한 도시들을 분석하면, 타겟 도시에 대한 인사이트를 얻을 수..
0. 세미프로젝트 코드 작성을 마쳤다. 연말과 함께 정신없이 보낸 점 + 중간에 연휴 + 비대면으로 온전히 관심을 끈 것은 아니었으나, 나름 얻어가는 것이 많다. 코드는 진행하다보면, 구글링하다보면, 괄호를 옮기고 이래저래 하다보면, 어찌저찌 조금씩 나아간다는 것. 모르겠다, 하고 뒤돌아선 것도 사실 괄호 하나, 스펠링 하나, 쉼표 하나에 답이 숨어 있다는 것. 완벽을 꾀하기보다 직전보다 나아지기를 바라는 게 현명하다는 것. 비대면으로 함께 진행할 수 있는 분야가 겁나 많다는 것. 지금 당장 떠오르는 것만 해도 이쯤이다. 혹여나 코로나가 좀 잦아들어 대면으로 한다면 더 많은 것을 얻어갈 수도 있지 않을까, 생각해봤다. 안 해 봐서 그런 것도 있을테다. 물론 이거저거 신경 쓸 일이 압도적으로 적다는 점에서..
0. 하다보면 자꾸 12시가 넘어서 til이 아니게 된다. 아마 하다보면 블로그가 중요한 게 아닌데, 하는 생각이 들거나, 지금 당장 하는 것을 어떻게든 해결하고 싶어서일테다. 특히 지금처럼 정리 안 된 게시물들에, 블로그를 찾는 사람이 나뿐일 때는 말이다. 그래도, 한 번 시작한 일을 꾸준히 하는 습관을 위해서라도 프로젝트가 나아가는데 도움을 준 코드들을 몇 가지 정리해본다. (블로그 관리에 대한 부분은 밑에서 다시 생각해보자.) 오늘의 코드들 1. min-max 알고리즘 코드 from sklearn import preprocessing scaler = preprocessing.MinMaxScaler() scaler.fit(df) min_max = scaler.transform(df) #datafram..
0. 크리스마스다. 어쩌다보니 글을 좀 늦게 쓰기 시작해 하루가 넘어갔다. 크리스마스 이브에는 세미 프로젝트를 진행했다. 확실히 직접 코드를 짜고 데이터를 정돈하다보니 시간이 금방 간다. 재미는 있다. (물론 성질도 난다) 완전히 새로 배운 기능은 없지만, 생소하기로는 새로 배운 것이나 마찬가지다. 다음번에 써야할 때는 또 잊을듯 하다. 아무튼 오늘은 문제를 넘어가도록 해준 함수, 긴 코드에 대해 가이드 없이 사고하며 배운 것, 여럿이서 함께 코드를 짜면서 배운 것 등을 남긴다. 오늘의 함수들 df.reset_index( ) index에 따라 DataFrame merge 결과가 바뀐다. #반대는 .set_index( ) df['column'].astype( ) Series내 데이터들의 타입을 한 번에 바..