일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 민음사
- til
- 멋사 AI 교육
- k 디지털 후기
- 가브리엘마르케스
- 인터뷰
- 멋사 전액국비지원교육
- 멋쟁이사자처럼 k 디지털
- 비전공자 코딩
- 멋사 k 디지털
- 유니오르
- 멋사 AI
- 홍명희 임꺽정
- 문학동네
- 영화AI추천
- AI 코딩
- 멋쟁이사자처럼
- AI 국비지원
- 리뷰
- 멋쟁이사자처럼 k-digital
- 멋쟁이사자처럼 전액국비지원
- 비전공자 코딩교육
- 멋사 국비지원과정
- 인생책짧은글
- 비전공자 멋쟁이사자처럼
- 추천프로젝트
- k 디지털
- 이렇게 그녀를 잃었다
- 영화추천시스템
- 인생책
- Today
- Total
목록나는 코딩도 한다 (60)
글쟁이, 코딩한다
0. 멜론 장르별 가사 데이터 기반 추천 서비스 구축 지금까지. 프로젝트 주제 : 텍스트 데이터 활용 유사도 분석&ML 적용 -> 멜론 장르별 스테디셀러 가사를 메인 데이터로 채택 가사 데이터를 크롤링으로 얻어내기(쉽지 않음) 획득한 데이터를 쓰기 위한 형태소 분석(쉽지 않음2) 유사도 분석 기반 추천 서비스 & 가사 장르 예측 모델 구축 결과물 내기 얻어낸 데이터에 바탕해 결과물을 만들어낸다. 해당 프로젝트의 주목적은 실제 서비스 제공이 아닌, 공부&발표에 있다. 따라서 목적에 맞는 결과물을 제시해야 한다. 이에 따라, 데이터 분석 결과 시각화 PPT 작업 과정의 논리적 연결고리 서비스 & 모델의 샘플 데이터 활용 결과 코드 가 얻어내야할 메인 목적이었다. 실제 나온 결과물 오전 시간을 활용해 각자 결..
0. 멜론 가사 텍스트 분석 프로젝트 진행중 어제 혼자 생각한 과제 대비 오늘 흘러간 방향을 생각해보자. 1단계. 데이터 수집 1) 가사 붙어 나오는 문제 => 오늘 : 토크나이즈하면 괜찮지 않나요? 큰 문제를 일으키지는 않을 것 같습니다! => 수긍(다른 우선과제들이 더 많다) 2) 데이터 크롤링 => 오늘 : 장르를 나눠 맡아서 데이터를 모읍시다 => 각자 네트워크 환경마다 다양한 문제들 산적 => 제가 맡아서 돌리겠습니다 => 생각 못 한 에러 발생 => ?? => ???? => 팀원 한 분의 재빠른 에러 수정 => 해결 => 멜론 장르별 음악 스테디셀러(8개 장르 500곡씩) 곡 정보 수집 완료 2단계. 데이터 관련 확인할 점 1) 19금 가사 => 장르 당 많아야 10곡(랩/힙합 제외) => 로..
0. 가사 데이터 분석을 통한 음악 추천 서비스 구축 중 1) 사용 데이터 : 멜론 장르별 음악 '스테디셀러' 가사 텍스트 4000개 -크롤링을 통해 얻었다. 멜론은 songid 키를 바탕으로 세부 곡정보 이동이 가능하다. 이 값을 얻어 정리한 후, 한 번에 이동하는 편이 좋다. 페이지를 넘기며 songid를 수집할 때는 selenium(request로 접근했으나, 멜론 홈페이지 내에서 이슈가 있어 옮겼다), 이를 바탕으로 곡 정보를 수집할 때는 request를 쓴다. ---추후 쓸만한 데이터 활용법, 분석법이라는 생각이 들때는 추가로 자세히 포스팅해보겠다. 2) 단순 데이터 분석 주요 목표는 아닌 관계로 실제 어디까지 진행할지 알 수 없지만, 깔끔한 시각화를 목표로 진행. (프로젝트 내에 어렵다면, 추..
0. 세미프로젝트2가 끝나고 곧바로 미드프로젝트다. 이번 프로젝트 주제는 텍스트 데이터 분석 & ML 적용이다. 첫 갈래 어떤 과정으로 나아가지? (큰 방향) 공통과정 텍스트 데이터를 구한다 (크롤링, 다운로드, etc..) 데이터 전처리 (단어 형태소 분석, 불용어 제거 등 과정을 거친 단어사전 제작 -> TF-IDF 값-단어 출현 빈도에 따라 가중치를 준 값-을 활용) 선택과정 1) ML 모델 적용 -> 학습한 텍스트별 결과물을 바탕으로 예측값 가리기 (분류) 2) 데이터 유사도(코사인 유사도) 확인 #데이터랑 가장 유사한 것을 분류--- 유사도를 비교해서 가장 비슷한 것을 추천해주는 시스템 등으로 사용 3) 감성분석 4) 주요 토픽 모델링 강사님이 주신 자료를 바탕으로 (나 혼자) 이해한 과제 방향..
0. 타이타닉 생존자 머신러닝 예측모델 만들기 프로젝트 마무리. 데이터에 있어 1) 어떤 데이터를 선택할 것인가 -> 목적이 중요 1- 모델 성능을 올리기 위해서인가 2- 설득을 위해서인가 2) 데이터를 어떻게 개량할까 -> 이를테면, 주어진 숫자 데이터에만 집착하지 말 것. 내일 살펴보겠지만, 타이타닉호 구조를 바탕으로 선실 결측치를 채운 팀이 높은 예측률을 이끌어냈다고 한다. 죽은 데이터라고 인식, 코딩으로만 처리할 생각 말고 해당 자료와 이어진 다양한 데이터를 수집하고 활용할 수 있는 능력을 갖춰야겠다. 3) 모든 작업은 상호보완적 ->모델을 적용하고 데이터를 다시 손본다거나 하는 수순은 당연한 것. 그러나 이를 막연히 "해보고 싶다"는 이유가 아닌, 좀 더 단단한 기반 위에 진행할 필요가 있다. ..
0. 세미프로젝트 2번째 첫날이다. titanic 생존자 예측을 위한 ML 모델 적용하기다. ML 모델이 주요 과제인줄 알았는데, 완전 문제 알았음. pandas를 다루는데 머리가 하얘졌다. 완전 바보 상태. 어버버만 하다가, 이러면 어떨까요.... 하고 완전 쭈구리. 대강 아는 기본이라고만 생각했는데, 완전 멍청이였다. 아는 게 없으니 말도 자꾸 흐트러졌다. 하여간 엄청 폐 끼쳤다. 다른 분들이 다 해주셔서 정돈은 했다만, 다음에도 안 그러려면 얼른얼른 공부해야겠다. 오늘의 (빨리) 복습할 것 pandas groupby apply와 lambda drop hist, scatter, flot, bar, pie 뭐 아무튼 기본 시각화들
0. 0 K-Means Clustering(군집) 방식 #x데이터를 묶어줄뿐 #y데이터(정답 데이터)는 없다 과정 K개(hyper-parameter 값 : 클러스터의 갯수 ; 사용자 임의)의 클러스터 중심값을 랜덤하게 고른다 각 data를 현재 위치에서 가까운 중심값 클러스터에 할당한다. (평면상에서) 클러스터 내 data들의 (x축과 거리, y축과 거리) 평균값을 구해 중심점을 그곳으로 이동시킨다. data들의 클러스터 할당이 바뀌지 않을 때까지 2번, 3번을 반복한다. 결과 결정경계를 구축한다 => 마치 지도학습처럼 신규 데이터에 대한 예측값도 제공한다. 문제1 정말 중심값을 임의의 위치에 줘도 되는가 =해결방안=> hyper-parameter로 조정. (init= 'k-means++') #간단히, ..
0. 머신러닝은 놀랍다. 간단히만 이해하자면 내가 이해할 수 있다는 점도 놀랍다. 1. 전통적인 머신러닝의 대장들. 이해가 온전하지 않았던 수학공식들은 추가 공부를 한 후에 기록한다. SVM (Support Vector Machine, 서포트 벡터 머신) 패턴 인식을 위한 지도 학습 모델 (x가 여럿인 data에서) 두 종류의 데이터를 가르는 더 나은 결정 경계(Decision boundary, 모델선)를 찾는다. 서포트 벡터(Support vector) : 결정 경계에 가장 가까운 클래스 데이터 결정 경계와 평행하며 위쪽 서포트 벡터와 맞닿은 선 : plus-plane 결정 경계와 평행하며 아래쪽 서포트 벡터와 맞닿은 선 : minus-plane plus-plane과 minus-plane 사이 거리 :..
0. 머신러닝, 쉽지않음 또다른 공부라는 점에서 흥미롭기는 하다. 입문에 발만 담갔는데도 세상이 또 넓어지는 기분이다. 이해가 온전하지 않았던 수학공식들은 추가 공부를 한 후에 기록한다. Linear Regression 선형 회귀. 정답 있는 데이터의 추세를 잘 설명하는 선형 함수를 찾아 x에 대한 y를 예측 y=ax+b의 꼴. (a=θ1, b=θ0, θ의 수는 여럿이 되면 y= θ0+ θ1x1 + θ2x2 + ... + θnxn) 결국 θ들(parameter theta)의 값이 정확해야한다 !목표는 가장 적합한 θ들의 set를 찾는 것 어떻게 적합도를 구할까? MSE 평균Mean 제곱Square(d) 오차Error 함수Function, 모델의 평균 에러값 !당연히 작을수록 좋다 #모든 에러 값에 제곱 ..
0. 한 해 지나서 돌아왔음! SQL 1) JOIN INNER JOIN A ON B 교집합 LEFT JOIN A ON B 메인 테이블 중심으로 집합 #WHERE문 앞에 온다 #FROM 테이블에 JOIN 테이블을 가져다 붙이는 개념 #셀프 조인 : 작업 테이블의 복제본이 있다고 상정하고 같은 테이블에 대해 JOIN 작업 / 활용상황이 그리 많지는 않다 2) GROUP BY GROUP BY한 열을 기준으로 묶어줌(pandas의 pivot table 참고) #HAVING : GROUP BY한 결과물을 바탕으로 조건 등을 불러줌(GROUP BY한 결과물만 다룬다)(조건문 WHERE와 흡사) ##GROUP BY 전에 미리 WHERE로 조건을 찾아주면 연산 과정 축소 => 하지만 WHERE는 집계함수 연산을 할 수..