일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 멋사 AI
- 민음사
- 멋쟁이사자처럼
- 홍명희 임꺽정
- 비전공자 코딩교육
- AI 국비지원
- til
- 비전공자 코딩
- AI 코딩
- 멋사 AI 교육
- 유니오르
- 추천프로젝트
- k 디지털 후기
- 인생책짧은글
- 비전공자 멋쟁이사자처럼
- 멋쟁이사자처럼 k-digital
- 리뷰
- 영화AI추천
- 멋사 k 디지털
- 멋쟁이사자처럼 전액국비지원
- 가브리엘마르케스
- 문학동네
- 멋사 국비지원과정
- k 디지털
- 이렇게 그녀를 잃었다
- 인터뷰
- 멋쟁이사자처럼 k 디지털
- 인생책
- 영화추천시스템
- 멋사 전액국비지원교육
- Today
- Total
목록나는 코딩도 한다/TIL (53)
글쟁이, 코딩한다
0. 예! 금요일! Auto ML 모델 제작을 돕는 프로그램들. 기본적으로 로컬 환경에서는 사용이 어렵다. 구글 콜랩 환경에서 실습했다. 1) Pycaret(파이캐럿) traditional ML 모델 만들기를 도와주는 라이브러리 알아두면 도움이 될 명령어들 setup : 모델 자동 생성을 위한 준비 #자동 전처리 #라벨 데이터 onehot value 인코딩 create_model( ) : 모델 자동 생성 ; 일정 트레이닝 tune_model( ) : 모델을 일정 기준(accuracy)을 바탕으로 튜닝 compare_model( ) : 일정 기준(accuracy)을 바탕으로 모델들을 돌려보고 상위 결과 모델들을 돌려준다 evaluate_model( ) : 모델을 불러 성능, hyper-params 값 등을..
0. 딥러닝 실습 코드. TensorFlow 1. TensorFlow 2. 두 버전을 다 배웠으나 기억에 남길만한 버전 2. 코드들을 남긴다. 주피터 노트북 캡처본에 바탕. 코드는 강사님이 알려준 대로. 하나. 데이터셋 불러오기 & 전처리 메인 dataset은 mnist, training data는 60000행, 784열 둘. 주요 레이어 생성 layer 수, unit(층별 퍼셉트론) 수, initializer초기화, activation function활성화 함수, batchnorm, dropout 등을 설정한다. 예시는 히든레이어 2개를 가진 멀티클래스 분류 문제다. 셋. 모델 학습 compile 단계 : optimizer최적화 프로그램, loss function, metrics평가 지표 등을 선택 학..
0. 딥딥 딥러닝 최적화 하나. Weight Initialization. Gradient Descent 적용을 위한 첫 단계. parameterθ 초기화 경사를 데굴데굴 굴러 가장 깊은 골짜기로. 초기화 이후 시작점을 어디로 잡을 수 있을까? 시작점은 많은 것을 바꾼다. 아래 초기화 기법들은 선형결합 값이 너무 커지거나 작아지지 않도록 초기 parameterθ를 잡아준다. 선형결합 값이 극단적이면 초기화 지점이 산으로 갈 확률이 높다. #너무 터무니없는 곳을 잡으면 고생 #함정에 빠지거나 시간이 너무 오래 1) Xavier Initialization 자비에 초기화 표준편차가 (1 / 앞선 레이어 퍼셉트론의 숫자에 루트를 씌운 값)인 정규분포를 따른다. #예로 앞선 레이어가 10000개면 θ 초기값은 1/..
0. 딱 맞춰 30일에, 딥러닝 시작한 기념으루다가 이미지도 챙겨봤다. 오늘 배운 내용을 내가 보기 좋게 정리한다. 아무것도 모르던 사람의 딥러닝 1일차라는 것을 유념하며 정확하지 않은 내용, 이해가 빈약한 내용, 틀린 내용은 꾸준히 수정하며 채워가기로 한다. 딥러닝 쉽게 보자면, 인공신경망 기반 머신러닝. 1. 딥러닝, 어떻게 잘 나가게 됐지? 딥러닝의 기본 단위 퍼셉트론은 1958년 즈음 나온 논의 여러 문제들 덕에 빛을 못 보다가 마침내 해답들이 나와 어디 내놓아도 부끄럽지 않을 핵심 기술이 됐다고 한다. 도움 준 친구들 데이터 : 저장매체, 통신매체의 발전 -> 학습시킬 데이터 수가 많아졌다 하드웨어 : 컴퓨터 하드웨어 발전 -> 연산이 빨라졌다 머신러닝 : 머신러닝 연구들의 발전 -> Gredi..
0. 멜론 장르별 스테디셀러 가사 데이터 분석 & 유사도 기반 추천 서비스 마무리. 지금까지. 프로젝트 주제. 텍스트 데이터. 데이터 분석. 유사도 기반 추천. 머신러닝 적용. 멜론 장르별 스테디셀러 가사 데이터 선정. 크롤링. 토크나이즈를 비롯한 데이터 전처리. 장르별 가사 데이터 분석. TF-IDF와 코사인 유사도를 활용한 가사 추천 시스템 적용. 가사를 입력하면 장르를 맞추는 멀티클래스 머신러닝 모델 확보. 마지막날// 결과적으로 보자면, 발표를 했고, 가사 추천 시스템은 완료했으며, 멀티클래스 머신러닝 모델은 허탕으로 돌아갔다. 개인 공부장인만큼 주요 결과는 다른 포스팅이나 깃(오늘 공부 예정)을 통해 정리하고, 개인적으로 배운 것들을 정리하는 데 써야겠다. 이번 프로젝트로 배운 점 코드 _크롤링..
0. 멜론 장르별 가사 데이터 기반 추천 서비스 구축 지금까지. 프로젝트 주제 : 텍스트 데이터 활용 유사도 분석&ML 적용 -> 멜론 장르별 스테디셀러 가사를 메인 데이터로 채택 가사 데이터를 크롤링으로 얻어내기(쉽지 않음) 획득한 데이터를 쓰기 위한 형태소 분석(쉽지 않음2) 유사도 분석 기반 추천 서비스 & 가사 장르 예측 모델 구축 결과물 내기 얻어낸 데이터에 바탕해 결과물을 만들어낸다. 해당 프로젝트의 주목적은 실제 서비스 제공이 아닌, 공부&발표에 있다. 따라서 목적에 맞는 결과물을 제시해야 한다. 이에 따라, 데이터 분석 결과 시각화 PPT 작업 과정의 논리적 연결고리 서비스 & 모델의 샘플 데이터 활용 결과 코드 가 얻어내야할 메인 목적이었다. 실제 나온 결과물 오전 시간을 활용해 각자 결..
0. 멜론 가사 텍스트 분석 프로젝트 진행중 어제 혼자 생각한 과제 대비 오늘 흘러간 방향을 생각해보자. 1단계. 데이터 수집 1) 가사 붙어 나오는 문제 => 오늘 : 토크나이즈하면 괜찮지 않나요? 큰 문제를 일으키지는 않을 것 같습니다! => 수긍(다른 우선과제들이 더 많다) 2) 데이터 크롤링 => 오늘 : 장르를 나눠 맡아서 데이터를 모읍시다 => 각자 네트워크 환경마다 다양한 문제들 산적 => 제가 맡아서 돌리겠습니다 => 생각 못 한 에러 발생 => ?? => ???? => 팀원 한 분의 재빠른 에러 수정 => 해결 => 멜론 장르별 음악 스테디셀러(8개 장르 500곡씩) 곡 정보 수집 완료 2단계. 데이터 관련 확인할 점 1) 19금 가사 => 장르 당 많아야 10곡(랩/힙합 제외) => 로..
0. 가사 데이터 분석을 통한 음악 추천 서비스 구축 중 1) 사용 데이터 : 멜론 장르별 음악 '스테디셀러' 가사 텍스트 4000개 -크롤링을 통해 얻었다. 멜론은 songid 키를 바탕으로 세부 곡정보 이동이 가능하다. 이 값을 얻어 정리한 후, 한 번에 이동하는 편이 좋다. 페이지를 넘기며 songid를 수집할 때는 selenium(request로 접근했으나, 멜론 홈페이지 내에서 이슈가 있어 옮겼다), 이를 바탕으로 곡 정보를 수집할 때는 request를 쓴다. ---추후 쓸만한 데이터 활용법, 분석법이라는 생각이 들때는 추가로 자세히 포스팅해보겠다. 2) 단순 데이터 분석 주요 목표는 아닌 관계로 실제 어디까지 진행할지 알 수 없지만, 깔끔한 시각화를 목표로 진행. (프로젝트 내에 어렵다면, 추..
0. 세미프로젝트2가 끝나고 곧바로 미드프로젝트다. 이번 프로젝트 주제는 텍스트 데이터 분석 & ML 적용이다. 첫 갈래 어떤 과정으로 나아가지? (큰 방향) 공통과정 텍스트 데이터를 구한다 (크롤링, 다운로드, etc..) 데이터 전처리 (단어 형태소 분석, 불용어 제거 등 과정을 거친 단어사전 제작 -> TF-IDF 값-단어 출현 빈도에 따라 가중치를 준 값-을 활용) 선택과정 1) ML 모델 적용 -> 학습한 텍스트별 결과물을 바탕으로 예측값 가리기 (분류) 2) 데이터 유사도(코사인 유사도) 확인 #데이터랑 가장 유사한 것을 분류--- 유사도를 비교해서 가장 비슷한 것을 추천해주는 시스템 등으로 사용 3) 감성분석 4) 주요 토픽 모델링 강사님이 주신 자료를 바탕으로 (나 혼자) 이해한 과제 방향..
0. 타이타닉 생존자 머신러닝 예측모델 만들기 프로젝트 마무리. 데이터에 있어 1) 어떤 데이터를 선택할 것인가 -> 목적이 중요 1- 모델 성능을 올리기 위해서인가 2- 설득을 위해서인가 2) 데이터를 어떻게 개량할까 -> 이를테면, 주어진 숫자 데이터에만 집착하지 말 것. 내일 살펴보겠지만, 타이타닉호 구조를 바탕으로 선실 결측치를 채운 팀이 높은 예측률을 이끌어냈다고 한다. 죽은 데이터라고 인식, 코딩으로만 처리할 생각 말고 해당 자료와 이어진 다양한 데이터를 수집하고 활용할 수 있는 능력을 갖춰야겠다. 3) 모든 작업은 상호보완적 ->모델을 적용하고 데이터를 다시 손본다거나 하는 수순은 당연한 것. 그러나 이를 막연히 "해보고 싶다"는 이유가 아닌, 좀 더 단단한 기반 위에 진행할 필요가 있다. ..