일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 멋사 국비지원과정
- 리뷰
- 인생책짧은글
- 영화AI추천
- 추천프로젝트
- k 디지털 후기
- til
- AI 코딩
- 멋쟁이사자처럼 전액국비지원
- 가브리엘마르케스
- 홍명희 임꺽정
- 멋사 AI
- 비전공자 코딩
- 비전공자 멋쟁이사자처럼
- 비전공자 코딩교육
- 멋쟁이사자처럼
- 유니오르
- 문학동네
- 멋쟁이사자처럼 k 디지털
- 이렇게 그녀를 잃었다
- 멋사 전액국비지원교육
- AI 국비지원
- 인터뷰
- 멋사 AI 교육
- 영화추천시스템
- 민음사
- 인생책
- k 디지털
- 멋쟁이사자처럼 k-digital
- 멋사 k 디지털
- Today
- Total
글쟁이, 코딩한다
0112 / k_digital 25일차 / 미드프로젝트 본문
0. 세미프로젝트2가 끝나고 곧바로 미드프로젝트다.
이번 프로젝트 주제는 텍스트 데이터 분석 & ML 적용이다.
첫 갈래
어떤 과정으로 나아가지? (큰 방향)
공통과정
텍스트 데이터를 구한다 (크롤링, 다운로드, etc..)
데이터 전처리 (단어 형태소 분석, 불용어 제거 등 과정을 거친 단어사전 제작 -> TF-IDF 값-단어 출현 빈도에 따라 가중치를 준 값-을 활용)
선택과정
1) ML 모델 적용 -> 학습한 텍스트별 결과물을 바탕으로 예측값 가리기 (분류)
2) 데이터 유사도(코사인 유사도) 확인
#데이터랑 가장 유사한 것을 분류--- 유사도를 비교해서 가장 비슷한 것을 추천해주는 시스템 등으로 사용
3) 감성분석
4) 주요 토픽 모델링
강사님이 주신 자료를 바탕으로 (나 혼자) 이해한 과제 방향. 팀원들과 대화 후에 2번, 3번을 함께 활용해보기로 했다.
두번째 갈래
텍스트 데이터 찾기 : 어떤 데이터를 활용하지?
**다음에 활용해볼만한 한글 텍스트
한국어 영어 번역 말뭉치 aihub.or.kr/aidata/87
AI Hub 내 몇가지 대화 데이터셋(사전 신청이 필요하다) aihub.or.kr/keti_data_board/language_intelligence
#Kaggle, 데이콘에서 기업들이 대회를 열며 제공하는 데이터도 공부하기 좋아 보인다.
**데이터 선택 시 고려한 것
1) 데이터 양
2번 조건(텍스트 유사도 기반 추천)에 맞추자면 굳이 방대한 데이터셋이 필요한 것은 아닐듯. (예측모델 안 쓰일듯)
반면 다른 조건들은 데이터가 많으면 많을수록 좋을테다.
2) 한글 or 영어?
감성분석을 위해! 한글은 지도학습(답, 즉 평가지표(별점)가 있는 데이터), 영어는 상관X(효율은 좀 떨어지더라도)
#한글로 감성분석을 실시할 때는 (현재 수준에서는) 값이 있는 데이터가 좋을듯 했다. 다만, 현재 찾아볼 수 있는 데이터 가운데는 네이버 영화리뷰 데이터(github.com/e9t/nsmc)가 가장 좋은데, 영화 리뷰 자체가 지나치게 많이 활용되는 주제인 것이 걸렸다.
#영어 데이터는 SentiWordNet, VADER, Pattern 등 nltk에서 제공하는 감성어휘사전이 있다. 어휘가 지닌 긍정, 부정, 중립 등을 판단해준다고 한다.
**선택
이런 거 고민하는 사이 다른 팀원이 제안한 음악 가사 텍스트로 결정
다양한 거 해 볼 수 있고, 무엇보다 친근해서 만족
세번째 갈래
어떻게 활용하지?
(여기서부터는 나 혼자 생각)
1) 가사 제공 사이트
가사를 얻어낼 수 있는 음원사이트
: 멜론, 지니뮤직, 벅스, 바이브, 네이버검색 등
멜론으로 굳어가는 분위기. 가장 많은 고객을 보유한 사이트, 깔끔한 인터페이스, 다양한 분류방식(시대, 장르), 크롤링 코드를 참고할 여러 프로젝트가 많은 점 등이 장점. (HTML코드 확인 전)
2) 가사를 뽑아올 데이터 한정하기
가사 수집보다는 데이터의 다양한 활용이 우리 목적. 데이터를 한정하지 않으면 작업이 너무 방대해진다.
방안 1. 연도별 탑100 차트 가사 모음
-> 연도별 사랑받은 가사(단어) 알아보기, 워드클라우드 분석
-> 선호하는 곡(연도)을 선택하면, 해당 곡(연도) 제외 가장 가사 구성이 유사한 연도, 다른 곡, 최신곡을 추천해준다
방안 2. 장르별 스테디셀러 가사 분석
-> 장르마다 영향 있는 가사, 단어로는 무엇이 있을까
#멜론 기준 분류 : 발라드, 댄스, 랩/힙합, R&B/Soul, 인디음악, 록/메탈, 트로트, 포크/블루스
-> 현재 탑100 곡과 유사도 비교 -> 오래 사랑받을 수 있을까
** sentiment를 분석한다면 기준이 될 것이 있을까 ///
가사 자체 긍정, 부정을 가릴 방법은 없을까? 리뷰 댓글 가사 언급 수별 노래 좋아요 수? 가사 관련 리뷰 댓글 좋아요, 나빠요 수?
@여기까지는 프로젝트에 대한 고민
오늘의 생각
#프로젝트를 하면서 (코드와 간단한 배움 외에도) 내 고민을 정리할 것
#'이루다' 논란은 '데이터 활용'으로 번지는 양상. 보유한 데이터의 양이 곧 기업 경쟁력의 핵심 가치가 될텐데, 이 논란이 여기서 한번 정리될지 궁금. 다만, 이루다에게 험한 짓을 한 그 무리들이 성대결 양상에 눈이 먼 상태라 미꾸라지 짓을 할 가능성이 농후. 기사를 스크랩하며 고민해볼것
#감성분석 역시 핵심 과제가 될 듯. 아직 나오지 않은 한글 감성사전 외에 다른 지표는 무엇일까?
오늘의 개인공부
#Mecab 설치 : 고생했음, 시간 많이 씀. (리눅스도 배워야 할듯)
#HTML 다시 시작
'나는 코딩도 한다 > TIL' 카테고리의 다른 글
0114 / k_digital 27일차 / 미드프로젝트 (0) | 2021.01.14 |
---|---|
0113 / k_digital 26일차 / 미드프로젝트 (2) | 2021.01.13 |
0111/ k_digital 24일차 / 세미프로젝트2(마무리) (0) | 2021.01.11 |
0108 / k_digital 23일차 / 세미프로젝트2 (2) | 2021.01.08 |
0107 / k_digital 22일차 / ML이론기초(비지도학습) (0) | 2021.01.07 |