SDS Brightics/Projects 20

[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #9. 최종 모델 분석결과 제출하기

안녕하세요! ​ 자연어 분석 프로젝트 9주차 포스팅입니다! ​ 벌써 마지막 포스팅이네요,,! ​ 내가 만든 내 프로젝트를 이제 보내줘야한다니,, 뭔가 시원하면서 섭섭한 기분,,, ​ 사실 시원한게 더 크긴하지만욯ㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎ ​ ​ 그럼 이번주 포스팅은 결과물을 규정에 맞게 출력하고 ​ 데이콘에 제출하는 것까지를 다뤄보도록 하겠습니다 :) ​ 결과물 출력하기 대회 데이터 중에 sample_submission.csv 파일을 열어보면 제출하는 형식을 확인할 수 있습니다. ​ ​ 그럼 우리의 분석 결과를 위와 같은 형태로 저장해야겠죠?@! ​ Select Cloumn 함수를 이용하여 필요한 열을 선택하고 ​ Ailas 에 해당 열의 이름을 입력한 후 함수를 실행합니다! ​ 다운로드는 이미 많이 해 봤듯..

[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #8. 최종 모델로 Test Data 분석하기

안녕하세요! ​ 자연어분석 프로젝트 8주차 포스팅입니다 :) ​ ​ 지난 포스팅에서 최종 모델을 선정하고 모델을 학습시키는 것까지 진행했었는데요, ​ 오늘은 Train Data 로 학습시킨 해당 모델을 이용해 ​ Test Data 를 분석하고 결과값을 얻는 과정을 포스팅에 담아보겠습니다..! ​ Test Data 전처리 과정 모델 학습을 위해 Train Data 를 전처리 했던 것처럼 ​ Train Data 역시도 같은 모양으로 전처리 과정을 거쳐야 하는데요, ​ 일단, Load 함수를 통해 Test Data 를 가져옵니다..! ​ 그 다음, Tokenizer (Korean) 을 이용해 문장을 품사단위의 단어 요소들로 나누어줍니다. ​ ​ 토큰화 된 단어들을 Doc2Vec 함수에 넣어 문장/단락/문서간의..

[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #7. 최종 모델 선정 & 실행하기

안녕하세요! ​ 자연어 분석 프로젝트 7주차 포스팅으로 돌아왔습니다 :) ​ ​ 지난 주까지 여러 시행착오를 거치면서 전체 모델을 완성하기 위해 ​ 오류를 수정하고 다양한 모델로 정확도를 확인해 보았는데요, ​ 이번주에는 드디어..! 전체 데이터로 최종 모델을 작성하였습니다..!! ​ 최종 보고서 작성하기 전에 완료해서 정말 다행이에요ㅠㅜㅠㅜ ​ 지난번 포스팅이 모델을 실행시키는 모습과 함께 끝이 났었죠..! ​ 그때의 실행 결과는.. ​ ​ 위와 같은 장대한 실패였답니다,, ​ SVM Classification Train 함수의 실행 종료 시간이 1일 23시간 59분 53초 인걸 보아 실행 최대시간 초과로 인한 오류이겠지만,, ​ 혹시 싶어 오류 메시지를 확인 해 보니 ​ ​ 역시 그 오류가 맞았습니다..

[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #6. 오류 해결 & 모델 실행하기

안녕하세요! ​ 개인미션 6주차 포스팅입니다 :) ​ 지난 주에는 parameter 값을 변경하면서 모델의 정확도를 높이는 값을 찾아 보았는데요, ​ 이번 주는 4주차에 발견한 오류를 해결하고 ​ 전체 데이터를 이용해 모델을 실행하는 과정을 담아보려 합니다 :) ​ ​ 오류 해결하기 SVM Classification Train 함수를 실행하면 12시간정도 소요된 후 함수가 실행 완료되지만 ​ 결과가 나오지 않아서 그 다음 함수인 SVM Classification Predict 함수가 실행되지 않는 오류가 발생했었는데요, ​ 관련 내용을 브라이틱스 CS팀에 문의드렸습니다..! ​ 문의 메일 전송 후 일주일 가까이를 기다려도 답신이 오지 않아서 전화를 드렸었는데, ​ 제가 보낸 문의 메일이 전달 되지 않았다..

[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #5. 모델 정확도 높이기

안녕하세요! 개인미션 5주차 포스팅입니다 :) ​ 지난 주에는 아쉽게도 오류로 인해 모델을 완성하지 못했었죠ㅜㅜ ​ 문의를 넣어 둔 상태이지만, 아직 답신이 오지 않아서 ​ 이번주는 일부 데이터만 추출해서 모델의 정화도를 높일 수 있는파라미터를 설정하는 과정을 진행 해 보았습니다 :) ​ ​ 모델은 아래와 같이, Train Data 를 10,000 개 추출한 모델과 20,000 개 추출한 모델로 나누어 진행하였습니다! Train Data 10,000 개 추출 첫 번째로 확인해 본 파라미터값은 Doc2Vec 함수의 Dimension 값인데요, ​ 이는 벡터의 차수를 결정하는 값으로, 그 값이 클 수록 세밀한 분석이 가능하지만, ​ 차원이 커질수록 복잡도가 높아져 오히려 정확도가 낮아질 수 있습니다. ​ 따..

[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #4. 오류 발생?!

안녕하세요 :) ​ 오늘은 추석을 뽀동뽀동하게 잘 보내고 4주차 포스팅으로 돌아왔습니다 ! ​ ​ 지난 주, Doc2Vec 함수 이전까지 진행했습니다! ​ 해당 포스팅은 요 링크에서 확인하실 수 있답니다 :) https://yslog99.tistory.com/entry/삼성-SDS-Brightics-개인-분석-프로젝트-୧•ω•´୨-3-감정-단어-추출을-통한-데이터-파악하기 [삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #3. 감정 단어 추출을 통한 데이터 파악하기 안녕하세요! ​ 벌써 3주차 포스팅이네요 :) ​ 수집한 데이터의 종류와 특징을 알아보고 모델에 맞는 전처리에 대해 고민해본 지난 주에 이어, ​ 이번 주는 데이터의 특징들을 파악하는 것과 yslog99.tistory...

[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #3. 감정 단어 추출을 통한 데이터 파악하기

안녕하세요! ​ 벌써 3주차 포스팅이네요 :) ​ 수집한 데이터의 종류와 특징을 알아보고 모델에 맞는 전처리에 대해 고민해본 지난 주에 이어, ​ 이번 주는 데이터의 특징들을 파악하는 것과 더불어, ​ 모델링을 러프하게 진행해 보면서 데이터를 보완하고 추가적인 전처리를 진행해보도록 하겠습니다! ​ 감정 단어 추출을 통한 데이터 파악하기 Extract Sentimental Words 함수는 토큰화 된 문장에서 감정적인 단어를 추출하여 ​ 해당 문장에 어떠한 감정 단어가 존재하는지 파악하고, ​ -2부터 2까지의 점수가 매겨진 사전 데이터 셋을 통해 감정 점수를 도출합니다. ​ 이 점수는 해당 문장이 긍정적인 문장인지, 부정적인 문장인지를 구분 하는 지표로 이용될 수 있습니다. ​ ​ 표준 국어 대사전을 구..

[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #2.데이터 알아보고 모델 구상하기

안녕하세요! ​ 지난 주는 데이터 분석 주제를 정하고 데이터셋을 확보했는데요, ​ 오늘은 데이터를 파악하고, 앞으로 만들 모델의 초안을 생각하는,,! ​ 개인 미션 두번째 포스팅으로 돌아왔습니다 :) ​ ​ 데이터 설명 해당 프로젝트에 사용되는 데이터셋은 아래 네개의 csv 파일입니다! 1. train_data.csv index : 헤드라인 인덱스 title : 뉴스 헤드라인 topic_idx : 뉴스 주제 인덱스 값(label) ​ ​ 2. test_data.csv index : test 헤드라인 인덱스 title : test 뉴스 헤드라인 ​ ​ 3. sample_submission.csv index : test 헤드라인 인덱스 topic_idx : 예측해야 하는 뉴스 토픽 인덱스 값 ​ ​ 4. t..

[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #1.데이터 수집하기

안녕하세요! ​ 지난 주를 마지막으로 팀원들과 함께 진행한 팀 분석 프로젝트가 마무리 되었습니다~!~! ​ 와아아아 ​ 곧 저희가 제작한 튜토리얼 영상도 유튜브에 올라갈 예정이랍니다! ​ 포스팅보다 영상이 더 따라하기 쉬우실테니, 참고하시면 공부하기 훨씬 쉬울지도~!?!? 팀 분석 프로젝트가 종료되면서 이번주부터는 개인 분석 프로젝트가 시작 되었는데요, ​ 총 10 주차에 걸쳐서 데이터 분석을 진행하고, 관련 포스팅을 할 예정이니까,, ​ 또 다시 함께 새로운 걸 공부해보자구욧! ​ #1. 개인 분석 프로젝트 일정 위에서 이번 분석 프로젝트는 10주나 진행한다고 말씀 드렸죠! ​ 상세한 일정은 아래와 같습니다 :) ​ ​ 그래서, 이번 주의 목표는 주제 선정 및 데이터 확보 랍니다 :) ​ ​ #2. 분..

[삼성 SDS Brightics] 팀분석 프로젝트 ୧(`•ω•´)୨ #4.Kaggle Competition - 모델 완성 및 최종 보고서 작성

​ 안녕하세요! ​ 지난 주에는 One Hot Encoder 와 PCA 를 통해 효과적으로 데이터를 처리하는 방법을 설명드렸었는데요, ​ 이번주는 분석의 정확도를 높이고 프로젝트를 마무리하는 과정을 포스팅 하도록 하겠습니다 :) ​ 지난 주의 포스팅은 요 링크에서 확인하실 수 있답니다 :) https://yslog99.tistory.com/entry/삼성-SDS-Brightics-팀분석-프로젝트-୧•ω•´୨-3Kaggle-Competition-모델-분석-및-수정하기-One-hot-encoder-PCA [삼성 SDS Brightics] 팀분석 프로젝트 ୧(`•ω•´)୨ #3.Kaggle Competition - 모델 분석 및 수정하기 (One ho 안녕하세요! ​ 벌써 방학이 다 끝나가는데요,, 방학기간동..