안녕하세요!
자연어 분석 프로젝트 7주차 포스팅으로
돌아왔습니다 :)
지난 주까지 여러 시행착오를 거치면서
전체 모델을 완성하기 위해
오류를 수정하고
다양한 모델로 정확도를 확인해
보았는데요,
이번주에는 드디어..!
전체 데이터로 최종 모델을 작성하였습니다..!!
최종 보고서 작성하기 전에
완료해서 정말 다행이에요ㅠㅜㅠㅜ
지난번 포스팅이 모델을 실행시키는 모습과 함께
끝이 났었죠..!
그때의 실행 결과는..
위와 같은 장대한 실패였답니다,,
SVM Classification Train 함수의
실행 종료 시간이
1일 23시간 59분 53초 인걸 보아
실행 최대시간 초과로 인한 오류이겠지만,,
혹시 싶어 오류 메시지를 확인 해 보니
역시 그 오류가 맞았습니다....
Train Data 30,000 개 추출
첫 전체 데이터 모델링 실패 후
" 48시간으로도 부족했던 것인가,, "
하고 좌절하고
시간을 더 늘릴 순 없으니
데이터를 조금씩 늘려가면서
가능한데까지 해보자..! 라고 생각했습니다..
지난 5주차 포스팅에서
데이터를 1만개, 2만개 추출하여
모델 정확도를 결정하는 요소들에 대해 알아봤었잖아요..?!
그래서 이번 주는 3만개부터 시작하였습니다
3만개 데이터로는
SVM Classification Train 함수가
22분만에 종료 되는 것을 보고,
일단 데이터를 더 늘려보았습니다!
Train Data 40,000 개 추출
데이터 4만개를 이용했을때,
1시간 2분...?!
전체 데이터량이
45653개 이거든요,,,
" 전체데이터도 해볼 만 한데..!? " 라는
생각이 들어서
바로 전체 데이터로도 진행 해 보았습니다..!
전체 데이터
허허,,,
뭐가 문제였던 걸까요,,,?
매일 12시간, 48시간씩 실행되다가
최대시간을 넘겨 모델을 못만들던
그 SVM Classification 함수가..
무려.. 1시간 23분만에..!
완료가 되었습니다ㅠㅜㅜㅠ
모델이 실행되는 걸 확인했으니..!
이젠 정확도를 높여주어야겠죠!?
Doc2Vec 함수의
Dimension값을 25로 설정하는 경우
0.999 의 정확도가 나오는 것을 확인할 수 있고,
Dimension값을 30으로 설정하는 경우
0.998 의 정확도가 나오는 것을 확인할 수 있습니다.
최종 모델 선정 및 실행
이제, 45653개의 Train Data를
Doc2Vec Dimension 을 25로 설정하여
학습시켰을때
0.999라는 가장 높은 정확도를 같는
해당 모델을 이용하여
주어진 Test Data 의 Topic 을 분류 해 봐야겠죠?!
지금까지 Train Data를 이용해
모델 훈련을 진행했는데,
해당 부분이
위 스크린 샷의 윗부분 입니다!
다음주에는
Test Data 에서 Topic 을 분류하는
아래 주황 박스 부분과,
대회에 제출할 결과물을 제작하는 방법에 대해
설명드릴게요!
이번 포스팅은 여!기!까!지!
다음주에 돌아오겠습니당 :)
* 해당 게시글은 Brightics 서포터즈 활동의 일환으로 작성되었습니다.
게시글 관련 문의 및 소통을 원하신다면 댓글을 남겨주세요 :)
브라이틱스 사용 중 문의사항은 brightics.cs@samsung.com 으로 연락주세요!
#삼성SDSBrightics #BrighticsStudio #BrighticAI #브라이틱스 #모델링 #코딩없이분석하기 #데이터분석 #군집분석 #군집분석모델 #Clustring #Clustering_without_coding #코딩없이군집분석모델링하기 #빅데이터 #데이터사이언티스트 #데이터분석툴 #데이터분석플랫폼 #데이터분석툴체험하기 #분석모델제작하기 #무료데이터분석툴 #오픈소스 #삼성SDS #삼성SDS서포터즈 #Brightics서포터즈 #Brightics서포터즈2기 #데이터사이언티스트 #DS #데이터컨설팅 #데이터컨설턴트 #Brightics서포터즈개인미션 #공공데이터수집 #자연어분석 #Text_Classification #데이터전처리 #모델생성 #모델비교 #분석모델정확도판단 #분석모델정확도비교
'SDS Brightics > Projects' 카테고리의 다른 글
[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #9. 최종 모델 분석결과 제출하기 (0) | 2021.10.26 |
---|---|
[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #8. 최종 모델로 Test Data 분석하기 (0) | 2021.10.19 |
[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #6. 오류 해결 & 모델 실행하기 (0) | 2021.10.05 |
[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #5. 모델 정확도 높이기 (0) | 2021.09.28 |
[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #4. 오류 발생?! (1) | 2021.09.23 |