안녕하세요!
개인미션 5주차 포스팅입니다 :)
지난 주에는 아쉽게도 오류로 인해
모델을 완성하지 못했었죠ㅜㅜ
문의를 넣어 둔 상태이지만,
아직 답신이 오지 않아서
이번주는 일부 데이터만 추출해서
모델의 정화도를 높일 수 있는파라미터를 설정하는 과정을
진행 해 보았습니다 :)
모델은 아래와 같이,
Train Data 를 10,000 개 추출한 모델과
20,000 개 추출한 모델로 나누어 진행하였습니다!
Train Data 10,000 개 추출
첫 번째로 확인해 본 파라미터값은
Doc2Vec 함수의 Dimension 값인데요,
이는 벡터의 차수를 결정하는 값으로,
그 값이 클 수록 세밀한 분석이 가능하지만,
차원이 커질수록 복잡도가 높아져
오히려 정확도가 낮아질 수 있습니다.
따라서 데이터에 따라
적당한 값을 설정하는 것이
모델의 정확도를 결정하는
중요한 역할을 한답니다!
Doc2Vec 함수의 Dimension 은
사용자가 설정하지 않았을때의
기본값은 100 인데요,
정확도가 너무 낮게 나와서 놀랐는데
알고보니 SVM Train 함수가 실행될 때,
100개로 나누어진 열 중에서
일부만 선택되었더라구요..ㅎㅎ
100개의 행을 모두 선택해서 실행하니
0.789 의 정확도가 나왔답니다..!
이후, Dimension 값을30, 20, 10 으로
변경하면서 함수를 실행 해 보았는데요,
그 결과를 정리 해 보면
아래의 표와 같습니다!
Dimension 이 20 일때가
0.999로 정확도가 가장 높으므로,
최적의 값이라는 것을 알 수 있군요..!!
Train Data 20,000 개 추출
데이터의 갯수에 따라서도
최적의 파라미터 값이 변화하는지 확인하기 위해
Train Data 를 20,000개 추출하고,
Dimension 값을100, 20, 10 으로 변경하면서
모델을 실행 해 보았는데요,
그 결과를 정리 해 보면
아래의 표와 같습니다!
데이터가 2만개인 경우에도
Dimension 이 20인 경우가
가장 높은 정확도를 보이고 있다는 것을
확인할 수 있군요 :)
이렇게 데이터 갯수별로
파라미터 값을 변화시키면서
모델 정확도를 확인해 보았는데요,
다음주에는 전체 데이터를 이용했을 때
오류가 생기는 이유와
전제 데이터를 분석한 결과를
알 수 있었으면 좋겠습니다,,,
뭐,, 적은 데이터로 하면 가능하다는건 알았으니까
정 안된다면 데이터 수를 줄여서 분석을 완료하는 것도
하나의 방법이겠지요?!
여튼..!
오늘의 포스팅은 여!기!까!지!
다음주에 돌아올게용~!
* 해당 게시글은 Brightics 서포터즈 활동의 일환으로 작성되었습니다.
게시글 관련 문의 및 소통을 원하신다면 댓글을 남겨주세요 :)
브라이틱스 사용 중 문의사항은 brightics.cs@samsung.com 으로 연락주세요!
#삼성SDSBrightics #BrighticsStudio #BrighticAI #브라이틱스 #모델링 #코딩없이분석하기 #데이터분석 #군집분석 #군집분석모델 #Clustring #Clustering_without_coding #코딩없이군집분석모델링하기 #빅데이터 #데이터사이언티스트 #데이터분석툴 #데이터분석플랫폼 #데이터분석툴체험하기 #분석모델제작하기 #무료데이터분석툴 #오픈소스 #삼성SDS #삼성SDS서포터즈 #Brightics서포터즈 #Brightics서포터즈2기 #데이터사이언티스트 #DS #데이터컨설팅 #데이터컨설턴트 #Brightics서포터즈개인미션 #공공데이터수집 #자연어분석 #Text_Classification #데이터전처리 #모델생성 #모델비교 #분석모델정확도판단 #분석모델정확도비교
'SDS Brightics > Projects' 카테고리의 다른 글
[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #7. 최종 모델 선정 & 실행하기 (0) | 2021.10.12 |
---|---|
[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #6. 오류 해결 & 모델 실행하기 (0) | 2021.10.05 |
[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #4. 오류 발생?! (1) | 2021.09.23 |
[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #3. 감정 단어 추출을 통한 데이터 파악하기 (0) | 2021.09.14 |
[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #2.데이터 알아보고 모델 구상하기 (0) | 2021.09.07 |