SDS Brightics/Projects

[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #5. 모델 정확도 높이기

y•ᴗ•n_seo 2021. 9. 28. 23:18

안녕하세요!

개인미션 5주차 포스팅입니다 :)

지난 주에는 아쉽게도 오류로 인해

모델을 완성하지 못했었죠ㅜㅜ

문의를 넣어 둔 상태이지만,

아직 답신이 오지 않아서

이번주는 일부 데이터만 추출해서

모델의 정화도를 높일 수 있는파라미터를 설정하는 과정을

진행 해 보았습니다 :)

모델은 아래와 같이,

Train Data 를 10,000 개 추출한 모델과

20,000 개 추출한 모델로 나누어 진행하였습니다!

Train Data 10,000 개 추출

첫 번째로 확인해 본 파라미터값은

Doc2Vec 함수의 Dimension 값인데요,

이는 벡터의 차수를 결정하는 값으로,

그 값이 클 수록 세밀한 분석이 가능하지만,

차원이 커질수록 복잡도가 높아져

오히려 정확도가 낮아질 수 있습니다.

따라서 데이터에 따라

적당한 값을 설정하는 것이

모델의 정확도를 결정하는

중요한 역할을 한답니다!

Doc2Vec 함수의 Dimension 은

사용자가 설정하지 않았을때의

기본값은 100 인데요,

정확도가 너무 낮게 나와서 놀랐는데

알고보니 SVM Train 함수가 실행될 때,

100개로 나누어진 열 중에서

일부만 선택되었더라구요..ㅎㅎ

100개의 행을 모두 선택해서 실행하니

0.789 의 정확도가 나왔답니다..!

이후, Dimension 값을30, 20, 10 으로

변경하면서 함수를 실행 해 보았는데요,

그 결과를 정리 해 보면

아래의 표와 같습니다!

Dimension 이 20 일때가

0.999로 정확도가 가장 높으므로,

최적의 값이라는 것을 알 수 있군요..!!

Train Data 20,000 개 추출

 

데이터의 갯수에 따라서도

최적의 파라미터 값이 변화하는지 확인하기 위해

Train Data 를 20,000개 추출하고,

Dimension 값을100, 20, 10 으로 변경하면서

모델을 실행 해 보았는데요,

그 결과를 정리 해 보면

아래의 표와 같습니다!

데이터가 2만개인 경우에도

Dimension 이 20인 경우가

가장 높은 정확도를 보이고 있다는 것을

확인할 수 있군요 :)


이렇게 데이터 갯수별로

파라미터 값을 변화시키면서

모델 정확도를 확인해 보았는데요,

다음주에는 전체 데이터를 이용했을 때

오류가 생기는 이유와

전제 데이터를 분석한 결과를

알 수 있었으면 좋겠습니다,,,

뭐,, 적은 데이터로 하면 가능하다는건 알았으니까

정 안된다면 데이터 수를 줄여서 분석을 완료하는 것도

하나의 방법이겠지요?!

여튼..!

오늘의 포스팅은 여!기!까!지!

다음주에 돌아올게용~!


* 해당 게시글은 Brightics 서포터즈 활동의 일환으로 작성되었습니다.

게시글 관련 문의 및 소통을 원하신다면 댓글을 남겨주세요 :)

브라이틱스 사용 중 문의사항은 brightics.cs@samsung.com 으로 연락주세요!

#삼성SDSBrightics #BrighticsStudio #BrighticAI #브라이틱스 #모델링 #코딩없이분석하기#데이터분석 #군집분석 #군집분석모델 #Clustring #Clustering_without_coding #코딩없이군집분석모델링하기 #빅데이터 #데이터사이언티스트 #데이터분석툴 #데이터분석플랫폼 #데이터분석툴체험하기 #분석모델제작하기 #무료데이터분석툴 #오픈소스 #삼성SDS #삼성SDS서포터즈 #Brightics서포터즈 #Brightics서포터즈2기 #데이터사이언티스트 #DS #데이터컨설팅 #데이터컨설턴트 #Brightics서포터즈개인미션 #공공데이터수집 #자연어분석 #Text_Classification #데이터전처리 #모델생성 #모델비교 #분석모델정확도판단 #분석모델정확도비교