안녕하세요 :)
오늘은 추석을 뽀동뽀동하게 잘 보내고
4주차 포스팅으로 돌아왔습니다 !
지난 주, Doc2Vec 함수 이전까지
진행했습니다!
해당 포스팅은 요 링크에서 확인하실 수 있답니다 :)
https://yslog99.tistory.com/entry/삼성-SDS-Brightics-개인-분석-프로젝트-୧•ω•´୨-3-감정-단어-추출을-통한-데이터-파악하기
[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #3. 감정 단어 추출을 통한 데이터 파악하기
안녕하세요! 벌써 3주차 포스팅이네요 :) 수집한 데이터의 종류와 특징을 알아보고 모델에 맞는 전처리에 대해 고민해본 지난 주에 이어, 이번 주는 데이터의 특징들을 파악하는 것과
yslog99.tistory.com
그럼 이제 Doc2Vec 함수부터
또 차근차근 진행 해 볼까요?!
Doc2Vec 함수
Doc2Vec 함수 는 토큰화 된 텍스트 데이터를 입력받아
Doc2Vec 알고리즘을 통해 훈련을 진행합니다.
Doc2Vec 알고리즘에 대해 설명드리기 전에,
word2vec 알고리즘을 먼저 설명드리겠습니다!
word2vec 알고리즘은
"비슷한 위치에서 등장하는 단어는
비슷한 의미를 가진다."
라는 가정을 기반으로 하는데요,
단어에 대한 벡터를 생성해서
단어 간 유사도를 계산할 수 있습니다.
Doc2Vec 알고리즘은
이러한 word2vec 알고리즘을 기반으로
문서 자체에 대한 벡터를 생성하는 알고리즘 입니다.
단어간의 유사성을 넘어,
문장/단락/문서간의 유사성을 찾을 수 있다는 의미이지요..!
Doc2Vec 함수의 훈련 알고리즘은
문맥을 이용하는 PV-DBOW 모델과
입력된 단어를 이용하는 PV-DM 모델 중에
선택이 가능한데요,
PV-DM 모델이 일반적으로
비교적 더 나은 성능을 보인다고 합니다.
(Default 로 설정되어 있네요..!)
또 하나 헷갈리실만한 변수로는
Demension of Vectors 가 있는데요,
6개의 주제로 나누어야하니
6개의 차원으로 설정해야하는건가?!?!
라고 생각하실 수 있지만
사실, 벡터의 차원 수는 주제의 수와
전혀 관련이 없습니다.
벡터의 차수는
단어의 의미를 여러 차원에 분산하여
표현하는 개념으로,
차원이 높을 수록 정교하게 나눠지기 때문에
정확도를 높이는 요소가 될 수 있습니다!
Array to columns 함수
Doc2Vec 함수가 완료되면
아래와 같이 배열 형태의 값을 갖는
document_vectors 열이 생성됩니다!
이 배열의 값들을 아래와 같이
각각의 열로 분리하기 위해
Array to columns 함수를 이용합니다!
document_vectors 열이
document_vectors0, document_vectors1,,,
과 같이 나누어진것을 확인하실 수 있습니다..!
그 이후의 이야기...
이제 그 이후의 과정들에 대해
설명드릴 차례인데 말이죠,,,
오류가,, 오류가아,,,ㅠㅜㅠㅜㅠㅜㅠ
사실 지난주에도 저 SVM Classigication Train 까지
완성 된 상태였는데,
바로 저..! 오류가..!
발생하면서 다음 주로 미뤄둔거였거든요,,
해결해 보려고 이것저것 해 봤는데,
보이시나요...?
함수 한개에 걸리는 시간이
무려,,
11시간 59분 57초,,,
여러번 돌리면서
파라미터 값 수정도 하고
데이터도 전처리도 추가하고
해야하는데
이렇게 오래걸리는 바람에
오류 수정도 힘들었답니다ㅠㅠㅠㅠ
오류가 발생한 이유로는
거의 12시간이 소요되는 SVM Classification Train 함수로
예상하고 있습니다..!
아래 스크린샷을 보시면,
함수를 실행하고, 완료되면
오른쪽 창에서 결과가 출력되어야 하는데,
No Model 이라고 나와있는것을 확인할 수 있습니다..!
이로 인해 그 다음 함수인
SVM Classification Predict 함수에서
오류가 발생하는것으로 추정되는데,
해당 오류가 발생되는 원인을 찾기위해
브라이틱스 CS 팀 (brightics@samsung.com) 에
문의 메일을 통해
도움을 요청해 둔 상태랍니다,,,
아, 참고로
Brightics Studio 사용중의 문의사항은
위의 메일 주소를 통해 도움을 받을 수 있는데요,
메일에 문의 사항과 함께
해당 프로젝트의 json 파일과
사용한 데이터 파일을 첨부하면
브라이틱스 CS 팀에서 쉽게 재현을 할 수 있어
문제 상황을 더 정확하게 파악할 수 있습니다..!
다음주 포스팅에서는
문의 메일의 답신에 더불에
여러 시도를 통해
오류를 해결하는 과정을 다루도록 할게요!
그럼,, 앙뇨옹..!
* 해당 게시글은 Brightics 서포터즈 활동의 일환으로 작성되었습니다.
게시글 관련 문의 및 소통을 원하신다면 댓글을 남겨주세요 :)
브라이틱스 사용 중 문의사항은 brightics@samsung.com 으로 연락주세요!
#삼성SDSBrightics #BrighticsStudio #BrighticAI #브라이틱스 #모델링 #코딩없이분석하기 #데이터분석 #군집분석 #군집분석모델 #Clustring #Clustering_without_coding #코딩없이군집분석모델링하기 #빅데이터 #데이터사이언티스트 #데이터분석툴 #데이터분석플랫폼 #데이터분석툴체험하기 #분석모델제작하기 #무료데이터분석툴 #오픈소스 #삼성SDS #삼성SDS서포터즈 #Brightics서포터즈 #Brightics서포터즈2기 #데이터사이언티스트 #DS #데이터컨설팅 #데이터컨설턴트 #Brightics서포터즈개인미션 #공공데이터수집 #자연어분석 #Text_Classification #데이터전처리 #모델생성 #모델비교 #분석모델정확도판단 #분석모델정확도비교
'SDS Brightics > Projects' 카테고리의 다른 글
[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #6. 오류 해결 & 모델 실행하기 (0) | 2021.10.05 |
---|---|
[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #5. 모델 정확도 높이기 (0) | 2021.09.28 |
[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #3. 감정 단어 추출을 통한 데이터 파악하기 (0) | 2021.09.14 |
[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #2.데이터 알아보고 모델 구상하기 (0) | 2021.09.07 |
[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #1.데이터 수집하기 (0) | 2021.08.31 |