SDS Brightics/Projects

[삼성 SDS Brightics] 개인 분석 프로젝트 ୧(`•ω•´)୨ #3. 감정 단어 추출을 통한 데이터 파악하기

y•ᴗ•n_seo 2021. 9. 14. 23:40

안녕하세요!

벌써 3주차 포스팅이네요 :)

수집한 데이터의 종류와 특징을 알아보고

모델에 맞는 전처리에 대해 고민해본

지난 주에 이어,

이번 주는 데이터의 특징들을

파악하는 것과 더불어,

모델링을 러프하게 진행해 보면서

데이터를 보완하고

추가적인 전처리를 진행해보도록 하겠습니다!

 

감정 단어 추출을 통한 데이터 파악하기

 

Extract Sentimental Words 함수는

토큰화 된 문장에서

감정적인 단어를 추출하여

해당 문장에 어떠한 감정 단어가

존재하는지 파악하고,

-2부터 2까지의 점수가 매겨진

사전 데이터 셋을 통해

감정 점수를 도출합니다.

이 점수는 해당 문장이 긍정적인 문장인지,

부정적인 문장인지를 구분 하는

지표로 이용될 수 있습니다.

표준 국어 대사전을 구성하는 단어들을 이용해

긍정어, 부정어, 중립어를 추출해

위와 같은 csv 파일을 생성한 후

Road 함수를 이용해

해당 csv 파일들을 로드합니다.

Add Column 함수에서 조건문을 이용해

부정어는 -2의 값을,

중립어는 0의 값을,

긍정어는 2의 값을 갖는 열을 추가한 후,

Download 버튼을 클릭하여

해당 파일을 csv 형태로 다운로드합니다.

그러면 위와 같이

단어들만 모여있던 파일에서

감정 점수가 포함된 csv 파일을

생성할 수 있습니다.

로드했을때 열의 이름이 되는

맨 윗줄을 word, score 로 수정한 후,

세 파일을 하나의 파일로 합쳐주면

쟈쟌!

위와 같은 감정 단어 점수 데이터셋을

생성할 수 있습니다!

이제 이 데이터셋을 토큰화 된 문장과 함께

Extract Sentimental Words 함수에 입력하면

문장의 감정 점수를 얻을 수 있습니다!


본격적인 머신러닝을 이용한 자연어 분석에

들어가기 전에

그 원리를 살짝쿵 엿볼 수 있는

감정 단어 추출 모델링을 진행하면서

데이터의 감정 단어 특징까지 알아봤는데요,

여기까지는 어렵지 않으시죠?!

다음주에는

브라이틱스에서

Doc2Vec 함수를 통해서

자연어 분석을 진행하는 과정을

파이썬으로 작성한

자연어분석 머신러닝 코드를 통해

자연어 분석의 원리와 함께 설명드리겠습니다 :)

조금 어려운 개념을 가지고 있지만,

둘을 비교하면서 보시면

브라이틱스가 얼마나 쉽고 간편하게

해당 모델을 제공할 수 있는지

바로 알 수 있으실거에요...!!

그럼 다음주에 보아요!

앙뇽!


* 해당 게시글은 Brightics 서포터즈 활동의 일환으로 작성되었습니다.

게시글 관련 문의 및 소통을 원하신다면 댓글을 남겨주세요 :)

브라이틱스 사용 중 문의사항은 brightics@samsung.com 으로 연락주세요!

#삼성SDSBrightics #BrighticsStudio #BrighticAI #브라이틱스 #모델링 #코딩없이분석하기#데이터분석 #군집분석 #군집분석모델 #Clustring #Clustering_without_coding #코딩없이군집분석모델링하기 #빅데이터 #데이터사이언티스트 #데이터분석툴 #데이터분석플랫폼 #데이터분석툴체험하기 #분석모델제작하기 #무료데이터분석툴 #오픈소스 #삼성SDS #삼성SDS서포터즈 #Brightics서포터즈 #Brightics서포터즈2기 #데이터사이언티스트 #DS #데이터컨설팅 #데이터컨설턴트 #Brightics서포터즈개인미션 #공공데이터수집 #자연어분석 #Text_Classification #데이터전처리 #모델생성 #모델비교 #분석모델정확도판단 #분석모델정확도비교