SDS Brightics/Projects

[삼성 SDS Brightics] 팀분석 프로젝트 ୧(`•ω•´)୨ #2.Kaggle Competition - 모델 평가하기

y•ᴗ•n_seo 2021. 8. 10. 23:42

안녕하세요!

오늘은 팀프로젝트,

그 두번째 이야기로 찾아 왔습니다!

이전 포스팅에서 탐색적 데이터 분석을 진행했으니,

이제는 이를 활용하여

분석 모델을 작성했는데요

저희 팀은

Logistic Regression,

Decision Tree Classification,

Random Forest Classification

이렇게 총 3가지의 모델을 만들어

정확도가 가장 높은 모델을 측정해 보았답니다 :)

아래에서 Brightics Studio 를 이용해

데이터 전처리와 모델을 생성하는 과정을

설명드릴게요!

⁽˙³˙⁾◟( ˘•ω•˘ )◞⁽˙³˙⁾

이전 포스팅은 요 링크에서 확인하실 수 있답니다 :)

[삼성 SDS Brightics] 팀분석 프로젝트 ୧(`•ω•´)୨ #1.Kaggle Competition - 주제 선정 및 EDA (tistory.com)

 

[삼성 SDS Brightics] 팀분석 프로젝트 ୧(`•ω•´)୨ #1.Kaggle Competition - 주제 선정 및 EDA

안녕하세요! 벌써 브라이틱스 서포터즈 활동이 9주차에 접어들었습니다! ​ 아무것도 안했는데 벌써 8월이고 말이죠..! ㅠㅜㅠㅜㅠㅜㅠ ​ 오늘은 8주차부터 진행해 온 팀 프로젝트 에 대한 포스

yslog99.tistory.com

 


 

데이터 전처리


 

모델을 생성하기 전에,

일단 모델에 사용할 수 있는 형태로

데이터를 가공하는 작업이 필요하죠!

데이터 전처리를 위해 사용한 함수는

Datetime Formatter

Label Encoder 입니다 :)


Datetime Formatter 함수는

String(문자열) Type 으로 되어있는 날짜 변수를

Datetime Type 으로 변환해주는 함수인데요,

설정 / 출력값을 확인해 보시면

yyyy-mm-dd 형태의 날짜 변수를

yyyymm 형태로 변환하였음을

확인할 수 있습니다!

이렇게 되면,

일별이 아닌, 월별 활동을

확인할 수 있게 되는것이죠!


그 다음으로, Label Encoder 함수는

다양한 형태의 데이터 값들을

숫자형으로 변환해주는 함수입니다!

제가 사용하는 데이터는

Type1, Type2 / True, False,,,

와 같이 String TypeBoolean Type 등의

다양한 타입을 포함하고 있는데요,

분석을 위해서는 숫자형으로 변환이 되어야 하므로

해당 함수에 숫자형이 아닌

모든 변수들을 입력해 변환을 해주는 것이죠@!

 

변환된 표를 보시면, 변수명 뒤에 _index 가 추가되고,

모든 값들이 숫자로 변경되었음을

확인하실수 있습니다 :)

이로써 데이터를 분석할 준비가 모두 완료 되었습니다!

 

모델 생성 #1 Logistic Regression

 

자 그럼

세가지 모델중에서 첫 번째,

Logistic Regression 모델입니다!

 

 

Select Column 함수를 이용해

Lable Encoding 이 된 열을 선택하고,

Split Date 함수를 이용해

Train / Test Data 로 분할 한 후,

Logistic Regression Train,

Logistic Regression Predict,

Evaluate Classification 함수를 차례로 연결하여

Logistic Regression 분석을 진행하고

해당 모델을 평가합니다.

분석결과, 모델 정확도는 0.85 가 나오는 것을

확인할 수 있습니다!

 

모델 생성 #2 Decision Tree Classification

다음으로,

Decision Tree Classification 모델입니다.

첫 번째 분석 모델과 마찬가지로,

Select Column 함수를 이용해

Lable Encoding 이 된 열을 선택하고,

Split Date 함수를 이용해

Train / Test Data 로 분할 한 후,

Decision Tree Classification Train,

Decision Tree Classification Predict,

Evaluate Classification 함수를 차례로 연결하여

Decision Tree Classification 분석을 진행하고

해당 모델을 평가합니다.

이 모델의 정확도는 0.96 이 나오는군요@!

모델 생성 #3 Random Forest Classification

마지막으로,

Random Forest Classification 입니다!

이 모델 역시,

Select Column 함수를 이용해

Lable Encoding 이 된 열을 선택하고,

Split Date 함수를 이용해

Train / Test Data 로 분할 한 후,

Random Forest Classification Train,

Random Forest Classification Predict,

Evaluate Classification 함수를 차례로 연결하여

Random Forest Classification 분석을 진행하고

해당 모델을 평가합니다.

마지막 모델의 정확도는 0.98 이 나오는 것을

확인하실수 있습니다@!


 

요러케 3가지 모델을 작성하여,

각 모델의 정확도를 확인해 보았는데요,

Random Forest Classification 모델의 정확도가

가장 높다는 것을 확인할 수 있었습니다 :)

하지만, 아직 해당 모델들은

Lable Encoder 를 이용해

숫자형으로 변환한 데이터가

얼마나 해당 데이터를 잘 대표하는지,

데이터의 의미가 정확하게 나온 것이 아니라서,

각 모델에 적절한 데이터들이 사용되었는지

확인할 수 없다는 한계가 존재한답니다,,,

따라서, 앞으로의 계획은

이러한 한계점을 해결할 방안을 고민해보고

모델을 완성해서

Kaggle 에 제출할 코드를 생성하고,

해당 프로젝트를 영상으로 제작 할 예정이랍니다 :)

그럼., 오늘은 포스팅은 여!기!까!지!

다음주에 더 발전시켜서 돌아올게욥!

(°▽°๑)– =͟͟͞͞ =͟͟͞

 

 


* 해당 게시글은 Brightics 서포터즈 활동의 일환으로 작성되었습니다.

게시글 관련 문의 및 소통을 원하신다면 댓글을 남겨주세요 :)

브라이틱스 사용 중 문의사항은 brightics@samsung.com 으로 연락주세요!

#삼성SDSBrightics #BrighticsStudio #BrighticAI #브라이틱스 #모델링 #코딩없이분석하기#데이터분석 #군집분석 #군집분석모델 #Clustring #Clustering_without_coding #코딩없이군집분석모델링하기 #빅데이터 #데이터사이언티스트 #데이터분석툴 #데이터분석플랫폼 #데이터분석툴체험하기 #분석모델제작하기 #무료데이터분석툴 #오픈소스 #삼성SDS #삼성SDS서포터즈 #Brightics서포터즈 #Brightics서포터즈2기 #데이터사이언티스트 #DS #데이터컨설팅 #데이터컨설턴트 #Brightics서포터즈팀미션 #KaggleCompetition #캐글프로젝트 #캐글제출 #Brighitic캐글 #데이터전처리 #모델생성 #모델비교 #분석모델정확도판단 #분석모델정확도비교