안녕하세요!
오늘은 팀프로젝트,
그 두번째 이야기로 찾아 왔습니다!
이전 포스팅에서 탐색적 데이터 분석을 진행했으니,
이제는 이를 활용하여
분석 모델을 작성했는데요
저희 팀은
Logistic Regression,
Decision Tree Classification,
Random Forest Classification
이렇게 총 3가지의 모델을 만들어
정확도가 가장 높은 모델을 측정해 보았답니다 :)
아래에서 Brightics Studio 를 이용해
데이터 전처리와 모델을 생성하는 과정을
설명드릴게요!
⁽˙³˙⁾◟( ˘•ω•˘ )◞⁽˙³˙⁾
이전 포스팅은 요 링크에서 확인하실 수 있답니다 :)
[삼성 SDS Brightics] 팀분석 프로젝트 ୧(`•ω•´)୨ #1.Kaggle Competition - 주제 선정 및 EDA (tistory.com)
[삼성 SDS Brightics] 팀분석 프로젝트 ୧(`•ω•´)୨ #1.Kaggle Competition - 주제 선정 및 EDA
안녕하세요! 벌써 브라이틱스 서포터즈 활동이 9주차에 접어들었습니다! 아무것도 안했는데 벌써 8월이고 말이죠..! ㅠㅜㅠㅜㅠㅜㅠ 오늘은 8주차부터 진행해 온 팀 프로젝트 에 대한 포스
yslog99.tistory.com
데이터 전처리
모델을 생성하기 전에,
일단 모델에 사용할 수 있는 형태로
데이터를 가공하는 작업이 필요하죠!
데이터 전처리를 위해 사용한 함수는
Datetime Formatter 와
Label Encoder 입니다 :)
Datetime Formatter 함수는
String(문자열) Type 으로 되어있는 날짜 변수를
Datetime Type 으로 변환해주는 함수인데요,
설정 / 출력값을 확인해 보시면
yyyy-mm-dd 형태의 날짜 변수를
yyyymm 형태로 변환하였음을
확인할 수 있습니다!
이렇게 되면,
일별이 아닌, 월별 활동을
확인할 수 있게 되는것이죠!
그 다음으로, Label Encoder 함수는
다양한 형태의 데이터 값들을
숫자형으로 변환해주는 함수입니다!
제가 사용하는 데이터는
Type1, Type2 / True, False,,,
와 같이 String Type 과 Boolean Type 등의
다양한 타입을 포함하고 있는데요,
분석을 위해서는 숫자형으로 변환이 되어야 하므로
해당 함수에 숫자형이 아닌
모든 변수들을 입력해 변환을 해주는 것이죠@!
변환된 표를 보시면, 변수명 뒤에 _index 가 추가되고,
모든 값들이 숫자로 변경되었음을
확인하실수 있습니다 :)
이로써 데이터를 분석할 준비가 모두 완료 되었습니다!
모델 생성 #1 Logistic Regression
자 그럼
세가지 모델중에서 첫 번째,
Logistic Regression 모델입니다!
Select Column 함수를 이용해
Lable Encoding 이 된 열을 선택하고,
Split Date 함수를 이용해
Train / Test Data 로 분할 한 후,
Logistic Regression Train,
Logistic Regression Predict,
Evaluate Classification 함수를 차례로 연결하여
Logistic Regression 분석을 진행하고
해당 모델을 평가합니다.
분석결과, 모델 정확도는 0.85 가 나오는 것을
확인할 수 있습니다!
모델 생성 #2 Decision Tree Classification
다음으로,
Decision Tree Classification 모델입니다.
첫 번째 분석 모델과 마찬가지로,
Select Column 함수를 이용해
Lable Encoding 이 된 열을 선택하고,
Split Date 함수를 이용해
Train / Test Data 로 분할 한 후,
Decision Tree Classification Train,
Decision Tree Classification Predict,
Evaluate Classification 함수를 차례로 연결하여
Decision Tree Classification 분석을 진행하고
해당 모델을 평가합니다.
이 모델의 정확도는 0.96 이 나오는군요@!
모델 생성 #3 Random Forest Classification
마지막으로,
Random Forest Classification 입니다!
이 모델 역시,
Select Column 함수를 이용해
Lable Encoding 이 된 열을 선택하고,
Split Date 함수를 이용해
Train / Test Data 로 분할 한 후,
Random Forest Classification Train,
Random Forest Classification Predict,
Evaluate Classification 함수를 차례로 연결하여
Random Forest Classification 분석을 진행하고
해당 모델을 평가합니다.
마지막 모델의 정확도는 0.98 이 나오는 것을
확인하실수 있습니다@!
요러케 3가지 모델을 작성하여,
각 모델의 정확도를 확인해 보았는데요,
Random Forest Classification 모델의 정확도가
가장 높다는 것을 확인할 수 있었습니다 :)
하지만, 아직 해당 모델들은
Lable Encoder 를 이용해
숫자형으로 변환한 데이터가
얼마나 해당 데이터를 잘 대표하는지,
데이터의 의미가 정확하게 나온 것이 아니라서,
각 모델에 적절한 데이터들이 사용되었는지
확인할 수 없다는 한계가 존재한답니다,,,
따라서, 앞으로의 계획은
이러한 한계점을 해결할 방안을 고민해보고
모델을 완성해서
Kaggle 에 제출할 코드를 생성하고,
해당 프로젝트를 영상으로 제작 할 예정이랍니다 :)
그럼., 오늘은 포스팅은 여!기!까!지!
다음주에 더 발전시켜서 돌아올게욥!
(°▽°๑)– =͟͟͞͞ =͟͟͞
* 해당 게시글은 Brightics 서포터즈 활동의 일환으로 작성되었습니다.
게시글 관련 문의 및 소통을 원하신다면 댓글을 남겨주세요 :)
브라이틱스 사용 중 문의사항은 brightics@samsung.com 으로 연락주세요!
#삼성SDSBrightics #BrighticsStudio #BrighticAI #브라이틱스 #모델링 #코딩없이분석하기 #데이터분석 #군집분석 #군집분석모델 #Clustring #Clustering_without_coding #코딩없이군집분석모델링하기 #빅데이터 #데이터사이언티스트 #데이터분석툴 #데이터분석플랫폼 #데이터분석툴체험하기 #분석모델제작하기 #무료데이터분석툴 #오픈소스 #삼성SDS #삼성SDS서포터즈 #Brightics서포터즈 #Brightics서포터즈2기 #데이터사이언티스트 #DS #데이터컨설팅 #데이터컨설턴트 #Brightics서포터즈팀미션 #KaggleCompetition #캐글프로젝트 #캐글제출 #Brighitic캐글 #데이터전처리 #모델생성 #모델비교 #분석모델정확도판단 #분석모델정확도비교