rubus0304 님의 블로그
[프로젝트 4일차] 본문
PPT 들어갈 내용 및 파이썬 파일 취합완료!
1. Project 달달 (달구벌에서 달리는 자동차 사고 예측)
(주제: 대구 지역의 교통사고 시공간 및 환경 정보를 활용하여 사고위험도(ECLO)를 예측하는 AI 모델 개발)
2. 목차
O bjective (목표)
N ecessary data (데이터)
A nalytics (*상관관계 안 나옴/ EDA: 탐색적 데이터 분석 (시각화만) / ML: 머신러닝 코드)
I nterpretation (해석) (머신러닝 숫자가 잘 나왔다 - / 시각화를 통해 분석)
R eport (보고)
3. Objective
4. Objective: 목표
- 프로젝트의 목표:
- 대구 교통사고 피해예측을 위해 ECLO를 포함한 시공간 데이터를 학습시킨 시공간데이터만으로 예측가능한 회귀모델을 구축
- 이를 통해 사고예방대책 마련 및 보험사정보제공 목표
- 예상 결과물:
5. Necessary data
6. Necessary data 수집과정
1) 데이터 설명
- 기간
- 주요 데이터
2) ERD (머신러닝)
- train
- countrywide
- test
7. Analytics (EDA 시각화/ ML 머신러닝)
1) 분석방법: 회귀분석, 모델선정, 절차설명
: 모델 학습: Catboost, XGboost (다양한 머신러닝 알고리즘 사용해 예측 모델 학습)
: 모델 평가 및 선택
(교차검증: 여러번 데이터 나누어 학습, 평가하여 모델의 일반화 성능확인)
(평가지표: 정확도, 정밀도, 재현율, F1점수, AUC 등 사용 모델성능평가)
2) 분석 계획
2-1) 데이터 전처리
- 결측값 처리: train.csv 및 추가 데이터 내 결측치 확인 및 처리 (이상치 선택이유 (2-3개 정도)
- 데이터 병합: 추가 데이터를 사고 데이터와 병합하여 특성 강화
- 범주형 변수 인코딩, 스케일링 대체 (catboost, gb 사용)
2-2) 데이터 탐색 및 시각화
- 변수 간 상관관계 분석 생략 (상관관계 안 나온 이유)
- 지역별 사고 분포 시각화 (그래프 2개)
- 시간대 및 계절별 시각화
- 보험회사용 분석
2-3) 회귀 모델 설계
- 모델 종류
- 모델 비교 (회귀모형성능평가)
- 여러가지 모델 test 후 채택 - 원-핫 인코딩 되는 걸로 채택 //
- - 과적합문제 발견, Validation을 올리기 위해 1) 하이퍼파라미터 조정 (횟수, 강도, 규제) 하다 안 되서 전 처리를 돌아가서 2) 과적합문제 해결위해 데이터량 추가 (countrywide 포함) 시켜 결과값이 좋아졌다.
- 하이퍼파라미터 튜닝
- GridSearchCV 또는 RandomSearchCV를 사용해 최적화
*RMSE (근 평균 제곱 오차) 계산 - 예측 값과 실제 값 사이의 차이를 나타내는 측도
(낮을 수록 모형이 데이터에 더 잘 적합된다)
8. Interpretation
-분석결과해석:
:모델성능평가: (최종모델의 성능평가, 주요성능지표 분석)
- 지역별 ECLO 예측값, 실제값(표). 시각화
:특성중요도 분석: (모델의 특성 중요도 분석, 고객이탈이나 특정영향 미치는 주요요인 식별)
:인사이트 도출: 향후 전략 수립위한 인사이트
1) Catboost vs XGB boost 비교 모델 검증 값이 잘 나왔다.
2) 사고횟수/ECLO 가장 높은 구 원인분석 (해석)
3) 사고횟수/ECLO 가장 높은 요일/시간별 원인분석 (해석)
9. Report
-활용방안 보고 (구조와 형식 정의, 어떤 정보 포함할 것인지 설명)
- 정책 수립
- 시스템 개발
- 교육 및 캠페인
- 자동차 보험
1) 사고예방 대책제안
- 사고횟수/ ECLO 낮추기 위한 구별 정책 (문제 원인해결)
- 사고횟수/ ECLO 낮추기 위한 요일/시간별 정책 (문제 원인해결)
2) 보험사 유의미한 정보제공
- 사고횟수 및 ECLO 가장 높은 가해자 차종 및 가해자연령대 보험가입시 정보제공
10. 발표준하며 느낀점
11. 출처
'Data Analyst > daily' 카테고리의 다른 글
오늘은 새로운 팀 만난 날~ (0) | 2024.12.10 |
---|---|
[프로젝트 5주차] (0) | 2024.12.06 |
[프로젝트 3일차] (0) | 2024.12.03 |
[프로젝트 2일차] (0) | 2024.12.02 |
프로젝트 시작! (2) | 2024.11.29 |