rubus0304 님의 블로그

[프로젝트 4일차] 본문

Data Analyst/daily

[프로젝트 4일차]

rubus0304 2024. 12. 4. 22:29

PPT 들어갈 내용 및 파이썬 파일 취합완료!

 

1. Project 달달 (달구벌에서 달리는 자동차 사고 예측)

(주제: 대구 지역의 교통사고 시공간 및 환경 정보를 활용하여 사고위험도(ECLO)를 예측하는 AI 모델 개발)

 

2. 목차

O bjective (목표)

N ecessary data (데이터)

A nalytics (*상관관계 안 나옴/ EDA: 탐색적 데이터 분석 (시각화만) / ML: 머신러닝 코드) 

I nterpretation (해석) (머신러닝 숫자가 잘 나왔다 - / 시각화를 통해 분석) 

R eport (보고)

 

3. Objective 

 

4. Objective: 목표

- 프로젝트의 목표: 

  • 대구 교통사고 피해예측을 위해 ECLO를 포함한 시공간 데이터를 학습시킨 시공간데이터만으로 예측가능한 회귀모델을 구축
  • 이를 통해  사고예방대책 마련 및 보험사정보제공 목표   

 

- 예상 결과물: 

 

5. Necessary data

 

6. Necessary data 수집과정

  1) 데이터 설명

  • 기간
  • 주요 데이터

  2)  ERD (머신러닝)

  • train
  • countrywide
  • test

 

7. Analytics (EDA 시각화/ ML 머신러닝)

 

1) 분석방법: 회귀분석, 모델선정, 절차설명

  : 모델 학습: Catboost, XGboost (다양한 머신러닝 알고리즘 사용해 예측 모델 학습)

  : 모델 평가 및 선택 

    (교차검증: 여러번 데이터 나누어 학습, 평가하여 모델의 일반화 성능확인)

    (평가지표: 정확도, 정밀도, 재현율, F1점수, AUC 등 사용 모델성능평가)

 

2) 분석 계획

2-1) 데이터 전처리

  • 결측값 처리: train.csv 및 추가 데이터 내 결측치 확인 및 처리 (이상치 선택이유 (2-3개 정도)
  • 데이터 병합: 추가 데이터를 사고 데이터와 병합하여 특성 강화
  • 범주형 변수 인코딩, 스케일링 대체 (catboost, gb 사용)

2-2) 데이터 탐색 및 시각화

  • 변수 간 상관관계 분석 생략 (상관관계 안 나온 이유)
  • 지역별 사고 분포 시각화 (그래프 2개)
  • 시간대 및 계절별 시각화 
  • 보험회사용 분석

2-3) 회귀 모델 설계

  • 모델 종류
  • 모델 비교 (회귀모형성능평가)
  • 여러가지 모델 test 후 채택  - 원-핫 인코딩 되는 걸로 채택  // 
  • - 과적합문제 발견, Validation을 올리기 위해 1) 하이퍼파라미터 조정 (횟수, 강도, 규제) 하다 안 되서 전 처리를 돌아가서 2) 과적합문제 해결위해 데이터량 추가 (countrywide 포함) 시켜 결과값이 좋아졌다. 
  • 하이퍼파라미터 튜닝
  • GridSearchCV 또는 RandomSearchCV를 사용해 최적화

*RMSE (근 평균 제곱 오차) 계산 - 예측 값과 실제 값 사이의 차이를 나타내는 측도

 (낮을 수록 모형이 데이터에 더 잘 적합된다)




8. Interpretation 

 

-분석결과해석:

:모델성능평가: (최종모델의 성능평가, 주요성능지표 분석)

- 지역별 ECLO 예측값, 실제값(표). 시각화

 

:특성중요도 분석: (모델의 특성 중요도 분석, 고객이탈이나 특정영향 미치는 주요요인 식별)

 

:인사이트 도출: 향후 전략 수립위한 인사이트 




 1) Catboost vs XGB boost 비교 모델 검증 값이 잘 나왔다. 

 2) 사고횟수/ECLO 가장 높은 구 원인분석 (해석) 

 3) 사고횟수/ECLO 가장 높은 요일/시간별 원인분석 (해석)

 

9. Report

 

-활용방안 보고 (구조와 형식 정의, 어떤 정보 포함할 것인지 설명)

  1. 정책 수립
  2. 시스템 개발
  3. 교육 및 캠페인
  4. 자동차 보험

 

1) 사고예방 대책제안

- 사고횟수/ ECLO 낮추기 위한 구별 정책 (문제 원인해결) 

- 사고횟수/ ECLO 낮추기 위한 요일/시간별 정책 (문제 원인해결)

 

 2) 보험사 유의미한 정보제공

- 사고횟수 및 ECLO 가장 높은 가해자 차종 및 가해자연령대 보험가입시 정보제공

 

10. 발표준하며 느낀점



11. 출처



'Data Analyst > daily' 카테고리의 다른 글

오늘은 새로운 팀 만난 날~  (0) 2024.12.10
[프로젝트 5주차]  (0) 2024.12.06
[프로젝트 3일차]  (0) 2024.12.03
[프로젝트 2일차]  (0) 2024.12.02
프로젝트 시작!  (2) 2024.11.29