rubus0304 님의 블로그

[통계야 놀자] 강의 주요내용 본문

Data Analyst/라이브세션

[통계야 놀자] 강의 주요내용

rubus0304 2024. 11. 21. 11:46

 

통계와 머신러닝

 

01. 통계와 머신러닝의 관계성

 

 

 

 

 

두가지의 방법론은 상호보완적이라고 이해해주시면 좋겠습니다. 🙂

  • 통계적 가설검정이 머신러닝을 보완하는 경우
    • 머신러닝 모델의 피처 선택(컬럼 선택)에서 유의미한 변수를 찾기 위해 통계적 가설검정 사용
    • 데이터 분포, 이상치 처리 등 데이터 전처리에 유용한 통계적 기법을 제공
  • 머신러닝이 가설검정을 보완하는 경우
    • 비선형 데이터의 관계를 처리링하거나 대규모 데이터에서 가설 검정의 한계를 보완
    • 예를 들어, 통계적 가설검정은 변수 간 독립성을 가정하고 진행되지만, 머신러닝은 이러한 제약 없이 상관 및 연관성을 탐지합니다.
  • 두가지 방법론의 융합(심화 프로젝트에서 해야 하는 부분)
    • 통계적 가설검정을 사용해 데이터 탐색 및 초기 분석을 수행한 후, 머신러닝을 통해 예측 성능을 극대화

 

머신러닝의 종류

- 지도학습: 

지도 학습이란, **정답이 있는 데이터(labelled data)**를 활용해 훈련 데이터로부터 프로그램 등을

학습시켜서 결과에 대한 예측을 만들어내는 기계 학습(Machine Learning)의 한 방법

- 비지도학습: 

비지도 학습은 **정답이 없는 데이터(Unlabelled data)**를 분석함으로써 그 안에 숨어있는 패턴을

찾아내거나 데이터를 그룹화시키는 알고리즘을 말합니다.

 

 

 

 

 

지도 학습과 비지도 학습의 가장 큰 차이점 : "Label"

 

두 접근 방식의 주요 차이점은 ”데이터 세트에 label이 지정되어 있는지 아닌지” 입니다.

 

지도 학습label이 지정된 입력 및 출력 데이터를 사용하는 반면 비지도 학습 알고리즘은 그렇지 않습니다.

지도 학습에서 알고리즘은 label된 데이터 세트를 이용해 반복적으로 데이터를 예측하고 정답(label)과의 오차를 줄여나가며 학습한다. 지도 학습 모델은 비지도 학습 모델보다 더 정확한 경향이 있지만 데이터에 적절하게 레이블을 지정하려면 사전에 “데이터분석가의 주관” 개입이 필요합니다.

예를 들어 지도 학습 모델은 시간, 기상 조건 등을 기반으로 통근 시간을 예측할 수 있지만 먼저 비가 오는 날씨가 운전 시간을 연장한다는 것을 알기 위해 훈련이 필요하다.

 

 

대조적으로, 비지도 학습은 label이 지정되지 않은 데이터의 고유한 구조를 발견하기 위해 자체적으로 작동한다.

결과의 유효성을 검사하려면 여전히 “데이터분석가의 주관” 개입이 보다 적극적으로 필요합니다.

예를 들어, 비지도 학습 모델은 온라인 쇼핑객이 구매했던 제품들을 분석해 다른 온라인 쇼핑객에게 구매할 만한 물건을 추천해 줄 수 있겠지만, 데이터 분석을 통해서 추천 엔진이 추천해 준 항목들이 타당한지 검증해야 합니다.

 

지도 학습과 비지도 학습의 또 다른 차이점들

 

지도 학습 모델은 훈련하는 데 시간이 많이 걸릴 수 있으며 입력 및 출력 변수에 대한 label에는 전문 지식이 필요합니다. 한편, 비지도 학습 방법은 출력 변수를 검증하기 위해 사람이 개입하지 않을 경우, 부정확한 결과를 가질 수 있습니다.

지도 학습과 비지도 학습 중 뭐가 더 좋다고 할 수 는 없습니다. 데이터의 구조나 사용 분야에 맞게 적합한 방식을 선택하는 것이 가장 중요합니다!

 

 

 

02. 지도학습 살펴보기

 

지도학습은 “분류”와 “회귀”로 나뉩니다.

 

분류) 내일은 날씨가 추울 것이다.

회귀) 내일은 온도가 35.0℃일 것이다.

 

회귀 모델은 예측값으로 연속적인 값을 출력하고, 분류 모델은 예측값으로 이산적인 값을

출력합니다. 어떤 사람의 키와 몸무게를 데이터로 얻어 그 사람의 허리 둘레를 예측하는 모델은

회귀 모델이고, 입력으로 받은 사진이 어떤 동물인지 종류를 예측하는 모델은 분류 모델입니다.

 

 

  • 지도학습에 사용되는 기법
    • 선형 회귀(Linear Regression)
    • 로지스틱 회귀(Logistic Regression)
    • 나이브 베이즈(Naive Bayes)
    • K-최근접 이웃(k-Nearest Neighbors)
    • 서포트 벡터 머신(SVM, Support Vector Machine)
    • 의사결정 트리(Decision Tree)
    • 랜덤 포레스트(Random Forest)
    • 인공신경망(Neural Network)

 

재미있는 RFM(분류) 분석

  • RFM분석은 고객분류기법입니다. 고객을 R, F, M 이라는 특성에 따라 분류하고, 특성에 맞춰서 구매기회 창출 및 서비스를 발전시키는 것을 목표로 가지고 있습니다.
  • 1️⃣Recency(최근성), 2️⃣Frequency(빈도), 3️⃣Monetary(구매금액) 이 되겠습니다.
  • Recency(최근성)

비즈니스의 종류(물건,정보,서비스등)에 따라 다르지만, 보통 RFM분석에서는 최근에 구매한 고

객일수록 더 가치있는 고객으로 점수가 매겨집니다. 구매시기가 오래되었다면, 재구매율이 보통

떨어지기 때문입니다.

  • Frequency(빈도)

마찬가지로 중요한 요소 중 하나인 빈도입니다.

자주 구매하는 고객일수록, 비즈니스에 큰 도움이 되고 재방문율이 높다고 할 수 있습니다.

빈도수가 높을수록 가치있는 고객으로 점수가 매겨집니다.

  • Monetary(구매금액)

마지막 핵심지표! 구매금액입니다. 구매빈도가 적더라도, 큰 금액을 지출하는 고객이 회사입장에

서는 매출에 더 도움이 될 수도 있습니다. 구매금액이 높을수록 가치있는 고객으로 점수가 매겨

집니다.

 

 

기준 세우기 예시

  • Recency: 2024-01-01 을 기준으로 한 달 이내에 구매기록이 있으면 ‘recent’ 아니면 ‘past’
  • Frequency: 구매횟수가 5회 이상 ‘high’ , 3~5회 ‘mid’, 나머지 ‘low’
  • Monetary: 누적 구매금액 500 달러 이상 ‘high’ 아니면 ‘low’

 

⚠️ 실전에서 RFM 적용 시 고려할 점⚠️

 

RFM 고객 세분화 분석에서 ‘반드시 이렇게 해야 한다’고 정해진 것은 아무것도 없습니다.

비즈니스의 성격에 따라, 상황에 따라 알맞은 기준을 세우는 과정이 필요합니다.

대표적으로 서비스마다 다르게 적용이 가능한 요소들은 아래와 같습니다.

  • Recency, Frequency, Monetary를 각각 몇 단계로 나눌 것인가
  • Frequency, Monetary를 집계하는 기간을 어떻게 설정할 것인가

 

 

03. 비지도학습 살펴보기

 

👉 비지도학습은 “군집화”입니다.

 

크게 군집화(비슷한 특성끼리 묶음)와 차원 축소로 나뉜다고 하지만, 실상 현업에서는 두가지가 연결되어 하나의 프로젝트로 진행됩니다. 정답이 없는 상태에서 분석을 시작하므로, 다양한 분석기법이 제외되거나 추가될 수 있습니다. 다만, 전반적인 프로세스는 아래와 같아요. 이후 진행할 클러스터링 세션에서 집중적으로 학습할 예정

 

  1. 기간 선정
  2. K값(군집갯수), 초기 컬럼(피쳐) 선정
  3. 이상치 기준선정 및 제외
  4. 표준화
  5. 차원 축소
  6. PCA PLOT 으로 군집 밀도 확인
  7. 2~7번 과정을 반복하며 최적의 결과 도출
  8. 모델링(Random Forest)
  9. 데이터 적재 및 자동화 설정

👉 비지도학습에 사용되는 기법

  • 군집(Clustering)
  • K-means 클러스터링
  • 위계적 군집분석
  • 가우시안 혼합모형(Gaussian Mix Texture Model)
  • 주성분 분석(PCA)
  • LLE(Locally Linear Embedding)
  • Isomap
  • MDS(Multi Dimensional Scaling
  • t-SNE(t-distributed Stochastic Neighbor Embedding)

 

데이터분석에 활용되는 통계 관련 서적 추천!