rubus0304 님의 블로그

[통계야 놀자 4회차] 회귀분석 본문

Data Analyst/라이브세션

[통계야 놀자 4회차] 회귀분석

rubus0304 2024. 11. 19. 11:58

[통계학] 통계야 놀자 - 5회차

 

그렇다면 만약 게임시간이 1000시간이면, 전기세는 얼마일까요?

 

우리가 가진 데이터셋에 해당 값이 없을 때, 이를 예측하기 위해 ‘회귀분석’의 개념이 도입됩

니다. 이러한 예측을 위해 위 그래프에서 붉은색으로 보이는 ‘추세선’ 이 필요한데요!

회귀분석의 목적은 이 ‘추세선’을 찾는 것이 목적이 됩니다.

 

추세선 = “우리가 이미 가지고 있는 데이터들을 가장 잘 설명해주는 선” 을 의미합니다.

추세선은 y = a+bx (방정식)으로 표현됩니다.

 

x: 게임시간(독립변수) y: 전기세(종속변수) a: 절편(x 가 0일때 y값) b: 기울기

 

이렇게 추세선을 파악함으로써, 게임시간이 1000시간과 추세선이 만나는 점을 통해 종속변수를

예측할 수 있게 되는 것입니다. 이러한 특징을 통해, 데이터분석에서는 예측을 진행할 때 회귀분

석을 주로 수행합니다. 😊

 

 

 

회귀분석의 특징, 종류

 

 

단순하지만 제일 중요. 기업의 이윤창출. 그래서 독립변수에 따라 내년도 매출이 얼마가 나오는가.

 

 

로지스틱은 독립변수에 따라 종속변수 여부 분류까지

 

정합성 검증 & 결과 해석

 

→ 결정계수 R_squared(R²) 를 확인합니다.

 

결정계수는 종속변수와 독립변수의 관계를 나타내는 수치입니다.

결정계수 해석을 위해 회귀식이 도출되는 과정을 확인해 보겠습니다.

기울기가 0, y절편이 y의 평균인 선을 통해, 엉망인 회귀선을 그릴 수 있습니다.

그림에서 점선으로 표시된 부분이 되겠습니다.

 

 

 

R2: (결정계수)  얼마나 돌아갔는가  (회귀식이 얼마나 설명력을 갖는지. 얼마나 정확한거야)

 

- ( 전체 오류 중에 얼마나 보완할 수 있어? )

 

- ( 보완할 수 있는 걸 알겠는데 통계적으로 이거 써도되는지 검정! )

 

* F- 검정

집단 개수 : 주로 3개 이상

- 두 개 이상의 그룹의 분산 비교

- 3개 이상의 집단 간 평균의 차이 비교

- 회귀식 검정

 

검정통계량 보다 P-value 가 중요 (P-value를 통해 유의성 판단할 수 있음. 통상적으로 신뢰도 95%)

 

→ p-value로 유의성을 판단

→ F-검정을 통해 얻은 p-value 값이 0.05보다 작다면 대립가설을 채택합니다. (신뢰도95%)

→ p-value 는 ‘신뢰도’에 대한 검정통계량

 

 

 

 

 

전체 해석은 아래와 같습니다. 주요 지표는 파란 글씨를 참고해주세요!

  1. Dep. Variable (y): 종속 변수, 즉 회귀분석에서 설명하고자 하는 변수입니다.
  2. R-squared (0.344): 결정계수로, 회귀 모델이 종속 변수의 변동성을 얼마나 설명하는지를 나타냅니다. 이 값은 0에서 1 사이에 위치하며, 0.344는 약 34.4%의 변동성이 설명된다는 것을 의미합니다.
  3. Adj. R-squared (0.342): 수정된 결정계수로, 설명 변수의 개수를 고려하여 R-squared 값을 조정한 것입니다. 변수의 수가 늘어날 때 발생하는 과적합을 방지하기 위해 사용됩니다. 0.342는 모델이 적절하게 조정되었음을 나타냅니다.
  4. Method (Least Squares): 사용된 회귀 방법이 최소제곱법임을 나타냅니다.
    1. 최소제곱법: 근사적으로 구하려는 해와 실제 해의 오차의 제곱의 합이 최소가 되는 해를 구하는 방법
  5. F-statistic (230.7): 회귀 모형의 전체 유의성을 검정하는 F-통계량입니다. 값이 클수록 모형이 유의미할 가능성이 높습니다. ( 0 부터 무한대까지) 
  6. Prob (F-statistic) (3.47e-42): F-통계량의 p-값으로, 이 값이 매우 작으면 (예: 0.05 이하) 대립가설을 채택할 수 있습니다. 이 경우 p-값이 거의 0에 가까우므로, 회귀 모형이 통계적으로 유의미하다고 볼 수 있습니다.  
  7. Log-Likelihood (-2454.0): 회귀 모형의 로그 우도(likelihood)입니다. 값이 클수록 모형이 데이터에 더 잘 맞는다는 것을 의미합니다.
  8. No. Observations (442): 사용된 관측치(데이터 포인트)의 수입니다.
  9. Df Residuals (440): 잔차의 자유도, 즉 전체 데이터 포인트 수에서 회귀 계수의 수를 뺀 값입니다.
  10. Df Model (1): 모델에 포함된 설명 변수의 수입니다.
  11. Covariance Type (nonrobust): 공분산 추정의 유형을 나타냅니다. nonrobust는 기본 공분산 추정이 사용되었음을 의미합니다.
  12. coef (coefficients):
    • const (152.1335): 상수항(절편)으로, 독립변수가 0일 때 종속 변수의 예측값입니다.
    • x1 (949.4353): 설명 변수 x1의 회귀 계수로, 독립변수가 1 단위 증가할 때 종속 변수가 평균적으로 949.4353 단위 증가한다는 의미입니다.
  13. std err (Standard Error): 회귀 계수 추정치의 표준 오차입니다. 상수항과 x1에 각각 2.974, 62.515가 있습니다.
  14. t (t-statistic): 회귀 계수가 0인지 검정하는 t-값입니다. 절대값이 클수록 해당 계수가 유의미할 가능성이 높습니다. x1의 t-값은 15.187로 매우 크며 유의미함을 나타냅니다.
  15. P>|t| (P-value): 각 계수에 대한 p-값입니다. 일반적으로 0.05보다 작으면 해당 계수는 유의미하다고 판단됩니다. x1과 상수항의 p-값은 모두 0으로, 매우 유의미합니다.
  16. [0.025 0.975] (Confidence Interval): 회귀 계수에 대한 95% 신뢰구간입니다. 예를 들어, x1의 신뢰구간은 [826.570, 1072.301]로, 이 범위 내에서 실제 계수가 있을 가능성이 95%입니다.
  17. Omnibus (11.674): 잔차의 정규성을 검정하는 Omnibus 검정 통계량입니다. 값이 작을수록 잔차가 정규분포에 가깝다는 의미입니다.
  18. Prob(Omnibus) (0.003): Omnibus 검정의 p-값입니다. 0.05보다 작으므로 잔차가 정규분포에서 벗어날 가능성이 있습니다.
  19. Skew (0.156): 잔차의 왜도(skewness)입니다. 값이 0에 가까울수록 대칭적입니다.
  20. Kurtosis (2.453): 잔차의 첨도(kurtosis)입니다. 3에 가까울수록 정규분포에 가깝습니다. 2.453은 정규분포보다 조금 더 평평함을 의미합니다.
  21. Durbin-Watson (1.848): 잔차의 자기상관을 검정하는 통계량입니다. 2에 가까우면 자기상관이 없음을 의미합니다.
  22. Jarque-Bera (JB) (7.310): 잔차의 정규성을 검정하는 Jarque-Bera 검정 통계량입니다.
  23. Prob(JB) (0.0259): Jarque-Bera 검정의 p-값입니다. 0.05보다 작아 잔차가 정규성을 만족하지 않을 가능성이 있습니다.
  24. Cond. No. (21.0): 설명 변수의 다중공선성을 나타내는 조건수입니다. 값이 높으면 다중공선성 문제가 있음을 시사합니다.

(통용)

 

[ 금일수업 요약 ]

  • 우리는 오늘 데이터분석 기법 중 ‘회귀분석’을 학습했습니다.
  • 회귀분석은 독립변수와 종속변수가 나누어진(또는 나눌 수 있는)데이터를 기반으로 진행됩니다.
  • 독립변수는 원인, 종속변수는 결과입니다.
  • 귀무가설과 대립가설의 의미는 아래와 같습니다.
    • 귀무가설은 차이가 없거나 의미 있는 차이가 없는 경우의 가설입니다.
    • 대립가설은 차이가 있는 경우의 가설입니다.
  • 회귀분석은 크게 3단계로 진행됩니다.
    1. 독립변수, 종속변수 설정
    2. 데이터 경향성 확인
    3. 정합성 검증 & 결과 해석
  • 회귀분석의 결과해석을 위해, 아래 세가지 검증이 필요합니다.
    • 회귀식이 얼마나 설명력을 가지는지
    • 회귀식이 통계적으로 유의한지
    • 독립변수와 종속변수 간 상관관계가 유의미한지
  • 각각의 검정통계량(t-value, F-value)이 가지는 숫자의 의미보다, 이를 신뢰할 수 있는지(p-value)에 포커스를 맞춰주시면 됩니다.

 

 

[파이썬 공부하는 방법]

 

라이브세션 과제용 데이터셋  3개 있음. (SQl 파이썬, 개인과제용)  한 줄이면 결과 나오니까.

- 그걸로 예측 하는 것 연습

- 원하는 데이터 추출하고 계속 다른 데이터셋 가지고 나만의 방식으로 계속 핸들링하는 연습.