rubus0304 님의 블로그

[통계 라이브세션 1] 주요 강의내용 정리 본문

강의/통계학

[통계 라이브세션 1] 주요 강의내용 정리

rubus0304 2024. 11. 13. 11:59

[통계학] 통계야 놀자 - 1회차

 

[통계학] 통계야 놀자 - 1회차 | Notion

[강의자료 PDF]

teamsparta.notion.site

 

강의내용: 표본분포, 신뢰구간, 정규분포 - 이론

 

  • 이번 수업에서 배울 것은?
    1. 우리는 이번 수업에서 ‘데이터 분석에 사용되는 통계’ 를 집중적으로 살펴보겠습니다.
      구분 상세
      분석 기법 기초 통계분석
      상관분석
      회귀분석
      분류분석
      군집분석
      RFM분석
      분석 방법론 A/B TEST
      통계이론 기초통계이론(평균, 분산, 표준편차)
      정규분포와 중심극한정리
      신뢰구간과 유의수준
      가설 설정
       통계적 유의성 검정
      통계적 가설 검정
    2. 기초통계의 이론을 학습하고, 데이터 종류에 맞는 python 라이브러리를 활용해 실습하겠습니다.
    3. 실습을 바탕으로 심화 프로젝트 진행시 통계분석을 진행하고 이를 해석해 보겠습니다.

편차, 분산, 표준편차, 표본분포

  • 평균: 모든 값의 총 합을 개수로 나눈 값 ( 34/5 = 6.8 )
  • 중간값: 데이터 중 가운데 위치한 값 ( 5 개 중 중간에 위치한 6 )
  • 최빈값: 데이터 중 가장 많이 도출된 값 ( 6 이라는 숫자가 2번 있으므로 6 )

아래 두 그래프의 평균이 같습니다. 😈😈😈

 

 

편차, 분산, 표준편차

  • 편차(deviation): 하나의 값에서 평균을 뺀 값 = 평균으로부터 얼마나 떨어져 있는지를 의미 (점수 - 평균 = 편차)
  • ex) 
  • - A 학생의 영어점수: 30점 - B 학생의 영어점수: 70점 - C 학생의 영어점수: 80점 - A,B,C 학생의 평균 영어점수: 60점

> A 학생의 편차: -30

> B 학생의 편차: +10

> C 학생의 편차: +20

 

학생 전체의 편차를 나타내기 위해 각 학생들의 편차를 모두 더하게 되면 0이 나오게 됩니다. 따라서 편차로는 반 전체의 점수 분포를 정확히 알 수가 없기에 나온 개념이 분산입니다.

 

  • 분산(variance): 편차의 합이 0으로 나오는 것을 방지하기 위해 생성된 개념 = 편차 제곱합의 평균 

- A 학생의 편차 제곱: (-30)^2 = 900 - B 학생의 편차 제곱: (+10)^2 = 100 - C 학생의 편차 제곱: (+20)^2 = 400

 

> 편차 제곱합: 1400

> 편차 제곱합의 평균(분산): 1400/3 = 466

 

분산은 466이 도출되었습니다.

그러나 점수라는 값에 제곱이 들어가며(점수에 제곱..!) 그 단위가 달라지게되었어요. 실제 데이터가 어느정도로 차이가 있는 지 알기 어렵게 되었습니다. 이를 해결하기 위해 도입된 개념이 표준편차입니다.

 

  • 표준편차: 분산에 제곱근을 씌워준 값. (=원래 단위로 되돌리기 = standard deviation(σ))
  • **- 분산: 466 - 분산의 제곱근 = 표준편차 = 약 21.6 이 되겠습니다.**
  • 이로써, 우리는 반 전체의 영어점수가 약 21만큼 퍼져있다(분산되어있다) 라고 해석할 수 있다.

 

  • 지금까지는 A,B,C 라는 친구의 값을 예제로 보았어요. 하지만 실제로는, 무수히 많은 데이터들이 있는데, 이를 통계분석에 전부 활용해댜할까요?
  • 다음 챕터에서는 통계분석을 위한 기준 데이터 선정에 대한 내용을 살펴보겠습니다.

 

모집단, 표본, 표본분포

 

  • 모집단: 어떤 데이터 집합을 구성하는 전체 대상
  • 표본: 모집단 중 일부. 모집단의 부분집합
  • 표본분포: 표본의 분포. 표본이 흩어져 있는 정도. 표본통계량으로부터 얻은 도수분포
    • 표본평균의 분포: 모집단에서 여러 표본을 추출하고 각 표본의 평균을 계산한다면, 이는 중심극한정리에 따라 정규분포에 가까워집니다. 이는 표본 크기가 충분히 크다면 표본 평균이 정규분포를 따른다는 것을 의미합니다.
    • 표본분산의 분포: 모집단에서 여러 표본을 추출하고 각 표본의 분산을 계산한다면, 이 표본분산들의 분포는 카이제곱 분포(다음강의에서 설명)를 따릅니다. 이는 모집단이 정규분포를 따를 때 보다 높게 성립됩니다.
  • 표준오차: 표본의 표준편차. = 표본평균의 평균과 모평균의 차이
    • 🧑‍🦱 나는 모평균 이라고 해. 나는 70이야.
    • 🧑‍🦰 나는 표본평균 이야. 나는 67이야.
    • 👶 나는 표준 오차야! 나는 3이 되겠다!

중심극한정리: 모집단이 충분히 크다면, 데이터의 표본을 어떻게 가져와도 그 분포가 정규분포에 수렴한다.

 

모집단에서 표본을 추출하고, 이를 시각화하여 통계적 의미를 찾는 것도 중요하겠죠!

이 과정에서 아래 개념들을 이해해야 하며, 이해한 개념을 바탕으로 심화프로젝트에서 통계적 해

석을 진행해본다면 정말 좋겠습니다. 💟

  • 도수: 특정 구간에 발생한 값의 수
  • 상대도수: 특정 도수를 전체 도수로 나눈 비율
  • 도수분포표: 각 값에 대한 도수와 상대도수를 나타내는 표
  • 히스토그램: 도수분포표를 활용하여 만든 막대그래프 😄
  • 임의표본추출: 무작위로 표본을 추출하는 것
  • 편향: 한쪽으로 치우쳐져 있음
  • 도수분포표 만들기(선택)

 

03. 정규분포, 신뢰구간

 

  • 정규분포
  • 앞서 살펴본 중심극한정리를 다시 한 번 떠올려 보겠습니다.
  • 표본을 선정할 때 그 값이 충분히 크다면 해당 분포는 종 모양의 정규분포를 따른다는 것이였습니다.

평균 0, 분산 1을 가지는 경우, 이를 표준정규분포라고 합니다. (그림의 붉은색 그래프)

 

정규분포의 특징은 아래와 같아요.

  • 분포는 평균을 중심으로 좌우 대칭의 형태이다.
  • 곡선은 각 확률값을 나타내며, 모두 더하면 1이 된다 (동전을 뒤집어서 앞면이 나올 확률은 2분의 1 + 뒷면이 나올 확률 2분의 1 = 전체 확률 1)
  • 정규분포는 평균과 분산(퍼진정도)에 따라 다른 형태를 가진다

 

  • 왜 표준정규분포를 학습해야 할까요 ?
    • 조금 전 살펴봤던 네 가지의 정규분포에서 그래프 아래쪽의 영역은 모두 확률입니다.(전체 경우의 수 중 어떠한 사건이 일어날 경우의 수)
    • 각각의 그래프는 평균과 분산값에 따라 다르게 그려질 수 있어요.
    • 이러한 경우, 확률을 계산할 때 어려움을 겪게 됩니다.
    • 이를 통일하기 위해 분포의 평균과 분산 값을 통일하는 작업을 하게 되는데, 이를 표준화라고 합니다.
    • 표준화(standard scaler) 공식: 확률변수 X (값) 에서 평균 m을 빼고 표준편차로 나눈 값
    •  
    • 데이터분석시 표준화가 필요한 경우: 머신러닝 모델을 만들 때, 데이터의 범위가 많이 차이나는 경우. 아래 표를 함께 보겠습니다.
    •  
    •  최근 일주일 접속일수의 1과 결제금액의 1 은 같은 의미를 가질까요? NO 아니죠!
    • 하지만 머신러닝시, 해당 값의 의미를 같게 받아들이고 처리할 수 있으며, 범위가 큰 데이터의 경우 숫자가 가지는 절대치를 잘못 받아들일 수 있어 표준화는 반드시 필요합니다.

여기까지 데이터가 정규분포의 특징과 표준화가 왜 필요한지 학습했습니다.

다음 챕터에서는 해당 그래프를 가지고 ‘오차를 얼마나 수용할 것인가’에 대해 배워볼게요!

 

 

신뢰구간, 신뢰수준

 

  • 신뢰구간: 특정 범위 내에 값이 존재할것으로 예측되는 영역
  • (영어점수가 10점에서 90점 사이일 것 같아요)
  • 신뢰수준: 실제 모수를 추정하는데 몇 퍼센트의 확률로 신뢰구간이 실제 모수를 포함하게 되는 확률. 주로 95%와 99% 를 이용합니다. (영어점수가 10점에서 90점 사이에 있을(분포할) 확률이 95% 같아요)

 

우리는 python 라이브러리 중 하나인 ‘scipy’ 를 활용하여, 95% 와 99% 신뢰구간을 구해보도록 하겠습니다.  (싸이파이)

 

 

import scipy.stats as st
import numpy as np

#샘플 데이터 선언 
sample1 = [5, 10, 17, 29, 14, 25, 16, 13, 9, 17]
sample2 = [21, 22, 27, 19, 23, 24, 20, 26, 25, 23]

df = len(sample1) - 1 # 자유도 : 샘플 개수 - 1
mu = np.mean(sample1) # 표본 평균
se = st.sem(sample1) # 표준 오차

# 95% 신뢰구간 ( = 95% 신뢰하려면 데이터의 범위가 어떻게 되는지?)
st.t.interval(0.95, df, mu, se) # (10.338733110887336, 20.661266889112664)

# 99% 신뢰구간( = 99% 신뢰하려면 데이터의 범위가 어떻게 되는지?)
# 99% 로 신뢰할 수 있어야 하므로, 앞선 95% 보다 데이터 범위가 넓은 점 이해되셨나요? :) 
st.t.interval(0.99, df, mu, se) # (8.085277068873378, 22.914722931126622)

 

 

 

💗 금일수업 요약

 

  • python은 데이터의 종류에 따라 관련된 계산을 어떤식으로 수행할 지 결정하게 됩니다.
  • 데이터 종류는 대표적으로 수치형, 범주형 데이터가 있습니다.
  • 데이터 대표값에는 평균, 중간값, 최빈값이 있습니다. 데이터 분포를 보다 명확히 파악하기 위해 편차, 분산, 표준편차를 학습했습니다.
  • 편차는 그 합이 0 으로 분포를 확인할 수 없습니다.
  • 음수값을 없애기 위해 제곱을 취해주는 분산의 개념이 도입되었습니다.
  • → 분산은 제곲값으로 그 단위가 달라 제곱근의 씌워 다시 단위를 맞춰주었습니다. 이것이 표준편차 입니다.
  • 무수히 많은 데이터를 대상으로 효과적인 통계분석을 위해 표본추출이 이뤄지고 있습니다.
  • 모집단은 어떤 데이터 집합을 구성하는 전체이고, 표본은 그 중 일부(부분집합)입니다.
  • 표본의 분포를 가지고 모집단의 분포를 추정하며, 해당 과정에서 무수히 많은 경우의 수의 표본이 생성될 수 있습니다. 표본 크기가 충분히 크다면 어떤 분포에서도 표본평균이 정규분포를 따른다는 것이 중심극한정리 입니다.
  • 정규분포종 모양을 띄고 있으며, 분포는 좌우 대칭의 형태입니다. 평균치에서 그 확률이 가장높습니다.
  • 정규분포에서 평균 0, 분산 1을 가지는 경우, 이를 표준정규분포라고 합니다. 데이터분석시 이를 표준화라고 부릅니다.
  • 데이터분석시 표준화가 필요한 경우: 머신러닝 모델을 만들 때, 데이터의 범위가 많이 차이나는 경우. 예시로 최근 일주일 접속일수의 1과 결제금액의 1 은 같은 의미가 아니며, 범위가 큰 데이터의 경우 숫자가 가지는 절대치를 잘못 받아들일 수 있어 표준화는 반드시 필요합니다.

 

(예고편) 유의수준: 신뢰수준의 반댓말. 1종오류와 2종오류 합칩 것. 

'강의 > 통계학' 카테고리의 다른 글

[통계학 기초] 4,5,6강  (1) 2024.11.12
[통계학 기초] 1강, 2강, 3강  (2) 2024.11.11