rubus0304 님의 블로그
[통계 라이브세션 1] 주요 강의내용 정리 본문
강의내용: 표본분포, 신뢰구간, 정규분포 - 이론
- 이번 수업에서 배울 것은?
- 우리는 이번 수업에서 ‘데이터 분석에 사용되는 통계’ 를 집중적으로 살펴보겠습니다.
구분 상세 분석 기법 기초 통계분석 상관분석 회귀분석 분류분석 군집분석 RFM분석 분석 방법론 A/B TEST 통계이론 기초통계이론(평균, 분산, 표준편차) 정규분포와 중심극한정리 신뢰구간과 유의수준 가설 설정 통계적 유의성 검정 통계적 가설 검정 - 기초통계의 이론을 학습하고, 데이터 종류에 맞는 python 라이브러리를 활용해 실습하겠습니다.
- 실습을 바탕으로 심화 프로젝트 진행시 통계분석을 진행하고 이를 해석해 보겠습니다.
- 우리는 이번 수업에서 ‘데이터 분석에 사용되는 통계’ 를 집중적으로 살펴보겠습니다.
편차, 분산, 표준편차, 표본분포
- 평균: 모든 값의 총 합을 개수로 나눈 값 ( 34/5 = 6.8 )
- 중간값: 데이터 중 가운데 위치한 값 ( 5 개 중 중간에 위치한 6 )
- 최빈값: 데이터 중 가장 많이 도출된 값 ( 6 이라는 숫자가 2번 있으므로 6 )
아래 두 그래프의 평균이 같습니다. 😈😈😈
편차, 분산, 표준편차
- 편차(deviation): 하나의 값에서 평균을 뺀 값 = 평균으로부터 얼마나 떨어져 있는지를 의미 (점수 - 평균 = 편차)
- ex)
- - A 학생의 영어점수: 30점 - B 학생의 영어점수: 70점 - C 학생의 영어점수: 80점 - A,B,C 학생의 평균 영어점수: 60점
> A 학생의 편차: -30
> B 학생의 편차: +10
> C 학생의 편차: +20
학생 전체의 편차를 나타내기 위해 각 학생들의 편차를 모두 더하게 되면 0이 나오게 됩니다. 따라서 편차로는 반 전체의 점수 분포를 정확히 알 수가 없기에 나온 개념이 분산입니다.
- 분산(variance): 편차의 합이 0으로 나오는 것을 방지하기 위해 생성된 개념 = 편차 제곱합의 평균
- A 학생의 편차 제곱: (-30)^2 = 900 - B 학생의 편차 제곱: (+10)^2 = 100 - C 학생의 편차 제곱: (+20)^2 = 400
> 편차 제곱합: 1400
> 편차 제곱합의 평균(분산): 1400/3 = 466
분산은 466이 도출되었습니다.
그러나 점수라는 값에 제곱이 들어가며(점수에 제곱..!) 그 단위가 달라지게되었어요. 실제 데이터가 어느정도로 차이가 있는 지 알기 어렵게 되었습니다. 이를 해결하기 위해 도입된 개념이 표준편차입니다.
- 표준편차: 분산에 제곱근을 씌워준 값. (=원래 단위로 되돌리기 = standard deviation(σ))
- **- 분산: 466 - 분산의 제곱근 = 표준편차 = 약 21.6 이 되겠습니다.**
- 이로써, 우리는 반 전체의 영어점수가 약 21만큼 퍼져있다(분산되어있다) 라고 해석할 수 있다.
- 지금까지는 A,B,C 라는 친구의 값을 예제로 보았어요. 하지만 실제로는, 무수히 많은 데이터들이 있는데, 이를 통계분석에 전부 활용해댜할까요?
- 다음 챕터에서는 통계분석을 위한 기준 데이터 선정에 대한 내용을 살펴보겠습니다.
모집단, 표본, 표본분포
- 모집단: 어떤 데이터 집합을 구성하는 전체 대상
- 표본: 모집단 중 일부. 모집단의 부분집합
- 표본분포: 표본의 분포. 표본이 흩어져 있는 정도. 표본통계량으로부터 얻은 도수분포
- 표본평균의 분포: 모집단에서 여러 표본을 추출하고 각 표본의 평균을 계산한다면, 이는 중심극한정리에 따라 정규분포에 가까워집니다. 이는 표본 크기가 충분히 크다면 표본 평균이 정규분포를 따른다는 것을 의미합니다.
- 표본분산의 분포: 모집단에서 여러 표본을 추출하고 각 표본의 분산을 계산한다면, 이 표본분산들의 분포는 카이제곱 분포(다음강의에서 설명)를 따릅니다. 이는 모집단이 정규분포를 따를 때 보다 높게 성립됩니다.
- 표준오차: 표본의 표준편차. = 표본평균의 평균과 모평균의 차이
- 🧑🦱 나는 모평균 이라고 해. 나는 70이야.
- 🧑🦰 나는 표본평균 이야. 나는 67이야.
- 👶 나는 표준 오차야! 나는 3이 되겠다!
중심극한정리: 모집단이 충분히 크다면, 데이터의 표본을 어떻게 가져와도 그 분포가 정규분포에 수렴한다.
모집단에서 표본을 추출하고, 이를 시각화하여 통계적 의미를 찾는 것도 중요하겠죠!
이 과정에서 아래 개념들을 이해해야 하며, 이해한 개념을 바탕으로 심화프로젝트에서 통계적 해
석을 진행해본다면 정말 좋겠습니다. 💟
- 도수: 특정 구간에 발생한 값의 수
- 상대도수: 특정 도수를 전체 도수로 나눈 비율
- 도수분포표: 각 값에 대한 도수와 상대도수를 나타내는 표
- 히스토그램: 도수분포표를 활용하여 만든 막대그래프 😄
- 임의표본추출: 무작위로 표본을 추출하는 것
- 편향: 한쪽으로 치우쳐져 있음
- 도수분포표 만들기(선택)
03. 정규분포, 신뢰구간
- 정규분포
- 앞서 살펴본 중심극한정리를 다시 한 번 떠올려 보겠습니다.
- 표본을 선정할 때 그 값이 충분히 크다면 해당 분포는 종 모양의 정규분포를 따른다는 것이였습니다.
평균 0, 분산 1을 가지는 경우, 이를 표준정규분포라고 합니다. (그림의 붉은색 그래프)
정규분포의 특징은 아래와 같아요.
- 분포는 평균을 중심으로 좌우 대칭의 형태이다.
- 곡선은 각 확률값을 나타내며, 모두 더하면 1이 된다 (동전을 뒤집어서 앞면이 나올 확률은 2분의 1 + 뒷면이 나올 확률 2분의 1 = 전체 확률 1)
- 정규분포는 평균과 분산(퍼진정도)에 따라 다른 형태를 가진다
- 왜 표준정규분포를 학습해야 할까요 ?
- 조금 전 살펴봤던 네 가지의 정규분포에서 그래프 아래쪽의 영역은 모두 확률입니다.(전체 경우의 수 중 어떠한 사건이 일어날 경우의 수)
- 각각의 그래프는 평균과 분산값에 따라 다르게 그려질 수 있어요.
- 이러한 경우, 확률을 계산할 때 어려움을 겪게 됩니다.
-
- 이를 통일하기 위해 분포의 평균과 분산 값을 통일하는 작업을 하게 되는데, 이를 표준화라고 합니다.
- 표준화(standard scaler) 공식: 확률변수 X (값) 에서 평균 m을 빼고 표준편차로 나눈 값
- 데이터분석시 표준화가 필요한 경우: 머신러닝 모델을 만들 때, 데이터의 범위가 많이 차이나는 경우. 아래 표를 함께 보겠습니다.
- 최근 일주일 접속일수의 1과 결제금액의 1 은 같은 의미를 가질까요? NO 아니죠!
- 하지만 머신러닝시, 해당 값의 의미를 같게 받아들이고 처리할 수 있으며, 범위가 큰 데이터의 경우 숫자가 가지는 절대치를 잘못 받아들일 수 있어 표준화는 반드시 필요합니다.
여기까지 데이터가 정규분포의 특징과 표준화가 왜 필요한지 학습했습니다.
다음 챕터에서는 해당 그래프를 가지고 ‘오차를 얼마나 수용할 것인가’에 대해 배워볼게요!
신뢰구간, 신뢰수준
- 신뢰구간: 특정 범위 내에 값이 존재할것으로 예측되는 영역
- (영어점수가 10점에서 90점 사이일 것 같아요)
- 신뢰수준: 실제 모수를 추정하는데 몇 퍼센트의 확률로 신뢰구간이 실제 모수를 포함하게 되는 확률. 주로 95%와 99% 를 이용합니다. (영어점수가 10점에서 90점 사이에 있을(분포할) 확률이 95% 같아요)
우리는 python 라이브러리 중 하나인 ‘scipy’ 를 활용하여, 95% 와 99% 신뢰구간을 구해보도록 하겠습니다. (싸이파이)
import scipy.stats as st
import numpy as np
#샘플 데이터 선언
sample1 = [5, 10, 17, 29, 14, 25, 16, 13, 9, 17]
sample2 = [21, 22, 27, 19, 23, 24, 20, 26, 25, 23]
df = len(sample1) - 1 # 자유도 : 샘플 개수 - 1
mu = np.mean(sample1) # 표본 평균
se = st.sem(sample1) # 표준 오차
# 95% 신뢰구간 ( = 95% 신뢰하려면 데이터의 범위가 어떻게 되는지?)
st.t.interval(0.95, df, mu, se) # (10.338733110887336, 20.661266889112664)
# 99% 신뢰구간( = 99% 신뢰하려면 데이터의 범위가 어떻게 되는지?)
# 99% 로 신뢰할 수 있어야 하므로, 앞선 95% 보다 데이터 범위가 넓은 점 이해되셨나요? :)
st.t.interval(0.99, df, mu, se) # (8.085277068873378, 22.914722931126622)
💗 금일수업 요약
- python은 데이터의 종류에 따라 관련된 계산을 어떤식으로 수행할 지 결정하게 됩니다.
- 데이터 종류는 대표적으로 수치형, 범주형 데이터가 있습니다.
- 데이터 대표값에는 평균, 중간값, 최빈값이 있습니다. 데이터 분포를 보다 명확히 파악하기 위해 편차, 분산, 표준편차를 학습했습니다.
- 편차는 그 합이 0 으로 분포를 확인할 수 없습니다.
- → 음수값을 없애기 위해 제곱을 취해주는 분산의 개념이 도입되었습니다.
- → 분산은 제곲값으로 그 단위가 달라 제곱근의 씌워 다시 단위를 맞춰주었습니다. 이것이 표준편차 입니다.
- 무수히 많은 데이터를 대상으로 효과적인 통계분석을 위해 표본추출이 이뤄지고 있습니다.
- 모집단은 어떤 데이터 집합을 구성하는 전체이고, 표본은 그 중 일부(부분집합)입니다.
- 표본의 분포를 가지고 모집단의 분포를 추정하며, 해당 과정에서 무수히 많은 경우의 수의 표본이 생성될 수 있습니다. 표본 크기가 충분히 크다면 어떤 분포에서도 표본평균이 정규분포를 따른다는 것이 중심극한정리 입니다.
- 정규분포는 종 모양을 띄고 있으며, 분포는 좌우 대칭의 형태입니다. 평균치에서 그 확률이 가장높습니다.
- 정규분포에서 평균 0, 분산 1을 가지는 경우, 이를 표준정규분포라고 합니다. 데이터분석시 이를 표준화라고 부릅니다.
- 데이터분석시 표준화가 필요한 경우: 머신러닝 모델을 만들 때, 데이터의 범위가 많이 차이나는 경우. 예시로 최근 일주일 접속일수의 1과 결제금액의 1 은 같은 의미가 아니며, 범위가 큰 데이터의 경우 숫자가 가지는 절대치를 잘못 받아들일 수 있어 표준화는 반드시 필요합니다.
(예고편) 유의수준: 신뢰수준의 반댓말. 1종오류와 2종오류 합칩 것.
'강의 > 통계학' 카테고리의 다른 글
[통계학 기초] 4,5,6강 (1) | 2024.11.12 |
---|---|
[통계학 기초] 1강, 2강, 3강 (2) | 2024.11.11 |