rubus0304 님의 블로그

[통계학 기초] 1강, 2강, 3강 본문

강의/통계학

[통계학 기초] 1강, 2강, 3강

rubus0304 2024. 11. 11. 15:30

[통계 3주차. 데이터 분석과 통계]

https://teamsparta.notion.site/12ac32cf35174229ac5987ec8cffbe56

 

[스파르타코딩클럽] 데이터 분석과 통계 | Notion

[수업 목표]

teamsparta.notion.site

 

연습문제

✔️ 이번에 배운 내용을 다시 정리하기 위해 연습문제를 풀어봅시다! (정답 해설을 보지 않고 풀어보세요!)

 

  1. 데이터 분석에서 통계가 중요한 이유는 무엇인가요? 다음 보기 중에서 옳지 않은 것을 고르세요.
    1. 통계는 데이터를 이해하고 해석하는 데 도움을 준다.
    2. 통계는 데이터에서 패턴을 발견하고 미래를 예측하는 도구를 제공한다.
    3. 통계는 모든 데이터 분석 결과가 항상 정확하고 확실하다는 것을 보장한다.
    4. 통계는 복잡한 데이터를 간단한 요약 정보로 변환할 수 있다.
    • 정답 및 해설
      • 정답은 3번
        1. 통계는 데이터를 이해하고 해석하는 데 도움을 준다.
        2. 통계는 데이터에서 패턴을 발견하고 미래를 예측하는 도구를 제공한다.
        3) 통계는 모든 데이터 분석 결과가 항상 정확하고 확실하다는 것을 보장한다.
        1. 통계는 복잡한 데이터를 간단한 요약 정보로 변환할 수 있다.
      • 통계는 확률과 추론에 기초하기 때문에 항상 불확실성이 존재합니다.
  2. 다음 중 기술통계(Descriptive Statistics)에 해당하는 것은 무엇인가요?
    1. 모집단의 평균을 추정하는 것
    2. 데이터의 중앙값을 계산하는 것
    3. 표본을 통해 모집단의 특성을 추론하는 것
    4. 가설을 검증하는 것
    • 정답 및 해설
    • 2번, 데이터의 중앙값을 계산하는 것
    • 기술통계는 데이터를 요약하고 설명하는 데 중점을 둡니다. 반면, 추론통계는 표본 데이터를 사용하여 모집단에 대한 결론을 내리는 과정입니다.
    •  
  1. 다음 중 추론통계(Inferential Statistics)에 해당하는 것은 무엇인가요?
    1. 데이터의 범위를 계산하는 것
    2. 데이터의 분산을 계산하는 것
    3. 표본을 기반으로 모집단의 평균을 추정하는 것
    4. 데이터의 최빈값을 계산하는 것
    • 정답 및 해설
        1. 데이터의 범위를 계산하는 것
        2. 데이터의 분산을 계산하는 것3번 표본을 기반으로 모집단의 평균을 추정하는 것
        3. 표본을 기반으로 모집단의 평균을 추정하는 것
        4. 데이터의 최빈값을 계산하는 것
      • 추론통계는 표본 데이터를 사용하여 모집단에 대한 결론을 도출하는 과정입니다.
  2. 어느 학교의 학생들 10명의 수학 점수는 다음과 같습니다: 78, 82, 85, 88, 90, 92, 94, 96, 98, 100. 이 데이터의 평균을 구하세요.
    • 정답 및 해설
      • 평균은 90.3
      • 평균은 데이터의 합을 데이터의 개수로 나누어 계산합니다.
  3. 4번 문제의 학생 수학 점수의 중앙값을 구하세요.
    • 정답 및 해설
      • 중앙값은 91
      • 중앙값은 데이터가 순서대로 정렬되었을 때 중간에 위치한 값입니다. 데이터의 개수가 짝수인 경우, 중간에 위치한 두 값의 평균입니다.
  4. 4번 문제의 학생 수학 점수 데이터의 범위(Range)를 구하세요.
    • 정답 및 해설
      • 범위는 22
      • 범위는 데이터의 최대값에서 최소값을 뺀 값입니다.
  5. 학생들의 수학 점수와 영어 점수가 각각 다음과 같을 때, 두 변수 간의 상관관계가 양의 상관관계인지, 음의 상관관계인지, 상관관계가 없는지 설명하고 그 이유를 얘기하세요.
    1. 수학 점수: 78, 82, 85, 88, 90, 92, 94, 96, 98, 100.
    2. 영어 점수: 70, 75, 80, 85, 85, 90, 90, 95, 95, 100.
    • 정답 및 해설
      • 양의 상관관계를 가짐.
      • 수학 점수가 증가할 때 영어 점수도 증가하는 경향이 있습니다.
  6. 다음 중 인과관계(Causation)와 상관관계(Correlation)의 차이에 대한 설명으로 옳은 것은 무엇인가요?
    1. 상관관계는 두 변수 간의 원인과 결과를 나타내고, 인과관계는 단순한 관계를 나타낸다.
    2. 인과관계는 두 변수 간의 원인과 결과를 나타내고, 상관관계는 두 변수 간의 관계가 있지만 원인과 결과를 나타내지 않는다.
    3. 상관관계와 인과관계는 동일한 개념이다.
    4. 인과관계는 두 변수 간의 단순한 관계를 나타내고, 상관관계는 두 변수 간의 원인과 결과를 나타낸다.
    • 정답 및 해설
        1. 상관관계는 두 변수 간의 원인과 결과를 나타내고, 인과관계는 단순한 관계를 나타낸다.정답은 2번
        2. 인과관계는 두 변수 간의 원인과 결과를 나타내고, 상관관계는 두 변수 간의 관계가 있지만 원인과 결과를 나타내지 않는다.
        3. 상관관계와 인과관계는 동일한 개념이다.
        4. 인과관계는 두 변수 간의 단순한 관계를 나타내고, 상관관계는 두 변수 간의 원인과 결과를 나타낸다.
      • 인과관계는 하나의 변수가 다른 변수에 직접적인 영향을 미치는 것을 의미하며, 상관관계는 두 변수 간의 관계를 나타내지만, 직접적인 영향을 의미하지는 않습니다.

 


 

[ 통계 2주차. 데이터의 분포 ]

 

https://teamsparta.notion.site/2e2364b7d54141edbebb35d17e8bd664

 

[스파르타코딩클럽] 데이터의 분포 | Notion

[수업 목표]

teamsparta.notion.site

 

 

u = 뮤  (평균)

시그마 제곱 = 분산/ 시그마 = 표준편차 

u (평균) = 0, 분산 = 1 표준정규부포

 

롱테일 분포 - (일부가 전체적으로 영향을 미치는 경우 - 소득 분포, 온라인 쇼핑, 도서 판매 등 )

                       아무리 데이터가 많아져도 정규분포가 되지 않음.

 

t- 스튜던트 분포 - df 자유도는 잘 보이는 것 하나씩 숫자 적으면서 찾아야함.  - 표본이 30이하로 작을 때 정규분포 대신 씀. 꼬리가 더 두꺼운 특징.  표본 많아지면 정규분포 

 

 

카이제곱 분포 - 성별이나 나이에 따른 선거 후보 지지율. 범주형 데이터 분석에서 사용. 

                          독립성 검정이나 적합도 검정이 필요할 때.

  • 독립성 검정
    • 두 범주형 변수 간의 관계가 있는지 확인할 때 사용됩니다.
    • 예를 들어, 성별과 직업 선택 간의 독립성을 검토할 수 있습니다.
    • 혹은, 성별이 후보 지지율에 영향을 끼치는지? 검토할 수도 있습니다.
  • 적합도 검정
    • 관측한 값들이 특정 분포에 해당하는지? 검정할 때 사용됩니다.
    • 예를 들어, 주사위의 각 면이 동일한 확률로 나오는지 검토할 수 있습니다.
    • 노란색 완두와 녹색완두가 3:1의 비율로 나와야 하는데 실험적으로 측정한 데이터가 그렇게 나오는지?

이항분포도 클수록 정규분포

푸아송도 람다가 클수록 정규분포 

 

  • 결국 데이터 수가 엄청 많아지면 정규분포에 수렴 (중심극한정리)
  • 데이터 수가 많으면 묻지도 따지지도 말고 바로 정규분포로 가정!
  • 하지만, 데이터가 적을 경우 각 상황에 맞는 분포를 선택
  • 특히, long tail distribution은 데이터가 많아도 정규분포가 되지 않는 분포!
  • 2) 분포를 어떻게 고르면 될까?
  • ☑️ 데이터 수가 작다 → 스튜던트 t 분포
  • ☑️ 범주형 데이터의 독립성 검정이나 적합도 검정 → 카이 제곱 분포
  • ☑️ 특정 시간, 공간에서 발생하는 사건 → 푸아송 분포
  • ☑️ 결과가 두 개(성공 or 실패)만 나오는 상황 → 이항 분포
  • ☑️ 일부 데이터가 전체적으로 큰 영향을 미친다 → 롱 테일 분포 (파레토 분포)
  • ☑️ 데이터 수가 충분하다 → (무조건) 정규분포

 

연습문제

✔️ 이번에 배운 내용을 다시 정리하기 위해 연습문제를 풀어봅시다! (정답 해설을 보지 않고 풀어보세요!)

  1. 모집단(population)과 표본(sample)의 차이에 대한 설명으로 옳은 것을 고르세요.
    1. 모집단은 연구 대상 전체를 의미하고, 표본은 모집단의 일부를 의미한다.
    2. 모집단은 표본의 일부이며, 표본은 모집단 전체를 의미한다.
    3. 모집단과 표본은 같은 의미를 가진다.
    4. 모집단은 표본보다 항상 작다.
    • 정답 및 해설
      • 정답은 1번
        1. 모집단은 표본의 일부이며, 표본은 모집단 전체를 의미한다.
        2. 모집단과 표본은 같은 의미를 가진다.
        3. 모집단은 표본보다 항상 작다.
        4. 모집단은 연구 대상 전체를 의미하고, 표본은 모집단의 일부를 의미한다.
      • 모집단은 연구 대상 전체를 의미하고, 표본은 그 모집단에서 선택된 일부를 의미합니다.
  2. 어떤 표본의 평균이 50이고, 표본 표준편차가 10인 경우, 95% 신뢰구간을 구하세요. (표본 크기는 25로 가정)
    • 95% 신뢰구간은 표본 평균 ± (1.96 * 표본 표준오차)로 계산됩니다.
    • 표본 표준오차는 표준편차를 표본 크기의 제곱근으로 나눈 값입니다 
      • 정답 및 해설
        • 95% 신뢰구간 = [46.08,53.92]
        • 95%의 확률로 모집단의 평균은 위의 신뢰구간 범위 안의 값을 가집니다.
  3. 다음 중 정규분포에 해당하는 데이터의 분포를 나타내는 그래프의 모양은 무엇인가요?
    1. U자형
    2. 종 모양
    3. 지수 감소형
    4. 선형
    • 정답 및 해설
        1. U자형정답은 2번
        2. 종 모양
        3. 지수 감소형
        4. 선형
      • 정규분포는 종 모양의 분포를 가지며, 평균을 중심으로 대칭적입니다.
  4. 정규분포에서 평균과 표준편차에 대한 설명으로 옳은 것을 고르세요.
    1. 평균은 분포의 중앙값과 항상 다르다.
    2. 표준편차는 데이터의 퍼짐 정도를 나타낸다.
    3. 평균이 커지면 분포는 좁아진다.
    4. 표준편차가 작아지면 분포는 넓어진다.
    • 정답 및 해설
        1. 평균은 분포의 중앙값과 항상 다르다.정답은 2번
        2. 표준편차는 데이터의 퍼짐 정도를 나타낸다.
        3. 평균이 커지면 분포는 좁아진다.
        4. 표준편차가 작아지면 분포는 넓어진다.
      • 정규분포에서 평균은 분포의 중앙값이며, 표준편차는 데이터의 퍼짐 정도를 나타냅니다. 표준편차가 작아지면 분포는 좁아집니다.
  5. 긴 꼬리 분포(Long Tail Distribution)의 특징으로 옳지 않은 것을 고르세요.
    1. 데이터의 대부분이 낮은 빈도 값을 갖는다.
    2. 꼬리 부분에 많은 데이터가 분포되어 있다.
    3. 꼬리가 길어질수록 정규분포에 가까워진다.
    4. 일부 항목이 매우 높은 빈도 값을 가진다.
    • 정답 및 해설
        1. 데이터의 대부분이 낮은 빈도 값을 갖는다.
        2. 꼬리 부분에 많은 데이터가 분포되어 있다.정답은 3번
        3. 꼬리가 길어질수록 정규분포에 가까워진다.
        4. 일부 항목이 매우 높은 빈도 값을 가진다.
      • 긴 꼬리 분포는 데이터의 대부분이 낮은 빈도 값을 가지며, 꼬리 부분에 많은 데이터가 분포되어 있습니다.
      • 긴 꼬리 분포는 꼬리가 길어진다고 해서 정규분포에 가까워지지 않습니다.
  6. 스튜던트 t 분포를 사용하는 이유는 무엇인가요?
    1. 표본 크기가 작을 때 사용한다.
    2. 모집단이 정규분포가 아닐 때 사용한다.
    3. 모집단 표준편차를 알 때 사용한다.
    4. 모집단 평균을 알 때 사용한다.
    • 정답 및 해설
      • 정답은 1번
        1. 표본 크기가 작을 때 사용한다.
        2. 모집단이 정규분포가 아닐 때 사용한다.
        3. 모집단 표준편차를 알 때 사용한다.
        4. 모집단 평균을 알 때 사용한다.
      • 스튜던트 t 분포는 표본 크기가 작고, 모집단 표준편차를 모를 때 사용됩니다.
  7. 카이제곱분포(Chi-Square Distribution)는 주로 어떤 분석에 사용되나요?
    1. 두 변수 간의 상관관계 분석
    2. 평균 간의 차이 분석
    3. 범주형 데이터의 독립성 검정
    4. 연속형 데이터의 분포 분석
    • 정답 및 해설
        1. 두 변수 간의 상관관계 분석
        2. 평균 간의 차이 분석
        3. 범주형 데이터의 독립성 검정
        4. 연속형 데이터의 분포 분
      • 정답은 3번
      • 카이제곱분포는 주로 범주형 데이터의 독립성 검정에 사용됩니다.
  8. 동전 던지기를 10번 했을 때, 앞면이 6번 나올 확률을 구할 때 사용하는 분포는 무엇인가요?
    1. 정규분포
    2. 이항분포
    3. 푸아송분포
    4. 카이제곱분포
    • 정답 및 해설
        1. 정규분포
        2. 이항분포
        3. 푸아송분포
        4. 카이제곱분포
      • 정답은 2번
      • 이항분포는 2개의 결과가 나오는 상황(동전의 앞면/뒷면)에서 사용합니다.
  9. 어느 병원에서 1시간 동안 평균 3명의 환자가 도착한다고 할 때, 1시간 동안 5명의 환자가 도착할 확률을 구할 때 사용하는 분포는 무엇인가요?
    1. 정규분포
    2. 이항분포
    3. 푸아송분포
    4. 스튜던트 t 분포
    • 정답 및 해설
        1. 정규분포
        2. 이항분포
        3. 푸아송분포
        4. 스튜던트 t 분포
      • 정답은 3번
      • 푸아송분포는 특정 시간 및 공간에 대한 분포를 나타내고자 할 때 사용합니다.

[ 통계 3주차. 유의성검정 ]

https://teamsparta.notion.site/8cc9c12e1e6949bc96bf34f4579558d2

 

[스파르타코딩클럽] 유의성검정 | Notion

[수업 목표]

teamsparta.notion.site

 

 

 

본페로니 보정    유의수준 alpha 를 더 엄격하게 낮추기.

* 다중검정할 땐 꼭 수행.

 

카이제곱에서  stats.chisquare 함 - 적합성 검정 /  stats.chi2_contingency 함수 - 독립성 검정

 

  • 새로운 약물이 효과가 없는데 있다고 결론 내리는 것(제 1종 오류).
  • 효과가 있는데 없다고 결론 내리는 것(제 2종 오류).

연습문제

✔️ 이번에 배운 내용을 다시 정리하기 위해 연습문제를 풀어봅시다! (정답 해설을 보지 않고 풀어보세요!)

 

  1. 가설검정에서 사용되는 주요 개념 중 하나인 p-value의 의미를 설명하세요.
    1. p-value는 두 그룹 간의 평균 차이를 나타낸다.
    2. p-value는 귀무가설이 참일 때, 관찰된 데이터 또는 더 극단적인 데이터가 나타날 확률이다.
    3. p-value는 두 그룹 간의 표준편차를 나타낸다.
    4. p-value는 실험 그룹의 크기를 나타낸다.
    • 정답 및 해설
        1. p-value는 두 그룹 간의 평균 차이를 나타낸다.            정답은 2번
        2. p-value는 귀무가설이 참일 때, 관찰된 데이터 또는 더 극단적인 데이터가 나타날 확률이다.
        3. p-value는 두 그룹 간의 표준편차를 나타낸다.
        4. p-value는 실험 그룹의 크기를 나타낸다.
      • p-value는 가설검정에서 귀무가설이 참일 때, 관찰된 데이터 또는 더 극단적인 데이터가 나타날 확률을 의미합니다.
      • 따라서 p-value가 유의수준보다 낮다는 것은 귀무가설치 참일 가능성이 우리가 유의하는 수준보다 굉장히 낮다는 의미가 됩니다.
  2. 가설검정에서 귀무가설(null hypothesis)과 대립가설(alternative hypothesis)의 차이에 대한 설명으로 옳은 것을 고르세요.
    1. 귀무가설은 연구자가 입증하고자 하는 주장이고, 대립가설은 현재 상태를 나타낸다.
    2. 귀무가설은 현재 상태를 나타내며, 대립가설은 연구자가 입증하고자 하는 주장이다.
    3. 귀무가설과 대립가설은 동일한 개념이다.
    4. 귀무가설은 대립가설의 반대를 나타낸다.
    • 정답 및 해설
        1. 귀무가설은 연구자가 입증하고자 하는 주장이고, 대립가설은 현재 상태를 나타낸다.         정답은 2번
        2. 귀무가설은 현재 상태를 나타내며, 대립가설은 연구자가 입증하고자 하는 주장이다.
        3. 귀무가설과 대립가설은 동일한 개념이다.
        4. 귀무가설은 대립가설의 반대를 나타낸다.
      • 가설검정에서 귀무가설은 연구자가 입증하는 주장과는 아무 상관없는 현재 상태나 기존의 믿음을 나타내며, 대립가설은 연구자가 입증하고자 하는 새로운 주장입니다.
  3. 두 그룹의 평균이 서로 다른지 비교하기 위해 사용되는 t검정의 종류는 무엇인가요?
    1. 독립 표본 t검정
    2. 대응 표본 t검정
    3. 분산 분석
    4. 카이제곱검정
    • 정답 및 해설
      • 정답은 1번
        1. 대응 표본 t검정
        2. 분산 분석
        3. 카이제곱검정
        4. 독립 표본 t검정
      • 독립 표본 t검정은 두 개의 독립된 그룹 간의 평균을 비교할 때 사용되며, 대응 표본 t검정은 같은 그룹의 두 시점(사전/사후) 간 평균을 비교할 때 사용됩니다.
  4. 다중검정에서 발생할 수 있는 문제점은 무엇인가요?
    1. 표본의 크기가 작아진다.
    2. 한 번의 검정에서 제 1종 오류가 발생할 확률이 감소한다.
    3. 여러 번의 검정을 수행할 때, 전체 실험에서 제 1종 오류가 발생할 확률이 증가한다.
    4. 한 번의 검정에서 제 2종 오류가 발생할 확률이 증가한다.
    • 정답 및 해설
        1. 표본의 크기가 작아진다.
        2. 한 번의 검정에서 제 1종 오류가 발생할 확률이 감소한다.        정답은 3번
        3. 여러 번의 검정을 수행할 때, 전체 실험에서 제 1종 오류가 발생할 확률이 증가한다.
        4. 한 번의 검정에서 제 2종 오류가 발생할 확률이 증가한다.
      • 다중검정은 여러 번의 검정을 수행하므로, 전체 실험에서 제 1종 오류가 발생할 확률이 증가합니다.
  5. 카이제곱검정은 주로 어떤 데이터를 분석할 때 사용되나요?
    1. 연속형 데이터
    2. 범주형 데이터
    3. 비율 데이터
    4. 순서형 데이터
    • 정답 및 해설
        1. 연속형 데이터    정답은 2번
        2. 범주형 데이터
        3. 비율 데이터
        4. 순서형 데이터
      • 카이제곱검정은 범주형 데이터의 독립성이나 적합성을 검정하는 데 사용됩니다.
  6. 제 1종 오류(Type I error)와 제 2종 오류(Type II error)의 차이에 대한 설명으로 옳은 것을 고르세요.
    1. 제 1종 오류는 귀무가설이 참인데 기각하는 오류이고, 제 2종 오류는 대립가설이 참인데 기각하는 오류이다.
    2. 제 1종 오류는 대립가설이 참인데 기각하는 오류이고, 제 2종 오류는 귀무가설이 참인데 기각하는 오류이다.
    3. 제 1종 오류와 제 2종 오류는 동일한 개념이다.
    4. 제 1종 오류는 표본 크기와 관련이 없고, 제 2종 오류는 표본 크기와 관련이 있다.
    • 정답 및 해설
      • 정답은 1번
        1. 제 1종 오류는 대립가설이 참인데 기각하는 오류이고, 제 2종 오류는 귀무가설이 참인데 기각하는 오류이다.
        2. 제 1종 오류와 제 2종 오류는 동일한 개념이다.
        3. 제 1종 오류는 표본 크기와 관련이 없고, 제 2종 오류는 표본 크기와 관련이 있다.
        4. 제 1종 오류는 귀무가설이 참인데 기각하는 오류이고, 제 2종 오류는 대립가설이 참인데 기각하는 오류이다.
      • 제 1종 오류는 귀무가설이 참인데도 불구하고 기각하는 오류이며, 제 2종 오류는 대립가설이 참인데도 불구하고 기각하는 오류입니다.

 

'강의 > 통계학' 카테고리의 다른 글

[통계 라이브세션 1] 주요 강의내용 정리  (0) 2024.11.13
[통계학 기초] 4,5,6강  (1) 2024.11.12