rubus0304 님의 블로그
[통계학 기초] 1강, 2강, 3강 본문
[통계 3주차. 데이터 분석과 통계]
https://teamsparta.notion.site/12ac32cf35174229ac5987ec8cffbe56
연습문제
✔️ 이번에 배운 내용을 다시 정리하기 위해 연습문제를 풀어봅시다! (정답 해설을 보지 않고 풀어보세요!)
- 데이터 분석에서 통계가 중요한 이유는 무엇인가요? 다음 보기 중에서 옳지 않은 것을 고르세요.
- 통계는 데이터를 이해하고 해석하는 데 도움을 준다.
- 통계는 데이터에서 패턴을 발견하고 미래를 예측하는 도구를 제공한다.
통계는 모든 데이터 분석 결과가 항상 정확하고 확실하다는 것을 보장한다.- 통계는 복잡한 데이터를 간단한 요약 정보로 변환할 수 있다.
- 정답 및 해설
- 정답은 3번
- 통계는 데이터를 이해하고 해석하는 데 도움을 준다.
- 통계는 데이터에서 패턴을 발견하고 미래를 예측하는 도구를 제공한다.
- 통계는 복잡한 데이터를 간단한 요약 정보로 변환할 수 있다.
- 통계는 확률과 추론에 기초하기 때문에 항상 불확실성이 존재합니다.
- 정답은 3번
- 다음 중 기술통계(Descriptive Statistics)에 해당하는 것은 무엇인가요?
- 모집단의 평균을 추정하는 것
- 데이터의 중앙값을 계산하는 것
- 표본을 통해 모집단의 특성을 추론하는 것
- 가설을 검증하는 것
- 정답 및 해설
- 2번, 데이터의 중앙값을 계산하는 것
- 기술통계는 데이터를 요약하고 설명하는 데 중점을 둡니다. 반면, 추론통계는 표본 데이터를 사용하여 모집단에 대한 결론을 내리는 과정입니다.
-
- 다음 중 추론통계(Inferential Statistics)에 해당하는 것은 무엇인가요?
- 데이터의 범위를 계산하는 것
- 데이터의 분산을 계산하는 것
- 표본을 기반으로 모집단의 평균을 추정하는 것
- 데이터의 최빈값을 계산하는 것
- 정답 및 해설
-
- 데이터의 범위를 계산하는 것
- 데이터의 분산을 계산하는 것3번 표본을 기반으로 모집단의 평균을 추정하는 것
- 표본을 기반으로 모집단의 평균을 추정하는 것
- 데이터의 최빈값을 계산하는 것
- 추론통계는 표본 데이터를 사용하여 모집단에 대한 결론을 도출하는 과정입니다.
-
- 어느 학교의 학생들 10명의 수학 점수는 다음과 같습니다: 78, 82, 85, 88, 90, 92, 94, 96, 98, 100. 이 데이터의 평균을 구하세요.
- 정답 및 해설
- 평균은 90.3
- 평균은 데이터의 합을 데이터의 개수로 나누어 계산합니다.
- 정답 및 해설
- 4번 문제의 학생 수학 점수의 중앙값을 구하세요.
- 정답 및 해설
- 중앙값은 91
- 중앙값은 데이터가 순서대로 정렬되었을 때 중간에 위치한 값입니다. 데이터의 개수가 짝수인 경우, 중간에 위치한 두 값의 평균입니다.
- 정답 및 해설
- 4번 문제의 학생 수학 점수 데이터의 범위(Range)를 구하세요.
- 정답 및 해설
- 범위는 22
- 범위는 데이터의 최대값에서 최소값을 뺀 값입니다.
- 정답 및 해설
- 학생들의 수학 점수와 영어 점수가 각각 다음과 같을 때, 두 변수 간의 상관관계가 양의 상관관계인지, 음의 상관관계인지, 상관관계가 없는지 설명하고 그 이유를 얘기하세요.
- 수학 점수: 78, 82, 85, 88, 90, 92, 94, 96, 98, 100.
- 영어 점수: 70, 75, 80, 85, 85, 90, 90, 95, 95, 100.
- 정답 및 해설
- 양의 상관관계를 가짐.
- 수학 점수가 증가할 때 영어 점수도 증가하는 경향이 있습니다.
- 다음 중 인과관계(Causation)와 상관관계(Correlation)의 차이에 대한 설명으로 옳은 것은 무엇인가요?
- 상관관계는 두 변수 간의 원인과 결과를 나타내고, 인과관계는 단순한 관계를 나타낸다.
- 인과관계는 두 변수 간의 원인과 결과를 나타내고, 상관관계는 두 변수 간의 관계가 있지만 원인과 결과를 나타내지 않는다.
- 상관관계와 인과관계는 동일한 개념이다.
- 인과관계는 두 변수 간의 단순한 관계를 나타내고, 상관관계는 두 변수 간의 원인과 결과를 나타낸다.
- 정답 및 해설
-
- 상관관계는 두 변수 간의 원인과 결과를 나타내고, 인과관계는 단순한 관계를 나타낸다.정답은 2번
- 인과관계는 두 변수 간의 원인과 결과를 나타내고, 상관관계는 두 변수 간의 관계가 있지만 원인과 결과를 나타내지 않는다.
- 상관관계와 인과관계는 동일한 개념이다.
- 인과관계는 두 변수 간의 단순한 관계를 나타내고, 상관관계는 두 변수 간의 원인과 결과를 나타낸다.
- 인과관계는 하나의 변수가 다른 변수에 직접적인 영향을 미치는 것을 의미하며, 상관관계는 두 변수 간의 관계를 나타내지만, 직접적인 영향을 의미하지는 않습니다.
-
[ 통계 2주차. 데이터의 분포 ]
https://teamsparta.notion.site/2e2364b7d54141edbebb35d17e8bd664
u = 뮤 (평균)
시그마 제곱 = 분산/ 시그마 = 표준편차
u (평균) = 0, 분산 = 1 표준정규부포
롱테일 분포 - (일부가 전체적으로 영향을 미치는 경우 - 소득 분포, 온라인 쇼핑, 도서 판매 등 )
아무리 데이터가 많아져도 정규분포가 되지 않음.
t- 스튜던트 분포 - df 자유도는 잘 보이는 것 하나씩 숫자 적으면서 찾아야함. - 표본이 30이하로 작을 때 정규분포 대신 씀. 꼬리가 더 두꺼운 특징. 표본 많아지면 정규분포
카이제곱 분포 - 성별이나 나이에 따른 선거 후보 지지율. 범주형 데이터 분석에서 사용.
독립성 검정이나 적합도 검정이 필요할 때.
- 독립성 검정
- 두 범주형 변수 간의 관계가 있는지 확인할 때 사용됩니다.
- 예를 들어, 성별과 직업 선택 간의 독립성을 검토할 수 있습니다.
- 혹은, 성별이 후보 지지율에 영향을 끼치는지? 검토할 수도 있습니다.
- 적합도 검정
- 관측한 값들이 특정 분포에 해당하는지? 검정할 때 사용됩니다.
- 예를 들어, 주사위의 각 면이 동일한 확률로 나오는지 검토할 수 있습니다.
- 노란색 완두와 녹색완두가 3:1의 비율로 나와야 하는데 실험적으로 측정한 데이터가 그렇게 나오는지?
이항분포도 클수록 정규분포
푸아송도 람다가 클수록 정규분포
- 결국 데이터 수가 엄청 많아지면 정규분포에 수렴 (중심극한정리)
- 데이터 수가 많으면 묻지도 따지지도 말고 바로 정규분포로 가정!
- 하지만, 데이터가 적을 경우 각 상황에 맞는 분포를 선택
- 특히, long tail distribution은 데이터가 많아도 정규분포가 되지 않는 분포!
- 2) 분포를 어떻게 고르면 될까?
- ☑️ 데이터 수가 작다 → 스튜던트 t 분포
- ☑️ 범주형 데이터의 독립성 검정이나 적합도 검정 → 카이 제곱 분포
- ☑️ 특정 시간, 공간에서 발생하는 사건 → 푸아송 분포
- ☑️ 결과가 두 개(성공 or 실패)만 나오는 상황 → 이항 분포
- ☑️ 일부 데이터가 전체적으로 큰 영향을 미친다 → 롱 테일 분포 (파레토 분포)
- ☑️ 데이터 수가 충분하다 → (무조건) 정규분포
연습문제
✔️ 이번에 배운 내용을 다시 정리하기 위해 연습문제를 풀어봅시다! (정답 해설을 보지 않고 풀어보세요!)
- 모집단(population)과 표본(sample)의 차이에 대한 설명으로 옳은 것을 고르세요.
- 모집단은 연구 대상 전체를 의미하고, 표본은 모집단의 일부를 의미한다.
- 모집단은 표본의 일부이며, 표본은 모집단 전체를 의미한다.
- 모집단과 표본은 같은 의미를 가진다.
- 모집단은 표본보다 항상 작다.
- 정답 및 해설
- 정답은 1번
- 모집단은 표본의 일부이며, 표본은 모집단 전체를 의미한다.
- 모집단과 표본은 같은 의미를 가진다.
- 모집단은 표본보다 항상 작다.
- 모집단은 연구 대상 전체를 의미하고, 표본은 모집단의 일부를 의미한다.
- 모집단은 연구 대상 전체를 의미하고, 표본은 그 모집단에서 선택된 일부를 의미합니다.
- 정답은 1번
- 어떤 표본의 평균이 50이고, 표본 표준편차가 10인 경우, 95% 신뢰구간을 구하세요. (표본 크기는 25로 가정)
- 95% 신뢰구간은 표본 평균 ± (1.96 * 표본 표준오차)로 계산됩니다.
- 표본 표준오차는 표준편차를 표본 크기의 제곱근으로 나눈 값입니다
- 정답 및 해설
- 95% 신뢰구간 = [46.08,53.92]
- 95%의 확률로 모집단의 평균은 위의 신뢰구간 범위 안의 값을 가집니다.
- 정답 및 해설
- 다음 중 정규분포에 해당하는 데이터의 분포를 나타내는 그래프의 모양은 무엇인가요?
- U자형
- 종 모양
- 지수 감소형
- 선형
- 정답 및 해설
-
- U자형정답은 2번
- 종 모양
- 지수 감소형
- 선형
- 정규분포는 종 모양의 분포를 가지며, 평균을 중심으로 대칭적입니다.
-
- 정규분포에서 평균과 표준편차에 대한 설명으로 옳은 것을 고르세요.
- 평균은 분포의 중앙값과 항상 다르다.
- 표준편차는 데이터의 퍼짐 정도를 나타낸다.
- 평균이 커지면 분포는 좁아진다.
- 표준편차가 작아지면 분포는 넓어진다.
- 정답 및 해설
-
- 평균은 분포의 중앙값과 항상 다르다.정답은 2번
- 표준편차는 데이터의 퍼짐 정도를 나타낸다.
- 평균이 커지면 분포는 좁아진다.
- 표준편차가 작아지면 분포는 넓어진다.
- 정규분포에서 평균은 분포의 중앙값이며, 표준편차는 데이터의 퍼짐 정도를 나타냅니다. 표준편차가 작아지면 분포는 좁아집니다.
-
- 긴 꼬리 분포(Long Tail Distribution)의 특징으로 옳지 않은 것을 고르세요.
- 데이터의 대부분이 낮은 빈도 값을 갖는다.
- 꼬리 부분에 많은 데이터가 분포되어 있다.
- 꼬리가 길어질수록 정규분포에 가까워진다.
- 일부 항목이 매우 높은 빈도 값을 가진다.
- 정답 및 해설
-
- 데이터의 대부분이 낮은 빈도 값을 갖는다.
- 꼬리 부분에 많은 데이터가 분포되어 있다.정답은 3번
- 꼬리가 길어질수록 정규분포에 가까워진다.
- 일부 항목이 매우 높은 빈도 값을 가진다.
- 긴 꼬리 분포는 데이터의 대부분이 낮은 빈도 값을 가지며, 꼬리 부분에 많은 데이터가 분포되어 있습니다.
- 긴 꼬리 분포는 꼬리가 길어진다고 해서 정규분포에 가까워지지 않습니다.
-
- 스튜던트 t 분포를 사용하는 이유는 무엇인가요?
- 표본 크기가 작을 때 사용한다.
- 모집단이 정규분포가 아닐 때 사용한다.
- 모집단 표준편차를 알 때 사용한다.
- 모집단 평균을 알 때 사용한다.
- 정답 및 해설
- 정답은 1번
- 표본 크기가 작을 때 사용한다.
- 모집단이 정규분포가 아닐 때 사용한다.
- 모집단 표준편차를 알 때 사용한다.
- 모집단 평균을 알 때 사용한다.
- 스튜던트 t 분포는 표본 크기가 작고, 모집단 표준편차를 모를 때 사용됩니다.
- 정답은 1번
- 카이제곱분포(Chi-Square Distribution)는 주로 어떤 분석에 사용되나요?
- 두 변수 간의 상관관계 분석
- 평균 간의 차이 분석
- 범주형 데이터의 독립성 검정
- 연속형 데이터의 분포 분석
- 정답 및 해설
-
- 두 변수 간의 상관관계 분석
- 평균 간의 차이 분석
- 범주형 데이터의 독립성 검정
- 연속형 데이터의 분포 분
- 정답은 3번
- 카이제곱분포는 주로 범주형 데이터의 독립성 검정에 사용됩니다.
-
- 동전 던지기를 10번 했을 때, 앞면이 6번 나올 확률을 구할 때 사용하는 분포는 무엇인가요?
- 정규분포
- 이항분포
- 푸아송분포
- 카이제곱분포
- 정답 및 해설
-
- 정규분포
- 이항분포
- 푸아송분포
- 카이제곱분포
- 정답은 2번
- 이항분포는 2개의 결과가 나오는 상황(동전의 앞면/뒷면)에서 사용합니다.
-
- 어느 병원에서 1시간 동안 평균 3명의 환자가 도착한다고 할 때, 1시간 동안 5명의 환자가 도착할 확률을 구할 때 사용하는 분포는 무엇인가요?
- 정규분포
- 이항분포
- 푸아송분포
- 스튜던트 t 분포
- 정답 및 해설
-
- 정규분포
- 이항분포
- 푸아송분포
- 스튜던트 t 분포
- 정답은 3번
- 푸아송분포는 특정 시간 및 공간에 대한 분포를 나타내고자 할 때 사용합니다.
-
[ 통계 3주차. 유의성검정 ]
https://teamsparta.notion.site/8cc9c12e1e6949bc96bf34f4579558d2
본페로니 보정 유의수준 alpha 를 더 엄격하게 낮추기.
* 다중검정할 땐 꼭 수행.
카이제곱에서 stats.chisquare 함 - 적합성 검정 / stats.chi2_contingency 함수 - 독립성 검정
- 새로운 약물이 효과가 없는데 있다고 결론 내리는 것(제 1종 오류).
- 효과가 있는데 없다고 결론 내리는 것(제 2종 오류).
연습문제
✔️ 이번에 배운 내용을 다시 정리하기 위해 연습문제를 풀어봅시다! (정답 해설을 보지 않고 풀어보세요!)
- 가설검정에서 사용되는 주요 개념 중 하나인 p-value의 의미를 설명하세요.
- p-value는 두 그룹 간의 평균 차이를 나타낸다.
- p-value는 귀무가설이 참일 때, 관찰된 데이터 또는 더 극단적인 데이터가 나타날 확률이다.
- p-value는 두 그룹 간의 표준편차를 나타낸다.
- p-value는 실험 그룹의 크기를 나타낸다.
- 정답 및 해설
-
- p-value는 두 그룹 간의 평균 차이를 나타낸다. 정답은 2번
- p-value는 귀무가설이 참일 때, 관찰된 데이터 또는 더 극단적인 데이터가 나타날 확률이다.
- p-value는 두 그룹 간의 표준편차를 나타낸다.
- p-value는 실험 그룹의 크기를 나타낸다.
- p-value는 가설검정에서 귀무가설이 참일 때, 관찰된 데이터 또는 더 극단적인 데이터가 나타날 확률을 의미합니다.
- 따라서 p-value가 유의수준보다 낮다는 것은 귀무가설치 참일 가능성이 우리가 유의하는 수준보다 굉장히 낮다는 의미가 됩니다.
-
- 가설검정에서 귀무가설(null hypothesis)과 대립가설(alternative hypothesis)의 차이에 대한 설명으로 옳은 것을 고르세요.
- 귀무가설은 연구자가 입증하고자 하는 주장이고, 대립가설은 현재 상태를 나타낸다.
- 귀무가설은 현재 상태를 나타내며, 대립가설은 연구자가 입증하고자 하는 주장이다.
- 귀무가설과 대립가설은 동일한 개념이다.
- 귀무가설은 대립가설의 반대를 나타낸다.
- 정답 및 해설
-
- 귀무가설은 연구자가 입증하고자 하는 주장이고, 대립가설은 현재 상태를 나타낸다. 정답은 2번
- 귀무가설은 현재 상태를 나타내며, 대립가설은 연구자가 입증하고자 하는 주장이다.
- 귀무가설과 대립가설은 동일한 개념이다.
- 귀무가설은 대립가설의 반대를 나타낸다.
- 가설검정에서 귀무가설은 연구자가 입증하는 주장과는 아무 상관없는 현재 상태나 기존의 믿음을 나타내며, 대립가설은 연구자가 입증하고자 하는 새로운 주장입니다.
-
- 두 그룹의 평균이 서로 다른지 비교하기 위해 사용되는 t검정의 종류는 무엇인가요?
- 독립 표본 t검정
- 대응 표본 t검정
- 분산 분석
- 카이제곱검정
- 정답 및 해설
- 정답은 1번
- 대응 표본 t검정
- 분산 분석
- 카이제곱검정
- 독립 표본 t검정
- 독립 표본 t검정은 두 개의 독립된 그룹 간의 평균을 비교할 때 사용되며, 대응 표본 t검정은 같은 그룹의 두 시점(사전/사후) 간 평균을 비교할 때 사용됩니다.
- 정답은 1번
- 다중검정에서 발생할 수 있는 문제점은 무엇인가요?
- 표본의 크기가 작아진다.
- 한 번의 검정에서 제 1종 오류가 발생할 확률이 감소한다.
- 여러 번의 검정을 수행할 때, 전체 실험에서 제 1종 오류가 발생할 확률이 증가한다.
- 한 번의 검정에서 제 2종 오류가 발생할 확률이 증가한다.
- 정답 및 해설
-
- 표본의 크기가 작아진다.
- 한 번의 검정에서 제 1종 오류가 발생할 확률이 감소한다. 정답은 3번
- 여러 번의 검정을 수행할 때, 전체 실험에서 제 1종 오류가 발생할 확률이 증가한다.
- 한 번의 검정에서 제 2종 오류가 발생할 확률이 증가한다.
- 다중검정은 여러 번의 검정을 수행하므로, 전체 실험에서 제 1종 오류가 발생할 확률이 증가합니다.
-
- 카이제곱검정은 주로 어떤 데이터를 분석할 때 사용되나요?
- 연속형 데이터
- 범주형 데이터
- 비율 데이터
- 순서형 데이터
- 정답 및 해설
-
- 연속형 데이터 정답은 2번
- 범주형 데이터
- 비율 데이터
- 순서형 데이터
- 카이제곱검정은 범주형 데이터의 독립성이나 적합성을 검정하는 데 사용됩니다.
-
- 제 1종 오류(Type I error)와 제 2종 오류(Type II error)의 차이에 대한 설명으로 옳은 것을 고르세요.
- 제 1종 오류는 귀무가설이 참인데 기각하는 오류이고, 제 2종 오류는 대립가설이 참인데 기각하는 오류이다.
- 제 1종 오류는 대립가설이 참인데 기각하는 오류이고, 제 2종 오류는 귀무가설이 참인데 기각하는 오류이다.
- 제 1종 오류와 제 2종 오류는 동일한 개념이다.
- 제 1종 오류는 표본 크기와 관련이 없고, 제 2종 오류는 표본 크기와 관련이 있다.
- 정답 및 해설
- 정답은 1번
- 제 1종 오류는 대립가설이 참인데 기각하는 오류이고, 제 2종 오류는 귀무가설이 참인데 기각하는 오류이다.
- 제 1종 오류와 제 2종 오류는 동일한 개념이다.
- 제 1종 오류는 표본 크기와 관련이 없고, 제 2종 오류는 표본 크기와 관련이 있다.
- 제 1종 오류는 귀무가설이 참인데 기각하는 오류이고, 제 2종 오류는 대립가설이 참인데 기각하는 오류이다.
- 제 1종 오류는 귀무가설이 참인데도 불구하고 기각하는 오류이며, 제 2종 오류는 대립가설이 참인데도 불구하고 기각하는 오류입니다.
- 정답은 1번
'강의 > 통계학' 카테고리의 다른 글
[통계 라이브세션 1] 주요 강의내용 정리 (0) | 2024.11.13 |
---|---|
[통계학 기초] 4,5,6강 (1) | 2024.11.12 |