rubus0304 님의 블로그
[Article Study③] 그 데이터는 잘못 해석되었습니다. 본문
https://yozm.wishket.com/magazine/detail/1816/
- 요약 : 데이터를 잘못 해석하게되는 생존적 편향오류, 심슨의 역설, 상관관계를 통한 성급한 일반화, 그리고 목적에 맞지 않는 지표 선택 등 상황별 4개 유형과 제대로 해석할 수 있는 방법
- 주요 포인트 : 해석오류 4가지를 인지하고 예방방법을 숙지하기
- 핵심 개념 : 데이터 해석 오류 4개 유형
1. 생존자 편향의 오류: 전체가 아닌 부분만 분석할 경우 오류.
A, B 모두 80명이 이탈한다 했을 때, A는 80명이 단기간 이용 후 이탈하고, B는 장기간 이용 후 이탈한다면 B가 더 좋은 서비스를 의미한다 분석
→ 오류: 전체 이용자가 아닌 이탈자만 대상 했기 때문에 올바른 분석이 아님.
2. 심슨의 역설: 전체지표와 그룹지표의 결과가 다르게 나타나는 상황.
서비스 A는 여성 만족도가 4.5로 가장 크지만, 남성 만족도가 3.5로 낮고 여성 사용자 수 대비 남성 사용자 수가 더 크므로 전체 서비스 만족도는 서비스 B에 비해 낮게 나옴.
→ 즉, 전체 지표에선 낮으나, 여성 그룹으로 나눈다면, A서비스에 대한 만족도가 B서비스보다 크다. 전체지표와 그룹지표의 결과가 다르게 나타나는 상황.
3. 상관관계를 위한 성급한 일반화
여러 지표를 비교할수록, 지표 간의 관계를 파악하여 해석하려는 유혹, 비슷해 보이는 패턴이 있다면 쉽게 일반화하는 경향이 있음.
ex) 이벤트 페이지 조회수 지표 증/감 경향이 매출 지표 증/감과 비슷할 경우 조회수가 매출에 영향 준다 결론내려 첫 페이지 이벤트 페이지로 변경제안 → 잘못된 제안 성급한 일반화 왜냐하면 상관성만 있고 인과성이 없기 때문.
이 경우는 제 3의 공통원인 (매력적인 이벤트) 가 존재. 이것을 발견해 결론으로 도출해야함.
(성급한 일반화 오류 예방법) 사용자의 행동과 심리를 인지적으로 구조화하고 두 지표에 동시에 영향을 줄 공통 원인 파악 및 새로운 구조로 지표 간 관계 파악 과정이 필요함.
4. 목적에 맞지 않는 지표 선택
추상적인 단계에서 CTA 버튼을 개선한다는 같은 목적이 있더라도, 공동목적을 달성하는 A 기준율과 B기준율이 있는 경우, 목적에 더 부합하는 기준율을 선택해야 제대로 된 의사결정 가능.
용어 정리 :
CTA (Call to Action): 유저의 행동을 유도하는 버튼
5. 세이건 표준 참고하기
데이터의 가공 기준과 방법에 따라 바뀔 수 있고 해석하는 사람에 따라 주관적인 해석이 반영될 수 있으므로 세이건 표준 참고 필요.
- 특별한 주제는 특별한 근거가 필요하다.
- 실무 적용 : 심슨의 역설
- 관련 사례 : 특정 채널로 가입하는 신규고객 대상 1만원 적립금 이벤트 가정 - 이벤트 진행 기간 회원 수 크게 증가했지만 회원당 구매단가 크게 하락
- 이유: 일반 채널로 들어온 회원 이전과 큰 차이 없으나, 이벤트 채널의 경우 회원 크게 증가 했으나 구매단가가 1만원 수준으로 떨어진 것 확인 (체리피커였음)
- https://blog.naver.com/bestinall/222579966945
시나리오
3) 상관관계를 통한 성급한 일반화
-> 두 지표에 공통으로 영향을 미치는 제 3의 원인 파악해야함
'Data Analyst > article' 카테고리의 다른 글
[Article Study ⑥] 직관적인 데이터 시각화 만들기 (1) | 2024.10.17 |
---|---|
[Article Study ⑤] 데이터 시각화는 왜 중요할까? (3) | 2024.10.15 |
[Article Study ④] 데이터 리터러시(Data Literacy)를 올리는 방법 (4) | 2024.10.11 |
[Article Study ②] 데이터 아키텍쳐? 쉽게 배워봅시다 (3) | 2024.10.04 |
[Article Study ①] 데이터 분석이란 무엇일까? (7) | 2024.10.01 |