rubus0304 님의 블로그
[Article Study] 양질의 테이터를 판별하는 5가지 방법: ① 데이터양은 충분한가? 본문
Data Analyst/article
[Article Study] 양질의 테이터를 판별하는 5가지 방법: ① 데이터양은 충분한가?
rubus0304 2024. 11. 28. 11:16https://yozm.wishket.com/magazine/detail/1070/
- 요약 : 양질의 데이터를 판별하는 5가지 방법
- 데이터의 수가 충분히 많음.
- 데이터 자체의 오류가 적음.
- 관계형데이터베이스형식을 잘 지킴.
- 수치형 데이터 형식을 많이 보유.
- 활용목적에 적합함.
-보편적 특징일 뿐 모든 양질의 데이터가 철저히 지키는 것은 아니고, 낮은 품질의 데이터라고해서 안 갖춘 것도 아님. 다만, 판별하는데 도움.
1)데이터의 양이 중요
- 분석결과의 신뢰성과 연결되므로 중요.
-머신러닝, 딥러닝 기술에는 데이터의 양이 많을 수록 정확도가 높아짐.
2)충분한 양
-충분한 데이터의 기준은 없으나, 분석목적과 방법에 따라 정도가 달라짐.
-글쓴이 경험기준, 통계적 분석할 때 최소 500개 이상 데이터, 머신러닝 에선 변수의 수에 100을 곱한 것 이상 데이터 필요.
- 주요 포인트 : 양질의 데이터분석 5가지 중 데이터의 충분한 양에 포인트. 데이터가 충분할 수록 분석결과의 신뢰도와 정확도가 높아지며, 충분함의 기준은 일반적으로, 통계분석은 최소 500개이상, 머신러니은 변수의 수에 100 곱한 것 이상을 말한다.
[관련 아티클]
https://brunch.co.kr/@saas-hannah/38
https://aiheroes.ai/community/31
https://www.skcc.co.kr/insight/trend/146
'Data Analyst > article' 카테고리의 다른 글
[Article Study] (6) | 2024.12.12 |
---|---|
[Article Study] 비개발자를 위한 엑셀로 이해하는 SQL: ① 엑셀로 온라인 서비스의 RDB 이해하기 (1) | 2024.11.27 |
[Article Study] 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 (0) | 2024.11.19 |
[Article Study] A/B 테스트 제대로 이해하기: ② A/B 테스트를 위한 기초 통계 이해하기 (0) | 2024.11.12 |
[Article Study] 데이터 분석가에게 코딩테스트가 필요할까? (4) | 2024.11.08 |