rubus0304 님의 블로그

[Article Study] 양질의 테이터를 판별하는 5가지 방법: ① 데이터양은 충분한가? 본문

Data Analyst/article

[Article Study] 양질의 테이터를 판별하는 5가지 방법: ① 데이터양은 충분한가?

rubus0304 2024. 11. 28. 11:16

https://yozm.wishket.com/magazine/detail/1070/

 

양질의 데이터를 판별하는 5가지 방법 : ① 데이터 양은 충분한가? | 요즘IT

양질의 데이터 조건 첫 번째는 ‘충분한 양의 데이터’입니다. 최근 빅데이터라는 단어가 기승을 부리고 있으며 빅데이터는 기본적으로 방대한 양의 데이터를 의미합니다. 하지만 현실적으로

yozm.wishket.com

 

 

  • 요약 : 양질의 데이터를 판별하는 5가지 방법
  1. 데이터의 수가 충분히 많음.
  2. 데이터 자체의 오류가 적음.
  3. 관계형데이터베이스형식을 잘 지킴.
  4. 수치형 데이터 형식을 많이 보유.
  5. 활용목적에 적합함.

-보편적 특징일 뿐 모든 양질의 데이터가 철저히 지키는 것은 아니고, 낮은 품질의 데이터라고해서 안 갖춘 것도 아님. 다만, 판별하는데 도움.

1)데이터의 양이 중요

  • 분석결과의 신뢰성과 연결되므로 중요.

-머신러닝, 딥러닝 기술에는 데이터의 양이 많을 수록 정확도가 높아짐.

2)충분한 양

-충분한 데이터의 기준은 없으나, 분석목적과 방법에 따라 정도가 달라짐.

-글쓴이 경험기준, 통계적 분석할 때 최소 500개 이상 데이터, 머신러닝 에선 변수의 수에 100을 곱한 것 이상 데이터 필요.

  • 주요 포인트 : 양질의 데이터분석 5가지 중 데이터의 충분한 양에 포인트. 데이터가 충분할 수록 분석결과의 신뢰도와 정확도가 높아지며, 충분함의 기준은 일반적으로, 통계분석은 최소 500개이상, 머신러니은 변수의 수에 100 곱한 것 이상을 말한다.

[관련 아티클]

https://brunch.co.kr/@saas-hannah/38

 

적은 데이터로 성공적인 ML 모델을 만들기 위한 방법

소량의 데이터라도 괜찮아요 ML 프로젝트는 누구나 시작할 수 있습니다. | *오늘 내용은 원글이 있어요. 실무에 도움이 되는 해외 칼럼을 한글화 했답니다. 글의 마지막 에서 확인할 수 있어요.

brunch.co.kr

 

https://aiheroes.ai/community/31

 

https://aiheroes.ai/community/31

 

aiheroes.ai

 

https://www.skcc.co.kr/insight/trend/146

 

https://www.skcc.co.kr/insight/trend/146

 

www.skcc.co.kr