rubus0304 님의 블로그
[Article Study] 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 본문
https://yozm.wishket.com/magazine/detail/1931/
- 요약 : 머신러닝 TOP 10
1.선형회귀분석 (지도학습, 선형관계전제 / 예측력부족)
2.로지스틱회귀분석 (지도학습, 선형관계전제, 회귀/분류/ 예측력부족)
3.K-최근접 이웃(KNN) (지도학습, 이웃 데이터 고려 예측/ 대용량 취약)
4.나이브 베이즈(지도학습, 조건부 확률로 데이터 분류/ 독립변수 모두 독립적 전제)
5.결정 트리 (지도학습, 전제조건없음, 대용량 취약)
6.랜덤 포레스트 (지도학습, 랜덤으로 독립 트리 여러 개 생성 - 결정 트리 오버피팅 문제 완화/ 속도느림, 해석어려움
7.XG부스트 (지도학습, 이전 트리의 결과를 다음 트리에 반영, 속도 빠르고 예측력 좋음/ 복잡한 모델인 만큼, 해석에 어려움)
8.라이트GBM (지도학습, XG부스트보다 속도 빠르고 정확도 높음, 예측에 영향미친 변수의 중요도 확인가능, 변수종류 많고 데이터 클수록 뛰어난 성능/ 복잡한 모델인 만큼, 해석에 어려움)
9.K-평균 군집화 ( 비지도학습, 목표 변수가 없는 상태에서 베슷한 유형 데이터끼리 묶어냄, 이웃데이터와의 거리기반으로 작동하여 적절한 K값 지정필요, 전체 그룹의 수는 사용자가 지정한 K개, 가까이 있는 데이터끼리 분류, 구현 간단, 쉽게 해석/ 최적의 K값 자동으로 못 찾음, 사용자가 직접 찾아야함, 스케일에 따라 다른 결과 나올 수 있음) - 대표적 비지도
10. 주성분 분석 (PCA) ( 비지도학습, 데이터의 차원 축소 목적, 변수의 개수 줄이되 특성 보존, 기존 변수들의 정보 모두 반영한 새로운 변수 만드는 방식으로 차원 축소, 차원 축소방법 중 가장 인기, 시각화 내지 모델링 효율성 개선여지 있음, 변숙 간 높은 상관관계 해결/ 기존 변수 아닌 새로운 변수 사용 해석 어려움, 정보 손실 불가피)
- 주요 포인트 : 지도 학습의 회귀분석의 경우 점차 발전된 모델의 회귀분석일 수록 속도가 빠르고 정확하고 대용량 데이터들의 관계를 분석할 수 있으나, 해석이 어렵고, 비지도 학습의 회귀분석의 경우 아직은 직접 거리값을 지정해야하는 등 개선의 여지가 있고, 차원의 축소 모델 등과 같은 특화된 분석들이 존재하는 구나 느낌.
- 궁극적으로 이런 분석들을 통해 예측과 분류를 한다는 정도? 데이터 사이언티스트가 아닌 이상 분석가 실무에선 도메인 특성에 따라 자주 쓰이는 분석만 열심히 파면 되지 않을까 생각됨.
- 핵심 개념
- 선형 회귀 (Linear Regression)
- 종속변수와 독립변수 간의 선형 관계를 모델링하는 알고리즘. 예측 값은 직선 형태로 나타냄.
- 로지스틱 회귀 (Logistic Regression)
- 이진 분류 문제에서 각 클래스의 확률을 예측. 시그모이드 함수를 사용하여 예측 값을 0과 1 사이의 확률로 변환.
- K-최근접 이웃 (KNN)
- 새로운 데이터 포인트를 K개의 가장 가까운 이웃과 비교하여 분류하거나 예측.
- 나이브 베이즈 (Naive Bayes)
- 확률적 분류 모델. 각 특성이 독립적이라는 가정 하에 조건부 확률을 계산.
- 결정 트리 (Decision Tree)
- 데이터를 여러 조건으로 분할하여 예측을 수행하는 트리 구조.
- 랜덤 포레스트 (Random Forest)
- 여러 개의 결정 트리를 결합하여 예측 성능을 개선하는 앙상블 모델
- 서포트 벡터 머신 (SVM)
- 데이터를 가장 잘 분리하는 초평면을 찾는 분류 모델. 커널 기법을 통해 비선형 분리도 가능.
- XGBoost
- 부스팅 기법을 활용한 모델로, 여러 약한 모델을 결합하여 강한 예측 모델을 생성.
- LightGBM
- XGBoost의 개선된 버전으로, 빠르고 메모리 효율적인 학습을 지원
- K-means
- 데이터를 K개의 클러스터로 분할하는 비지도 학습 알고리즘.
- 용어 정리
- 회귀선: 데이터를 가장 잘 표현하는 직선
- 최소제곱법: 예측 값과 실제 값 간의 차이의 제곱을 최소화하는 방법
- 시그모이드 함수: 확률 값으로 변환하는 함수
- 로지스틱 함수: 출력값을 0과 1 사이로 제한하는 함수
- 유클리드 거리: 두 점 간의 거리 측정 방법
- K 값: 이웃의 수
- 베이즈 정리: 사후 확률을 계산하는 공식
- 조건부 확률: 주어진 조건 하에서의 확률
- 루트 노드: 트리의 최상위 노드
- 리프 노드: 예측 결과가 나오는 최하위 노드
- 정보 이득: 데이터를 분할할 때의 효율성 측정 기준
- 배깅(Bagging): 데이터 샘플을 중복 허용으로 여러 번 샘플링하여 모델을 학습
- 앙상블 학습: 여러 모델을 결합하여 성능 향상
- 초평면: 데이터를 분리하는 기준이 되는 선
- 마진: 초평면에서 각 데이터 포인트까지의 거리
- 부스팅: 여러 약한 모델을 순차적으로 학습시키는 기법
- 정규화: 모델의 과적합을 방지하기 위한 방법
- 리프 우선 학습: 트리에서 리프 노드를 먼저 확장하는 학습 방식
- 히스토그램 기반: 데이터를 효율적으로 처리하는 방법
- 클러스터: 비슷한 데이터를 그룹화한 집합
- 유클리드 거리: 두 점 사이의 직선 거리를 측정하는 방법
- 선형 회귀 (Linear Regression)
머신러닝 분야 세계 최대 학회 뉴립스 (NeurIPS)
https://www.lg.co.kr/media/release/27105
**사이드 프로젝트 : 업무하면서 불편한 점에 대한 사이드 프로젝트 했는지,,,, 나중에 이직하거나 연봉협상 할 때 좋음.
'Data Analyst > article' 카테고리의 다른 글
[Article Study] 양질의 테이터를 판별하는 5가지 방법: ① 데이터양은 충분한가? (0) | 2024.11.28 |
---|---|
[Article Study] 비개발자를 위한 엑셀로 이해하는 SQL: ① 엑셀로 온라인 서비스의 RDB 이해하기 (1) | 2024.11.27 |
[Article Study] A/B 테스트 제대로 이해하기: ② A/B 테스트를 위한 기초 통계 이해하기 (0) | 2024.11.12 |
[Article Study] 데이터 분석가에게 코딩테스트가 필요할까? (4) | 2024.11.08 |
[Article Study ⑨] 사용자 데이터를 효과적으로 분석하는 법 (1) | 2024.10.29 |