[Article Study] 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

rubus0304 님의 블로그

[Article Study] 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 본문

Data Analyst/article

[Article Study] 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘

rubus0304 2024. 11. 19. 14:01

https://yozm.wishket.com/magazine/detail/1931/

확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 | 요즘IT

실무에서 원활히 머신러닝으로 데이터를 분석하는 데 얼마나 많은 알고리즘을 알고 있어야 할까요? 선형, 군집, 트리 같은 기본 개념을 알고 XGBoost와 LightGBM 같은 최신 알고리즘을 알면 우선 현

yozm.wishket.com

요약 : 머신러닝 TOP 10

1.선형회귀분석 (지도학습, 선형관계전제 / 예측력부족)

2.로지스틱회귀분석 (지도학습, 선형관계전제, 회귀/분류/ 예측력부족)

3.K-최근접 이웃(KNN) (지도학습, 이웃 데이터 고려 예측/ 대용량 취약)

4.나이브 베이즈(지도학습, 조건부 확률로 데이터 분류/ 독립변수 모두 독립적 전제)

5.결정 트리 (지도학습, 전제조건없음, 대용량 취약)

6.랜덤 포레스트 (지도학습, 랜덤으로 독립 트리 여러 개 생성 - 결정 트리 오버피팅 문제 완화/ 속도느림, 해석어려움

7.XG부스트 (지도학습, 이전 트리의 결과를 다음 트리에 반영, 속도 빠르고 예측력 좋음/ 복잡한 모델인 만큼, 해석에 어려움)

8.라이트GBM (지도학습, XG부스트보다 속도 빠르고 정확도 높음, 예측에 영향미친 변수의 중요도 확인가능, 변수종류 많고 데이터 클수록 뛰어난 성능/ 복잡한 모델인 만큼, 해석에 어려움)

9.K-평균 군집화 ( 비지도학습, 목표 변수가 없는 상태에서 베슷한 유형 데이터끼리 묶어냄, 이웃데이터와의 거리기반으로 작동하여 적절한 K값 지정필요, 전체 그룹의 수는 사용자가 지정한 K개, 가까이 있는 데이터끼리 분류, 구현 간단, 쉽게 해석/ 최적의 K값 자동으로 못 찾음, 사용자가 직접 찾아야함, 스케일에 따라 다른 결과 나올 수 있음) - 대표적 비지도

10. 주성분 분석 (PCA) ( 비지도학습, 데이터의 차원 축소 목적, 변수의 개수 줄이되 특성 보존, 기존 변수들의 정보 모두 반영한 새로운 변수 만드는 방식으로 차원 축소, 차원 축소방법 중 가장 인기, 시각화 내지 모델링 효율성 개선여지 있음, 변숙 간 높은 상관관계 해결/ 기존 변수 아닌 새로운 변수 사용 해석 어려움, 정보 손실 불가피)

주요 포인트 : 지도 학습의 회귀분석의 경우 점차 발전된 모델의 회귀분석일 수록 속도가 빠르고 정확하고 대용량 데이터들의 관계를 분석할 수 있으나, 해석이 어렵고, 비지도 학습의 회귀분석의 경우 아직은 직접 거리값을 지정해야하는 등 개선의 여지가 있고, 차원의 축소 모델 등과 같은 특화된 분석들이 존재하는 구나 느낌.
궁극적으로 이런 분석들을 통해 예측과 분류를 한다는 정도? 데이터 사이언티스트가 아닌 이상 분석가 실무에선 도메인 특성에 따라 자주 쓰이는 분석만 열심히 파면 되지 않을까 생각됨.

핵심 개념
선형 회귀 (Linear Regression)
종속변수와 독립변수 간의 선형 관계를 모델링하는 알고리즘. 예측 값은 직선 형태로 나타냄.
로지스틱 회귀 (Logistic Regression)
이진 분류 문제에서 각 클래스의 확률을 예측. 시그모이드 함수를 사용하여 예측 값을 0과 1 사이의 확률로 변환.
K-최근접 이웃 (KNN)
새로운 데이터 포인트를 K개의 가장 가까운 이웃과 비교하여 분류하거나 예측.
나이브 베이즈 (Naive Bayes)
확률적 분류 모델. 각 특성이 독립적이라는 가정 하에 조건부 확률을 계산.
결정 트리 (Decision Tree)
데이터를 여러 조건으로 분할하여 예측을 수행하는 트리 구조.
랜덤 포레스트 (Random Forest)
여러 개의 결정 트리를 결합하여 예측 성능을 개선하는 앙상블 모델
서포트 벡터 머신 (SVM)
데이터를 가장 잘 분리하는 초평면을 찾는 분류 모델. 커널 기법을 통해 비선형 분리도 가능.
XGBoost
부스팅 기법을 활용한 모델로, 여러 약한 모델을 결합하여 강한 예측 모델을 생성.
LightGBM
XGBoost의 개선된 버전으로, 빠르고 메모리 효율적인 학습을 지원
K-means
데이터를 K개의 클러스터로 분할하는 비지도 학습 알고리즘.

용어 정리
- 회귀선: 데이터를 가장 잘 표현하는 직선
- 최소제곱법: 예측 값과 실제 값 간의 차이의 제곱을 최소화하는 방법
로지스틱 회귀 (Logistic Regression)
- 시그모이드 함수: 확률 값으로 변환하는 함수
- 로지스틱 함수: 출력값을 0과 1 사이로 제한하는 함수
K-최근접 이웃 (KNN)
- 유클리드 거리: 두 점 간의 거리 측정 방법
- K 값: 이웃의 수
나이브 베이즈 (Naive Bayes)
- 베이즈 정리: 사후 확률을 계산하는 공식
- 조건부 확률: 주어진 조건 하에서의 확률
결정 트리 (Decision Tree)
- 루트 노드: 트리의 최상위 노드
- 리프 노드: 예측 결과가 나오는 최하위 노드
- 정보 이득: 데이터를 분할할 때의 효율성 측정 기준
랜덤 포레스트 (Random Forest)
- 배깅(Bagging): 데이터 샘플을 중복 허용으로 여러 번 샘플링하여 모델을 학습
- 앙상블 학습: 여러 모델을 결합하여 성능 향상
서포트 벡터 머신 (SVM)
- 초평면: 데이터를 분리하는 기준이 되는 선
- 마진: 초평면에서 각 데이터 포인트까지의 거리
XGBoost
- 부스팅: 여러 약한 모델을 순차적으로 학습시키는 기법
- 정규화: 모델의 과적합을 방지하기 위한 방법
LightGBM
- 리프 우선 학습: 트리에서 리프 노드를 먼저 확장하는 학습 방식
- 히스토그램 기반: 데이터를 효율적으로 처리하는 방법
K-means
- 클러스터: 비슷한 데이터를 그룹화한 집합
- 유클리드 거리: 두 점 사이의 직선 거리를 측정하는 방법
선형 회귀 (Linear Regression)

머신러닝 분야 세계 최대 학회 뉴립스 (NeurIPS)

https://www.lg.co.kr/media/release/27105

LG AI연구원, 세계 최대 머신러닝 학회서 논문 대거 발표

■ 10일(현지시간)부터 美 뉴올리언스에서 진행 중인 머신러닝 분야 세계 최대 학회인 뉴립스(NeurIPS)서 논문 19편 발표 □ ▲생성형 AI에 입력하는 명령 또는 질...

www.lg.co.kr

**사이드 프로젝트 : 업무하면서 불편한 점에 대한 사이드 프로젝트 했는지,,,, 나중에 이직하거나 연봉협상 할 때 좋음.

'Data Analyst > article' 카테고리의 다른 글

[Article Study] 양질의 테이터를 판별하는 5가지 방법: ① 데이터양은 충분한가? (0)	2024.11.28
[Article Study] 비개발자를 위한 엑셀로 이해하는 SQL: ① 엑셀로 온라인 서비스의 RDB 이해하기 (1)	2024.11.27
[Article Study] A/B 테스트 제대로 이해하기: ② A/B 테스트를 위한 기초 통계 이해하기 (0)	2024.11.12
[Article Study] 데이터 분석가에게 코딩테스트가 필요할까? (4)	2024.11.08
[Article Study ⑨] 사용자 데이터를 효과적으로 분석하는 법 (1)	2024.10.29

'Data Analyst/article' Related Articles

rubus0304 님의 블로그

[Article Study] 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 본문

[Article Study] 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘

'Data Analyst > article' 카테고리의 다른 글

티스토리툴바