rubus0304 님의 블로그

[Article Study] 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 본문

Data Analyst/article

[Article Study] 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘

rubus0304 2024. 11. 19. 14:01

https://yozm.wishket.com/magazine/detail/1931/

 

확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 | 요즘IT

실무에서 원활히 머신러닝으로 데이터를 분석하는 데 얼마나 많은 알고리즘을 알고 있어야 할까요? 선형, 군집, 트리 같은 기본 개념을 알고 XGBoost와 LightGBM 같은 최신 알고리즘을 알면 우선 현

yozm.wishket.com

 

 

  • 요약 : 머신러닝 TOP 10

1.선형회귀분석 (지도학습, 선형관계전제 / 예측력부족)

2.로지스틱회귀분석 (지도학습, 선형관계전제, 회귀/분류/ 예측력부족)

3.K-최근접 이웃(KNN) (지도학습, 이웃 데이터 고려 예측/ 대용량 취약)

4.나이브 베이즈(지도학습, 조건부 확률로 데이터 분류/ 독립변수 모두 독립적 전제)

5.결정 트리 (지도학습, 전제조건없음, 대용량 취약)

6.랜덤 포레스트 (지도학습, 랜덤으로 독립 트리 여러 개 생성 - 결정 트리 오버피팅 문제 완화/ 속도느림, 해석어려움

7.XG부스트 (지도학습, 이전 트리의 결과를 다음 트리에 반영, 속도 빠르고 예측력 좋음/ 복잡한 모델인 만큼, 해석에 어려움)

8.라이트GBM (지도학습, XG부스트보다 속도 빠르고 정확도 높음, 예측에 영향미친 변수의 중요도 확인가능, 변수종류 많고 데이터 클수록 뛰어난 성능/ 복잡한 모델인 만큼, 해석에 어려움)

9.K-평균 군집화 ( 비지도학습, 목표 변수가 없는 상태에서 베슷한 유형 데이터끼리 묶어냄, 이웃데이터와의 거리기반으로 작동하여 적절한 K값 지정필요, 전체 그룹의 수는 사용자가 지정한 K개, 가까이 있는 데이터끼리 분류, 구현 간단, 쉽게 해석/ 최적의 K값 자동으로 못 찾음, 사용자가 직접 찾아야함, 스케일에 따라 다른 결과 나올 수 있음) - 대표적 비지도

10. 주성분 분석 (PCA) ( 비지도학습, 데이터의 차원 축소 목적, 변수의 개수 줄이되 특성 보존, 기존 변수들의 정보 모두 반영한 새로운 변수 만드는 방식으로 차원 축소, 차원 축소방법 중 가장 인기, 시각화 내지 모델링 효율성 개선여지 있음, 변숙 간 높은 상관관계 해결/ 기존 변수 아닌 새로운 변수 사용 해석 어려움, 정보 손실 불가피)

  • 주요 포인트 : 지도 학습의 회귀분석의 경우 점차 발전된 모델의 회귀분석일 수록 속도가 빠르고 정확하고 대용량 데이터들의 관계를 분석할 수 있으나, 해석이 어렵고, 비지도 학습의 회귀분석의 경우 아직은 직접 거리값을 지정해야하는 등 개선의 여지가 있고, 차원의 축소 모델 등과 같은 특화된 분석들이 존재하는 구나 느낌.
  • 궁극적으로 이런 분석들을 통해 예측과 분류를 한다는 정도? 데이터 사이언티스트가 아닌 이상 분석가 실무에선 도메인 특성에 따라 자주 쓰이는 분석만 열심히 파면 되지 않을까 생각됨.

 

  • 핵심 개념
  • 선형 회귀 (Linear Regression)
  • 종속변수와 독립변수 간의 선형 관계를 모델링하는 알고리즘. 예측 값은 직선 형태로 나타냄.
  • 로지스틱 회귀 (Logistic Regression)
  • 이진 분류 문제에서 각 클래스의 확률을 예측. 시그모이드 함수를 사용하여 예측 값을 0과 1 사이의 확률로 변환.
  • K-최근접 이웃 (KNN)
  • 새로운 데이터 포인트를 K개의 가장 가까운 이웃과 비교하여 분류하거나 예측.
  • 나이브 베이즈 (Naive Bayes)
  • 확률적 분류 모델. 각 특성이 독립적이라는 가정 하에 조건부 확률을 계산.
  • 결정 트리 (Decision Tree)
  • 데이터를 여러 조건으로 분할하여 예측을 수행하는 트리 구조.
  • 랜덤 포레스트 (Random Forest)
  • 여러 개의 결정 트리를 결합하여 예측 성능을 개선하는 앙상블 모델
  • 서포트 벡터 머신 (SVM)
  • 데이터를 가장 잘 분리하는 초평면을 찾는 분류 모델. 커널 기법을 통해 비선형 분리도 가능.
  • XGBoost
  • 부스팅 기법을 활용한 모델로, 여러 약한 모델을 결합하여 강한 예측 모델을 생성.
  • LightGBM
  • XGBoost의 개선된 버전으로, 빠르고 메모리 효율적인 학습을 지원
  • K-means
  • 데이터를 K개의 클러스터로 분할하는 비지도 학습 알고리즘.

 

  • 용어 정리
    • 회귀선: 데이터를 가장 잘 표현하는 직선
    • 최소제곱법: 예측 값과 실제 값 간의 차이의 제곱을 최소화하는 방법
    로지스틱 회귀 (Logistic Regression)
    • 시그모이드 함수: 확률 값으로 변환하는 함수
    • 로지스틱 함수: 출력값을 0과 1 사이로 제한하는 함수
    K-최근접 이웃 (KNN)
    • 유클리드 거리: 두 점 간의 거리 측정 방법
    • K 값: 이웃의 수
    나이브 베이즈 (Naive Bayes)
    • 베이즈 정리: 사후 확률을 계산하는 공식
    • 조건부 확률: 주어진 조건 하에서의 확률
    결정 트리 (Decision Tree)
    • 루트 노드: 트리의 최상위 노드
    • 리프 노드: 예측 결과가 나오는 최하위 노드
    • 정보 이득: 데이터를 분할할 때의 효율성 측정 기준
    랜덤 포레스트 (Random Forest)
    • 배깅(Bagging): 데이터 샘플을 중복 허용으로 여러 번 샘플링하여 모델을 학습
    • 앙상블 학습: 여러 모델을 결합하여 성능 향상
    서포트 벡터 머신 (SVM)
    • 초평면: 데이터를 분리하는 기준이 되는 선
    • 마진: 초평면에서 각 데이터 포인트까지의 거리
    XGBoost
    • 부스팅: 여러 약한 모델을 순차적으로 학습시키는 기법
    • 정규화: 모델의 과적합을 방지하기 위한 방법
    LightGBM
    • 리프 우선 학습: 트리에서 리프 노드를 먼저 확장하는 학습 방식
    • 히스토그램 기반: 데이터를 효율적으로 처리하는 방법
    K-means
    • 클러스터: 비슷한 데이터를 그룹화한 집합
    • 유클리드 거리: 두 점 사이의 직선 거리를 측정하는 방법
  • 선형 회귀 (Linear Regression)

 

머신러닝 분야 세계 최대 학회 뉴립스 (NeurIPS)

https://www.lg.co.kr/media/release/27105

 

LG AI연구원, 세계 최대 머신러닝 학회서 논문 대거 발표

■ 10일(현지시간)부터 美 뉴올리언스에서 진행 중인 머신러닝 분야 세계 최대 학회인 뉴립스(NeurIPS)서 논문 19편 발표 □ ▲생성형 AI에 입력하는 명령 또는 질...

www.lg.co.kr

 

 

**사이드 프로젝트  :  업무하면서 불편한 점에 대한 사이드 프로젝트 했는지,,,, 나중에 이직하거나 연봉협상 할 때 좋음.