@ddukbbok_kang

하고 싶은 건 일단 해봅니다.

Python/머신러닝

머신러닝 분류

강떡볶 2022. 5. 3. 11:09
머신러닝에서 분류란?
  • 학습 데이터로 주어진 데이터의 피처와 레이블값(결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델을 생성, 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측
  • 기존 데이터가 어떤 레이블에 속하는지 패턴을 알고리즘으로 인지한 뒤에 새롭게 관측된 데이터에 대한 레이블 판별
  • 지도학습의 대표적인 예시(명시적인 정답이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 방식)

 

 

분류 방식의 머신러닝 알고리즘
  • 베이즈(Bayes) 통계와 생성 모델에 기반한 나이브 베이즈(Naïve Bayes)
  • 독립변수와 종속 변수의 선형 관계성에 기반한 로지스틱 회귀(Logistic Regression)
  • 데이터 균일도에 따른 규칙 기반의 결정트리(Decision Tree)
  • 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신(Support Vector Machine)
  • 근접 거리를 기준으로 하는 최소 근접(Nearest Neighbor) 알고리즘
  • 심층 연결 기반의 신경망(Neural Network)
  • 서로 다른(또는 같은) 머신러닝 알고리즘을 결합한 앙상블

 

 

결정트리
  • 장점: 매우 쉽고 유연하게 적용될 수 있는 알고리즘. 데이터의 스케일링이나 정규화 등 사전 가공의 영향 적음
  • 단점: 예측 성능을 향상시키기 위해 복잡한 규칙 구조를 가져야 하는데 이로 인해 과적합(overfitting)이 발생해 예측 성능이 저하될 수 있음