머신러닝에서 분류란?
- 학습 데이터로 주어진 데이터의 피처와 레이블값(결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습해 모델을 생성, 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측
- 기존 데이터가 어떤 레이블에 속하는지 패턴을 알고리즘으로 인지한 뒤에 새롭게 관측된 데이터에 대한 레이블 판별
- 지도학습의 대표적인 예시(명시적인 정답이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 방식)
분류 방식의 머신러닝 알고리즘
- 베이즈(Bayes) 통계와 생성 모델에 기반한 나이브 베이즈(Naïve Bayes)
- 독립변수와 종속 변수의 선형 관계성에 기반한 로지스틱 회귀(Logistic Regression)
- 데이터 균일도에 따른 규칙 기반의 결정트리(Decision Tree)
- 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신(Support Vector Machine)
- 근접 거리를 기준으로 하는 최소 근접(Nearest Neighbor) 알고리즘
- 심층 연결 기반의 신경망(Neural Network)
- 서로 다른(또는 같은) 머신러닝 알고리즘을 결합한 앙상블
결정트리
- 장점: 매우 쉽고 유연하게 적용될 수 있는 알고리즘. 데이터의 스케일링이나 정규화 등 사전 가공의 영향 적음
- 단점: 예측 성능을 향상시키기 위해 복잡한 규칙 구조를 가져야 하는데 이로 인해 과적합(overfitting)이 발생해 예측 성능이 저하될 수 있음
'Python > 머신러닝' 카테고리의 다른 글
머신러닝 디시전트리 파라미터 (0) | 2022.05.12 |
---|---|
머신러닝 디시전트리 모델의 특징 (0) | 2022.05.03 |
머신러닝 하이퍼파라미터 튜닝(GridSearch, RandomSearch) (0) | 2022.04.30 |
교차검증(K-Fold, Stratified K-Fold, cross_val_score()) (0) | 2022.04.24 |
머신러닝 개요 (0) | 2022.04.23 |