데이터 노가다 일지
[Random Forest] RF 본문
랜덤 포레스트란 무엇인가?
랜덤 포래스트(이라 RF)는 앙상블(ensemble) 학습 기법 중 하나로, 여러 개의 결정 트리(decision tree)를 생성하고 이들의 예측을 결합하여 최종 예측을 도출하는 방법이다. 개별 결정 트리의 단점을 보완하여 더 나은 일반화 성능과 예측 정확도를 제공한다.
RF의 구성 요소
- 결정 트리(Decision Tree) : 랜덤 포레스트의 기본 구성 요소는 결정 트리이다. 각 결정 트리는 데이터의 특징을 사용하여 데이터를 분류하거나 회귀하는 데 사용한다.
- 앙상블(ensamble) : 여러 개의 결정 트리를 결합하여 단점을 보완하고 더 강력한 모델을 만드는 과정이다.
결정트리
의사결정 나무란?주어진 입력값들의 조합에 대한 의사결정 규칙(rule)에 따라 출력값을 예측하는 모형으로 트리구조의 그래프로 표현하는 알고리즘이다.의사결정나무모형의 예측력은 다른 지도
hoho0311.tistory.com
랜덤 포레스트의 주요 개념
1. 배깅(Boostrap Aggregating) : 랜덤 포레스트는 배깅 방법을 사용하여 여러 개의 데이터 샘플을 생성한다. 각 샘플은 원본 데이터에서 무작위 복원 추출 방식으로 생성한다.
2. 랜덤성(Randomness) : 트리를 생성할 때, 각 노드에서 분활한 특징을 무작위로 선택한다. 이 과정은 트리들 간의 상관관계를 줄여 앙상블 모델의 성능을 향상시킨다.
배깅이란? : 데이터를 부스트래핑하고 집계를 사용하여 의사 결정을 내리는 것을 배깅이라고 한다.
랜덤 포레스트의 학습 과정
1. 데이터 샘플링 : 원본 데이터셋에서 여러 개의 부트스트랩 샘플을 생성한다.
2. 결정 트리 생성 : 각 부트스트랩 샘플에 대해 결정 트리를 학습한다. 트리를 학습할 때, 각 노드에서 분할할 특징을 무작위로 선택한다.
3. 예측 결합 : 각 결정 트리의 에측을 결합하여 최종 예측을 도출한다. 분류 문제에서는 다수결 투표 방식을 사용하고, 회귀 문제에서는 평균을 사용한다.
랜덤 포레스트의 장점
- 과적합 방지 : 여러 트리를 결합함으로써 과적합 문제를 완화할 수 있다.
- 특징 중요도 측정 : 랜덤 포레스트는 각 특징의 중요도를 측정할 수 있어 특징 선택에 유용하다.
- 유연성 : 분류와 회귀 모두에 사용 가능한 유연한 모델이다.
- 안정성 : 일부 데이터가 누락되거나 노이즈가 있더라도 성능이 크게 저하되지 않는다.
랜덤 포레스트의 단점
- 해석력 부족 : 많은 트리를 결합한 모델이기 때문에 개별 트리보다 해석하기 어렵다.
- 훈련 시간 : 많은 트리를 학습시키기 때문에 훈련 시간이 길어질 수 있따.
랜덤 포레스트의 하이퍼 파라미터
- ntree : ntree = 200 은 200개의 트리를 생성한다.
- mtry : mtry =4 는 각 노드에서 분활할 특징의 수를 4로 설정한다.
- nodesize : nodesize =5 는 리프 노드가 가지는 최소 샘플 수를 5로 설정한다.
- importance : importance = True 는 변수 중요도를 계산하게 만든다.
결론
랜덤 포레스트는 강력하고 유연한 앙상블 학습 기법으로, 다양한 분야에서 성공적으로 적영되고 있다. 모델의 복잡도를 제어하고 성능을 향상시키기 위해 하이퍼파라미터 튜닝이 중요하다.
[출처]https://wikidocs.net/252215#_7
4-8. 랜덤포레스트
[TOC] ## 랜덤 포레스트(Random Forest) 개념 설명 ### 랜덤 포레스트란 무엇인가? 랜덤 포레스트(Random Forest)는 앙상블(ensemble) 학습…
wikidocs.net
'알고리즘' 카테고리의 다른 글
self-Attention mechanism of Transformer model (0) | 2025.05.07 |
---|---|
[SVM]서포트 벡터 머신 알고리즘 (0) | 2025.04.23 |
결정트리 (0) | 2025.04.22 |
손실함수란? ( MSE ) (0) | 2025.04.10 |