데이터 노가다 일지

[Random Forest] RF 본문

알고리즘

[Random Forest] RF

hoho0311 2025. 4. 23. 21:53

랜덤 포레스트란 무엇인가?

랜덤 포래스트(이라 RF)는 앙상블(ensemble) 학습 기법 중 하나로, 여러 개의 결정 트리(decision tree)를 생성하고 이들의 예측을 결합하여 최종 예측을 도출하는 방법이다. 개별 결정 트리의 단점을 보완하여 더 나은 일반화 성능과 예측 정확도를 제공한다.

 

RF의 구성 요소

  • 결정 트리(Decision Tree) : 랜덤 포레스트의 기본 구성 요소는 결정 트리이다. 각 결정 트리는 데이터의 특징을 사용하여 데이터를 분류하거나 회귀하는 데 사용한다.
  • 앙상블(ensamble) : 여러 개의 결정 트리를 결합하여 단점을 보완하고 더 강력한 모델을 만드는 과정이다.

2025.04.22 - [알고리즘] - 결정트리

 

결정트리

의사결정 나무란?주어진 입력값들의 조합에 대한 의사결정 규칙(rule)에 따라 출력값을 예측하는 모형으로 트리구조의 그래프로 표현하는 알고리즘이다.의사결정나무모형의 예측력은 다른 지도

hoho0311.tistory.com

랜덤 포레스트의 주요 개념

1. 배깅(Boostrap Aggregating) : 랜덤 포레스트는 배깅 방법을 사용하여 여러 개의 데이터 샘플을 생성한다. 각 샘플은 원본 데이터에서 무작위 복원 추출 방식으로 생성한다.

2. 랜덤성(Randomness) : 트리를 생성할 때, 각 노드에서 분활한 특징을 무작위로 선택한다. 이 과정은 트리들 간의 상관관계를 줄여 앙상블 모델의 성능을 향상시킨다.

배깅이란? : 데이터를 부스트래핑하고 집계를 사용하여 의사 결정을 내리는 것을 배깅이라고 한다.

랜덤 포레스트의 학습 과정

1. 데이터 샘플링 : 원본 데이터셋에서 여러 개의 부트스트랩 샘플을 생성한다.

2. 결정 트리 생성 : 각 부트스트랩 샘플에 대해 결정 트리를 학습한다. 트리를 학습할 때, 각 노드에서 분할할 특징을 무작위로 선택한다.

3. 예측 결합 : 각 결정 트리의 에측을 결합하여 최종 예측을 도출한다. 분류 문제에서는 다수결 투표 방식을 사용하고, 회귀 문제에서는 평균을 사용한다.

랜덤 포레스트의 장점

  • 과적합 방지 : 여러 트리를 결합함으로써 과적합 문제를 완화할 수 있다.
  • 특징 중요도 측정 : 랜덤 포레스트는 각 특징의 중요도를 측정할 수 있어 특징 선택에 유용하다.
  • 유연성 : 분류와 회귀 모두에 사용 가능한 유연한 모델이다.
  • 안정성 : 일부 데이터가 누락되거나 노이즈가 있더라도 성능이 크게 저하되지 않는다.

랜덤 포레스트의 단점

  • 해석력 부족 : 많은 트리를 결합한 모델이기 때문에 개별 트리보다 해석하기 어렵다.
  • 훈련 시간 : 많은 트리를 학습시키기 때문에 훈련 시간이 길어질 수 있따.

랜덤 포레스트의 하이퍼 파라미터

  • ntree : ntree = 200 은 200개의 트리를 생성한다.
  • mtry : mtry =4 는 각 노드에서 분활할 특징의 수를 4로 설정한다.
  • nodesize : nodesize =5 는 리프 노드가 가지는 최소 샘플 수를 5로 설정한다.
  • importance : importance = True 는 변수 중요도를 계산하게 만든다.

결론

랜덤 포레스트는 강력하고 유연한 앙상블 학습 기법으로, 다양한 분야에서 성공적으로 적영되고 있다. 모델의 복잡도를 제어하고 성능을 향상시키기 위해 하이퍼파라미터 튜닝이 중요하다.

 

[출처]https://wikidocs.net/252215#_7

 

4-8. 랜덤포레스트

[TOC] ## 랜덤 포레스트(Random Forest) 개념 설명 ### 랜덤 포레스트란 무엇인가? 랜덤 포레스트(Random Forest)는 앙상블(ensemble) 학습…

wikidocs.net

 

'알고리즘' 카테고리의 다른 글

self-Attention mechanism of Transformer model  (0) 2025.05.07
[SVM]서포트 벡터 머신 알고리즘  (0) 2025.04.23
결정트리  (0) 2025.04.22
손실함수란? ( MSE )  (0) 2025.04.10