머신러닝

앙상블(Ensemble), 배깅(Bagging), 부스팅(Boosting) 차이

AI바라기 2023. 3. 31. 21:32

앙상블(Ensemble)

앙상블은 조화 또는 통일을 의미합니다.

 

하나의 모델을 사용하는 것이 아닌 여러 개의 모델을 이용하여 그 모델들의 예측 결과를 활용하는 것이 목적입니다.

그렇게 된다면 더 정확한 예측값을 얻을 수 있습니다.

 

앙상블에는 이렇게 여러가지 모델을 이용하여 예측값을 얻는 방법 뿐만아니라 정형화되어 있는 방법도 존재합니다. 

 

바로 

 

배깅(Bagging), 부스팅(Boosting) 입니다.

 

 

배깅(Bagging)

Bagging은 Bootstrap Aggregation의 약자입니다.

 

배깅(Bagging)은 머신러닝에서 사용되는 앙상블 학습(Ensemble Learning) 방법 중 하나입니다.

 

배깅은 앙상블 학습 중 하나로, 훈련 데이터셋에서 중복을 허용하여 샘플링한 작은 데이터셋들을 각각의 모델에게 제공하여 학습시키는 방법입니다.

 

즉, 배깅은 여러 개의 작은 모델들을 만들고, 각각의 모델들이 학습한 결과를 조합하여 최종 예측을 수행합니다.

 

이때, 각각의 모델들이 공통된 훈련 데이터셋에서 학습하지만, 중복을 허용하여 다양한 데이터셋을 사용하기 때문에, 개별 모델들이 서로 다른 방향으로 편향되는 현상을 줄일 수 있습니다.

 

배깅은 주로 결정트리(Decision Tree)나 랜덤포레스트(Random Forest) 모델에서 많이 사용되며, 분류(Classification)나 회귀(Regression) 문제에 모두 적용 가능합니다. 배깅은 모델들을 병렬적으로 학습시키기 때문에 속도가 빠르고, 모델간의 독립성이 높기 때문에 확장성이 뛰어납니다.

 

 

부스팅(Boosting) 

 

 

부스팅(Boosting)은 머신러닝에서 사용되는 앙상블 학습(Ensemble Learning) 방법 중 하나입니다.

 

부스팅은 배깅(Bagging)과 달리, 이전 모델이 잘못 예측한 데이터에 가중치를 부여하여 다음 모델이 더 많은 관심을 가지도록 하는 방식입니다. 즉, 이전 모델에서 잘못 예측한 샘플에 대해 가중치를 높여주면서, 그 샘플에 더 집중하게 만드는 것입니다.

 

부스팅은 일반적으로 분류(Classification) 문제에서 많이 사용됩니다. 대표적인 부스팅 알고리즘으로는 에이다부스트(AdaBoost)와 그래디언트 부스팅(Gradient Boosting)이 있습니다.

 

에이다부스트는 이전 모델이 잘못 예측한 데이터의 가중치를 높여주면서 다음 모델을 학습시키는 방식입니다. 그래디언트 부스팅은 이전 모델이 예측한 오차를 다음 모델에서 보정해나가는 방식으로 학습합니다.

 

부스팅은 개별 모델들이 순차적으로 학습되기 때문에 배깅보다는 학습 속도가 느릴 수 있지만, 각각의 모델이 서로 다른 방향으로 편향될 가능성이 적기 때문에 예측 성능이 더욱 뛰어납니다.