목록머신러닝 (2)
AI바라기의 인공지능

주성분분석(PCA, Principal Component Analysis)은 다차원 데이터 분석에서 주로 사용되는 기법 중 하나로, 변수 간 상관관계를 이용하여 데이터를 변환하는 방법입니다. 이를 통해 데이터의 차원을 축소하고, 데이터의 구조를 파악하는 데에 유용합니다. PCA의 기본 아이디어는, 다차원 공간에서 변수들이 서로 상관관계가 있을 때, 이를 대표하는 새로운 변수를 찾아내는 것입니다. 이때 새로운 변수는 원래 변수들의 선형 결합으로 표현됩니다. 이렇게 새로운 변수를 찾는 과정에서, 원래 변수들의 분산을 최대로 보존하는 방향으로 새로운 변수를 선택합니다. 이를 주성분이라고 합니다. PCA는 다음과 같은 절차를 따릅니다. 데이터를 표준화합니다. 각 변수들의 스케일이 다르면, 분산이 큰 변수가 주성분..

앙상블(Ensemble) 앙상블은 조화 또는 통일을 의미합니다. 하나의 모델을 사용하는 것이 아닌 여러 개의 모델을 이용하여 그 모델들의 예측 결과를 활용하는 것이 목적입니다. 그렇게 된다면 더 정확한 예측값을 얻을 수 있습니다. 앙상블에는 이렇게 여러가지 모델을 이용하여 예측값을 얻는 방법 뿐만아니라 정형화되어 있는 방법도 존재합니다. 바로 배깅(Bagging), 부스팅(Boosting) 입니다. 배깅(Bagging) Bagging은 Bootstrap Aggregation의 약자입니다. 배깅(Bagging)은 머신러닝에서 사용되는 앙상블 학습(Ensemble Learning) 방법 중 하나입니다. 배깅은 앙상블 학습 중 하나로, 훈련 데이터셋에서 중복을 허용하여 샘플링한 작은 데이터셋들을 각각의 모델에..