AI바라기의 인공지능

PCA 주성분 분석 본문

머신러닝

PCA 주성분 분석

AI바라기 2023. 4. 4. 23:57

 

주성분분석(PCA, Principal Component Analysis)은 다차원 데이터 분석에서 주로 사용되는 기법 중 하나로, 변수 간 상관관계를 이용하여 데이터를 변환하는 방법입니다. 이를 통해 데이터의 차원을 축소하고, 데이터의 구조를 파악하는 데에 유용합니다.

 

 

PCA의 기본 아이디어는, 다차원 공간에서 변수들이 서로 상관관계가 있을 때, 이를 대표하는 새로운 변수를 찾아내는 것입니다. 이때 새로운 변수는 원래 변수들의 선형 결합으로 표현됩니다. 이렇게 새로운 변수를 찾는 과정에서, 원래 변수들의 분산을 최대로 보존하는 방향으로 새로운 변수를 선택합니다. 이를 주성분이라고 합니다.

PCA는 다음과 같은 절차를 따릅니다.

 

  1. 데이터를 표준화합니다. 각 변수들의 스케일이 다르면, 분산이 큰 변수가 주성분으로 선택될 가능성이 높아지기 때문입니다.
  2. 공분산 행렬(Covariance matrix)을 구합니다. 이 행렬은 각 변수들 간의 상관관계를 나타내는 행렬입니다.
  3. 공분산 행렬의 고유벡터와 고유값을 구합니다. 고유벡터는 새로운 축을 나타내며, 고유값은 그 축을 따라 분산을 나타냅니다.
  4. 고유값을 내림차순으로 정렬합니다. 이때, 고유값이 큰 순서대로 고유벡터를 선택하면 됩니다.
  5. 선택한 고유벡터들을 이용하여 데이터를 새로운 축으로 변환합니다. 이때, 원래 변수들의 값들을 고유벡터들의 선형 결합으로 나타냅니다.

 

PCA의 결과로 얻어지는 새로운 축은 원래 변수들의 선형 결합으로 표현됩니다. 이때, 주성분은 원래 변수들의 분산을 최대로 보존하는 방향으로 선택됩니다. 이를 통해 데이터의 차원을 축소하고, 데이터의 구조를 파악하는 데에 유용합니다.

PCA는 주로 차원 축소에 사용되지만, 데이터 시각화, 노이즈 제거, 데이터 압축 등 다양한 분야에서 사용됩니다. 또한, PCA는 다른 분석 방법에 선행으로 사용될 수 있으며, 데이터의 구조를 파악하는 데에 도움이 됩니다.

 

 

위와 같은 데이터가 있다고 했을때 x축 혹은 y 축으로 그냥 냅다 내려버리게 된다면 정보의 손실이 굉장히 큽니다. 이에 정보의 손실이 최대한 없는, 즉 분산을 최대로 유지하는 하나의 축을 찾아서 그 축에 사영하는 것이 pca 입니다.

 

 

예시입니다. 해당 데이터가 있다고 하였을때

 

 

이런식으로 그냥 축에다가 내리게 되면 겹치는 정보 때문에 정보의 손실이 굉장히 큽니다.

 

 

따라서 분산을 최대로 하는 축에다가 사영하는 것이 가장 정보의 손실이 적고 차원축소를 성공적으로 할 수 있게 됩니다.