AI바라기의 인공지능
부트스트랩(Bootstrap)이란? 본문
부트스트랩은 간단하게 설명하면 모수의 분포를 추정하는 방법입니다. 일반적으로 우리는 모수는 알 수 없다고 알려져 있지만 이 부트스트랩 방법을 사용하게 되면 모수의 분포를 어느정도 추정할 수 있습니다.
부트스트랩은 데이터가 정규분포를 따라야 한다는 가정이 꼭 필요하지는 않습니다.
어떤 방법으로 진행되는지 예시로 설명하겠습니다.
모집단의 크기 : 10억개
표본의 크기 : 300개
이 경우에는 표본이 300개로 굉장히 적은 편에 속합니다. 부트스트랩 방법을 사용하면 어떻게 될까요?
1. 300개의 표본 중 하나를 뽑아 기록하고 다시 제자리에 둡니다.
2. 이를 n번 반복합니다.
3. n번 재표본추출한 값이 평균을 구합니다.
4. 1~3 단계를 R번 반복합니다. (R은 반복횟수 사용자가 설정!)
5. 평균에 대한 결과 R개를 사용하여 신뢰구간을 구합니다.
이 방법을 사용하게 된다면 300개의 표본을 가지고도 그 이상의 통계량을 구할 수 있습니다.
즉 R이 클수록 모수의 분포를 정확하게 추정할 수 있게 됩니다.
어떻게 이런 일이 가능할까요?
표본이라는 것은 일반적으로는 모집단에서 균일하게 뽑은 것을 의미합니다.
즉 모수를 대표하는 표본입니다.
부트스트랩 방법을 사용하게 되면
중간중간 비어있는 이빨에 이빨을 채워주는 것과 같습니다.
'통계' 카테고리의 다른 글
Central Limit Theorem 이란? (0) | 2024.08.29 |
---|