NLP : 논문리뷰 : Scaling Laws for Data Filtering—Data Curation cannot be Compute Agnostic
Abstract
VLM은 엄선된 웹 데이터셋에서 수천 시간 동안 GPU 학습을 받습니다.
최근에는 데이터 큐레이션이 중요해지면서, '원시' 데이터에서 '고품질' 하위 집합을 유지하는 전략을 개발하는 연구가 활발히 진행되고 있습니다.
예를 들어, LAION 공개 데이터셋은 크롤링된 전체 데이터의 10%만 유지했습니다. 그러나 이러한 전략은 일반적으로 학습에 사용할 수 있는 컴퓨팅 리소스와는 별개로 개발됩니다. 본 논문에서는 먼저 필터링 결정을 학습 컴퓨팅과 독립적으로 만드는 것이 종종 최적이 아님을 보여줍니다.
제한된 고품질 데이터는 반복될수록 빠르게 효용성을 잃어 결국 '보이지 않지만 품질이 낮은' 데이터를 포함해야 합니다.
이러한 품질-수량 트레이드오프(QQT) 문제를 해결하기 위해, 본 논문에서는 기존 문헌에서 무시되었던 웹 데이터의 비균질성을 고려한 신경 스케일링 법칙을 도입합니다.
본 스케일링 법칙은
(i) 웹 데이터의 다양한 품질 하위 집합의 상이한 '효용성'을 특성화하고,
(ii) 데이터 포인트가 'n번째' 반복될 때 효용성이 어떻게 감소하는지 설명하며,
(iii) 여러 데이터 풀이 결합될 때 상호 작용을 공식화하여, 여러 데이터 풀의 조합에 대해 실제로 함께 학습하지 않고도 모델 성능을 추정할 수 있도록 합니다.
본 논문의 핵심 메시지는 데이터 큐레이션이 모델 학습에 사용되는 총 컴퓨팅 리소스와 별개일 수 없다는 것입니다. 본 스케일링 법칙을 통해 다양한 컴퓨팅 예산에서 Datacomp에서 최고 성능을 달성하기 위한 최상의 데이터 풀을 큐레이션하여, 데이터 큐레이션을 위한 파레토 프론티어를 제시합니다.
그림 1. (a) 데이터 필터링의 동적 문제: 웹 데이터는 품질이 다양한 하위 집합(y축)으로 구성된 비균질 데이터입니다.
사전 학습의 경우, "고품질" 데이터(예: 버킷 E)는 수량이 제한되어 있고 반복될수록 (x축) 빠르게 효용성을 잃는데, 이를 품질-수량 트레이드오프(QQT)라고 합니다. 고정된 컴퓨팅 예산(예: 6개 데이터 풀을 보는 것과 동일)이 주어진 경우, 최고의 풀(E)에서 6번의 epoch 동안 학습해야 할까요, 아니면 3개의 최고 풀(E, D, C)에서 각각 2번의 epoch 동안 학습해야 할까요(파란색)? 그리고 총 컴퓨팅 예산에 따라 답은 어떻게 달라질까요?
(b) 이질적이고 제한적인 웹 데이터라는 새로운 축을 수용하는 데이터 필터링 스케일링 법칙을 소개합니다.
먼저 (a)의 A~F와 같은 개별 데이터 풀의 초기 효용성과 효용성 감소율(스케일링 매개변수)을 모델링합니다. 이러한 버킷 간의 상호 작용에 대한 공식을 도출함으로써, 이러한 풀의 조합에 대해 학습할 때 모델 성능을 직접 추정합니다. 중요한 것은, 이 방법론은 스케일링 법칙을 추정하기 위해 데이터 풀 조합에 대한 학습을 포함하지 않는다는 점입니다. 산점도는 비교를 위한 실제 값이며, 실선은 개별 버킷의 스케일링 매개변수에서 외삽된 값입니다.
Introduction
대규모 모델의 사전 학습을 더 많은 데이터, 컴퓨팅 성능, 매개변수를 사용하여 확장하는 것은 머신 러닝 커뮤니티에 고성능 모델을 제공하는 결과를 가져왔습니다. 초기 연구는 '확장' 결정을 내리는 데 있어, 신경망 스케일링 법칙(Hoffmann et al. 2022; Kaplan et al. 2020)에 의해 예측되는 모델 성능 향상 가능성에 크게 의존했습니다. 최근에는 LLM, VLM, 확산 모델 등 '비공개 모델'에서 '데이터'가 최고 성능을 위한 핵심 요소라는 인식이 널리 퍼져 있습니다 (Achiam et al. 2023; Betker et al.). 데이터 품질의 중요성이 인식되면서, 대규모 데이터에서 고품질 데이터를 필터링하거나 (Abbas et al. 2023; Gadre et al. 2023a; Marion et al. 2023; Rae et al. 2021; Schuhmann et al. 2022), 고품질 데이터를 새롭게 생성하는 데 중점을 둔 다양한 연구들이 등장했습니다 (Li et al. 2023b; Maini et al. 2024; Nguyen et al. 2023).
그러나 과거의 스케일링 법칙은 '데이터'를 하나의 동질적인 개체로 간주하고 설계되었으며, 최근 중요하게 떠오른 '데이터 품질'이라는 중요한 측면을 고려하지 않았습니다. 웹 데이터는 방대하지만, 다양한 지표로 확인되는 고품질 데이터는 일반적으로 제한적입니다. 본 연구에서는 먼저 품질-수량 트레이드오프(QQT)를 강조합니다.
이는 제한적인 고품질 데이터를 학습하는 것과 대량으로 사용 가능한 저품질 데이터를 학습하는 것 사이의 동적인 트레이드오프입니다 (그림 1). 고품질 데이터는 여러 번 학습될수록 (모델이 이미 학습했기 때문에) 효용성을 잃습니다. 이 시점에서, 초기에는 효용성이 낮았던 저품질 데이터가 반복된 고품질 데이터보다 더 높은 효용성을 갖는 경우가 많습니다. QQT 하에서, 어떤 데이터 하위 집합을 학습해야 가장 좋을까요? 이 질문에 답하기 위해, 모든 데이터 큐레이션 파이프라인은 모델이 학습되는 총 컴퓨팅량을 고려해야 합니다. 이는 커뮤니티가 데이터 필터링을 고려해온 방식과 대조됩니다. 예를 들어, LAION 필터링 전략은 common crawl에서 품질이 가장 높은 데이터의 10%를 추출합니다. 그러나 그림 2에서 볼 수 있듯이, 35 epoch를 넘어서면 완전히 큐레이션되지 않은 데이터를 학습하는 것이 LAION에서 큐레이션된 고품질 데이터를 학습하는 것보다 더 좋습니다. 현재의 신경망 스케일링 법칙은 이러한 품질과 수량 간의 동적인 트레이드오프를 모델링할 수 없습니다. 게다가, 비전-언어 모델을 위한 스케일링 법칙 분야는 아직 초기 단계이며, 대부분의 진전은 언어 모델링 분야에서만 이루어졌습니다.
본 연구에서는 과거 신경망 스케일링 법칙의 세 가지 중요한 한계를 해결합니다.
(i) 데이터를 확장할 때 '품질' 축을 고려하고,
(ii) 실제로 조합에 대해 학습하지 않고도 데이터 풀 조합의 스케일링 법칙을 추정하여 최적의 데이터 큐레이션 결정을 안내하며,
(iii) 각 배치마다 손실에 기여하는 제곱 비교 횟수를 갖는 CLIP과 같은 대조 학습 설정에 LLM 스케일링 법칙을 적용합니다.
우리는 이질적이고 제한적인 웹 데이터에 맞춤화된 최초의 스케일링 법칙을 소개합니다. 대규모 모델은 다양한 품질의 데이터 풀 조합으로 학습됩니다.
그림 1(a)의 A-F와 같은 개별 데이터 풀의 스케일링 매개변수에서 파생된 총 데이터 유틸리티를 모델링함으로써, 이러한 풀의 조합으로 학습될 때 모델 성능을 직접 추정합니다. 중요한 것은, 우리의 방법론은 스케일링 법칙을 추정하기 위해 데이터 풀 조합에 대한 학습을 포함하지 않는다는 것입니다. 대신, 개별 구성 풀의 스케일링 매개변수에서 직접 스케일링 곡선을 추정합니다.
우리는 O(n^2) 비교를 허용하는 대조 학습 체제에서 반복을 모델링하기 위해 과거의 스케일링 법칙에서 몇 가지 중요한 변경을 합니다. 예를 들어, 학습 풀 크기가 두 배가 되면 모델 손실에 기여하는 비교 횟수는 네 배가 됩니다.
다양한 데이터 조합에서 모델 성능을 추정하기 위해 서로 다른 풀의 데이터 간 상호 작용을 공식화합니다. 이를 통해 사용 가능한 컴퓨팅에 적응하는 최적의 데이터 큐레이션 전략을 안내합니다.
우리 연구의 핵심 메시지는 데이터 큐레이션이 컴퓨팅과 별개일 수 없다는 것입니다. 그림 1에서 볼 수 있듯이, 낮은 컴퓨팅 예산(적은 반복)으로 학습할 때 QQT 하에서 품질이 우선시되므로 공격적인 필터링(버킷 E)이 최고의 성능을 보입니다. 반면, 사용 가능한 학습 데이터보다 훨씬 큰 컴퓨팅 규모에서는 제한된 고품질 데이터의 효용 감소를 고려하는 것이 중요해집니다. 이는 덜 공격적인 필터링, 즉 더 많은 양의 데이터가 더 나은 성능을 제공함을 의미합니다.
경험적으로, 우리는 이질적인 웹 데이터에 대한 스케일링 법칙을 통해 DataComp (Gadre et al. 2023a)의 중간 규모 풀(128M 샘플)을 사용하여 32M에서 640M까지 다양한 컴퓨팅 예산에서 파레토 최적 필터링 전략을 예측할 수 있음을 보여줍니다.
그림 2. 128M 샘플의 초기 데이터 풀이 주어진 경우, ViT-B/32 CLIP 모델을 총 640M 샘플에 대해 학습합니다. 학습 시간이 길어질수록, Common Crawl 데이터를 초기 크기의 10%로 필터링하는 LAION 필터링 하위 집합을 사용한 정확도 향상은 정체됩니다. 놀랍게도, 450M 샘플 이상을 학습한 후에는 Common Crawl 데이터를 필터링하지 않는 것이 일반적으로 사용되는 LAION 필터링보다 더 나은 성능을 보입니다.
Related work
Data Filtering
비전-언어 모델은 노이즈가 많은 웹 규모 데이터셋으로 학습되므로 데이터 필터링은 중요한 선행 작업입니다. OpenCLIP(Ilharco et al. 2021)은 LAION-400M(Schuhmann et al. 2021) 데이터셋을 큐레이션하여 OpenAI의 CLIP(Radford et al. 2021b) 성능을 재현하려고 시도했습니다. 그러나 성능은 여전히 CLIP에 뒤쳐져 데이터 큐레이션의 중요성을 시사했습니다. 최근 Datacomp(Gadre et al. 2023a)는 Common Crawl에서 하위 집합 선택을 위한 벤치마크 과제를 발표하여 이러한 노력을 간소화했습니다.
최첨단 데이터 큐레이션 접근 방식은 대부분 특정 지표를 사용하여 데이터 순위를 매기는 방식을 포함합니다. 예를 들어, LAION(Schuhmann et al. 2021, 2022)은 CLIP 점수 기반 필터링(다른 여러 규칙 중)을 사용하며, 사전 학습된 CLIP에서 평가한 이미지-캡션 유사도 점수가 0.28 미만인 샘플은 필터링됩니다. Mahmoud et al. (2023); Nguyen et al. (2023)은 이미지 캡션 모델(Li et al. 2023a)이 생성한 합성 캡션을 사용하여 데이터 순위를 매기는 방법을 제안합니다.
최근 T-MARS(Maini et al. 2023) 및 CAT(Radenovic et al. 2023)는 이러한 웹 규모 데이터셋의 이미지 중 상당 부분이 학습 가능한 "시각적" 특징이 부족하고, 이미지의 텍스트(OCR)가 캡션과 일치하기 때문에 캡션과의 유사도가 높다는 점을 강조했습니다. T-MARS는 OCR 감지 알고리즘을 사용하여 텍스트를 마스킹한 후 CLIP 유사도 점수를 기반으로 데이터의 50%를 필터링합니다. 마찬가지로, C-SSFT(Maini et al. 2023) 및 DFN(Fang et al. 2023)은 사전 학습된 CLIP을 유지된 검증 세트에서 미세 조정할 때 CLIP 점수의 하락을 평가하여 잘못 레이블된 샘플을 필터링하는 방법을 제안합니다. 다른 연구로는 규칙 혼합을 사용하는 Yu et al. (2023)과 다운스트림 메타데이터와의 유사성을 사용하는 Xu et al. (2023)이 있습니다.
본 연구에서는 데이터 필터링이 학습 컴퓨팅과 별개일 수 없는 이유와 학습 패러다임이 변경될 때 순서가 어떻게 변하는지 강조합니다. 실제로, 최첨단 OpenCLIP 모델을 학습하는 데 사용된 LAION 필터링이 특정 설정에서는 필터링하지 않거나 원시 Common Crawl에서 학습하는 것보다 성능이 떨어질 수 있음을 보여줍니다.
Scaling Laws in Language Modeling
최근 딥 러닝 연구에서 가장 두드러지는 경향 중 하나는 모델 크기, 데이터 크기, 계산량이 증가함에 따라 신경망 성능이 예측 가능하게 향상되는 경향이 있다는 관찰입니다. 언어 모델링 분야에서 이러한 관찰은 스케일링 법칙으로 알려진 일련의 원칙으로 체계화되었습니다.
Kaplan et al. (2020)은 신경 언어 모델에 대한 스케일링 법칙에 대한 포괄적인 연구를 수행했습니다. 그들은 고정된 계산 예산이 주어졌을 때 최적의 모델 크기, 학습 데이터 크기 및 학습 시간이 존재한다는 것을 관찰했습니다. 흥미롭게도 최첨단에 해당하는 (모델 크기, 데이터 크기, 배치 크기)는 동시에 확장되는 경향이 있어 더 큰 모델을 효과적으로 학습하려면 더 많은 데이터와 더 많은 계산이 필요하다는 직관을 강화합니다. 이 관찰은 Hernandez et al. (2021); Hoffmann et al. (2022)에 의해 뒷받침되는데, 이들은 계산량 최적화 언어 모델 학습을 더 깊이 파고들어 계산과 모델 및 데이터 크기의 균형을 맞추는 것의 중요성을 강조합니다. Sardana and Frankle (2023)은 추론 비용을 스케일링 법칙에 통합하는 수정 사항을 제안합니다. Bahri et al. (2021); Hutter (2021)은 신경 스케일링 법칙을 이론적으로 연구합니다.
본 연구와 가장 밀접하게 관련된 Muennighoff et al. (2023)은 효용 감소로 인해 4 epochs를 초과하는 토큰에 대해 학습하는 것은 새로운 언어 데이터에 대해 학습하는 것에 비해 미미한 이득을 얻는다는 것을 보여줍니다. 그러나 그들은 서로 다른 데이터 품질 풀의 경우를 고려하지 않습니다. 본 연구에서는 데이터 풀의 혼합을 Muennighoff et al. (2023)의 효과적인 데이터셋 크기 공식으로 모델링할 수 없음을 보여줍니다. 결정적으로, 효용 계수 감소(y = an^b에서 스케일링 매개변수 b)도 모델링해야 합니다. 마지막으로 Hashimoto (2021)는 다양한 혼합 비율에 대한 스케일링 법칙을 연구하지만, 연구는 소규모 지도 학습 작업으로 제한됩니다. 본 연구에서는 CLIP과 같은 시각적 언어 모델의 대규모 대조 학습을 위한 스케일링 법칙에 중점을 둡니다.
정리하자면 컴퓨팅 파워에 따라 데이터 셋을 조절해야하는데 최대한 다양한 데이터 셋을 섞는 것이 좋지만 파워가 낮다면 젤 좋은거 쓰는게 좋다.