VLM : 논문리뷰 : Large Concept Models: Language Modeling in a Sentence Representation Space

논문리뷰

VLM : 논문리뷰 : Large Concept Models: Language Modeling in a Sentence Representation Space

AI바라기 2024. 12. 29. 19:27

abstract

LLM은 인공 지능 분야에 혁명을 일으켰고 많은 작업에서 사실상의 도구로 부상했습니다. 현재 확립된 LLM 기술은 토큰 수준에서 입력 처리 및 출력 생성을 수행하는 것입니다. 이는 정보를 분석하고 창의적인 콘텐츠를 생성하기 위해 단어 이상으로 여러 수준의 추상화 수준에서 작동하는 인간과는 극명한 대조를 이룹니다. 본 논문에서는 명시적인 더 높은 수준의 semantic representation, 즉 "concept"에서 작동하는 architecture에 대한 시도를 제시합니다. Concepts는 언어 및 modality에 구애받지 않으며 흐름에서 더 높은 수준의 idea 또는 action을 나타냅니다. 따라서 우리는 "Large Concept Model"을 구축합니다. 이 연구에서 타당성 증명으로 concept가 문장에 해당한다고 가정하고 텍스트와 음성 modality 모두에서 최대 200개 언어를 지원하는 기존 문장 embedding 공간인 SONAR를 사용합니다. Large Concept Model은 embedding 공간에서 자동 회귀 문장 예측을 수행하도록 학습됩니다. 우리는 MSE regression, diffusion 기반 generation의 변형 및 양자화된 SONAR 공간에서 작동하는 models 등 여러 접근 방식을 탐색합니다. 이러한 탐색은 1.6B parameter models와 약 1.3T 토큰의 학습 데이터를 사용하여 수행됩니다. 그런 다음 하나의 architecture를 약 2.7T 토큰의 학습 데이터와 함께 7B의 model size로 확장합니다. 우리는 요약 및 새로운 요약 확장 작업과 같은 여러 생성 작업에 대한 실험적 평가를 수행합니다. 마지막으로, 우리 model이 동일한 크기의 기존 LLM보다 뛰어난 많은 언어에 대한 인상적인 zero-shot generalization 성능을 보여줌을 보여줍니다. 우리 models의 학습 코드는 자유롭게 사용할 수 있습니다.

Large Concept Models: Language Modeling in a Sentence Representation Space (정리 노트)

핵심 아이디어:

기존 LLM은 token 단위로 입력 처리 및 출력을 생성하는 반면, 인간은 단어 이상의 추상적인 수준에서 정보를 분석하고 창의적인 콘텐츠를 생성함.
본 논문은 "concept"이라는 명시적인 고차원 semantic representation을 사용하는 새로운 architecture를 제안함.
"Concept"는 언어와 modality에 독립적이며, 고차원적인 아이디어나 행동을 나타냄. 즉, Large Concept Model (LCM)을 구축하는 것이 목표.
본 연구에서는 concept를 "문장"으로 가정하고, 200개 이상의 언어 (텍스트 및 음성)를 지원하는 기존 문장 embedding 공간인 SONAR를 활용함.

LCM의 작동 방식:

LCM은 embedding 공간에서 자동 회귀 방식으로 문장 예측을 수행하도록 학습됨.
MSE regression, diffusion 기반 generation 변형, 양자화된 SONAR 공간에서의 모델 작동 등 다양한 접근 방식을 탐색함.
1.6B parameter model과 1.3T token 규모의 학습 데이터로 실험을 진행하고, 이후 7B parameter model과 2.7T token 규모의 학습 데이터로 확장함.

실험 및 결과:

요약 및 새로운 요약 확장 작업 등의 생성 작업에 대한 실험적 평가를 수행함.
제안된 모델은 동일한 크기의 기존 LLM보다 뛰어난 zero-shot generalization 성능을 보임.
모델의 학습 코드는 공개되어 있음.

핵심 용어 정리:

Token: LLM이 처리하는 텍스트의 최소 단위 (단어, 구두점 등).
Semantic Representation: 의미를 나타내는 방식. 여기서는 고차원적인 의미 표현인 "concept"을 사용함.
Embedding Space: 단어, 문장 등을 벡터로 표현하여 의미 공간에 나타내는 것. SONAR는 문장 embedding 공간임.
Autoregressive: 이전 출력을 기반으로 다음 출력을 예측하는 방식.
Zero-shot Generalization: 학습 데이터에 없던 새로운 작업이나 데이터에 대해 모델이 얼마나 잘 수행하는지를 나타내는 능력.

1 Introduction

Large Language models (LLM)은 현재 자연어 처리 연구를 주도하고 있으며, 최근 이미지, 비디오 및 음성과 같은 더 많은 modality로 확장됨에 따라 인간 지능에 접근하기 위한 사실상의 기술로 여겨지는 듯합니다. LLM은 일반 지식 질문에 대한 자세한 답변 제공, 긴 문서 분석 지원, 다양한 유형의 메시지 작성, 코드 작성 또는 디버깅과 같은 광범위한 작업에서 실제로 인상적인 성능을 달성합니다. LLM을 처음부터 구축하려면 훨씬 더 많은 양의 데이터를 처리하고 현재 4천억 개 이상의 parameter를 초과하는 model을 학습시키기 위한 막대한 컴퓨팅 리소스에 대한 접근이 필요합니다. LLM의 지식 습득은 데이터 중심적이며, 더 많은 언어 또는 modality로 확장하려면 일반적으로 이를 포괄하기 위해 추가적인 (합성) 데이터를 주입해야 합니다.

사용 가능한 LLM의 현황은 Llama (The Llama3 team, 2024), Mistral (Jiang et al., 2024), Bloom (BigScience Workshop, 2023) 또는 Falcon (Almazrouei et al., 2023)과 같은 open models과 Gemini (Gemini Team Google, 2024), GPT (OpenAI, 2024) 또는 Claude (Anthropic, 2024)와 같은 closed models로 나눌 수 있습니다. 이러한 모든 models은 동일한 기본 architecture, 즉 이전 토큰의 긴 context가 주어졌을 때 다음 토큰을 예측하도록 pre-trained된 transformer 기반의 decoder 전용 language model을 기반으로 한다는 것이 두드러집니다. LLM의 부인할 수 없는 성공과 지속적인 발전에도 불구하고 현재의 모든 LLM은 인간 지능의 중요한 특징인 여러 수준의 추상화에서 명시적인 reasoning 및 planning을 놓치고 있습니다. 인간의 두뇌는 단어 수준에서만 작동하지 않습니다. 우리는 일반적으로 복잡한 작업을 해결하거나 긴 문서를 작성하기 위해 하향식 프로세스를 사용합니다. 먼저 전체 구조를 더 높은 수준에서 계획한 다음 단계별로 더 낮은 수준의 추상화에서 세부 사항을 추가합니다. LLM이 계층적 표현을 암묵적으로 학습하고 있다고 주장할 수 있지만, 우리는 명시적인 계층적 architecture를 가진 models이 일관성 있는 장문 출력을 생성하는 데 더 적합하다고 주장합니다.

연구원이 15분 동안 강연을 한다고 상상해 보십시오. 이러한 상황에서 연구원은 일반적으로 발음할 모든 단어를 적어 상세한 연설을 준비하지 않습니다. 대신 전달하려는 고차원 아이디어의 흐름을 간략하게 설명합니다. 동일한 강연을 여러 번 진행하는 경우 실제로 발언되는 단어는 다를 수 있으며, 심지어 다른 언어로 강연할 수도 있지만 고차원 추상적 아이디어의 흐름은 동일하게 유지됩니다. 마찬가지로 특정 주제에 대한 연구 논문이나 에세이를 작성할 때 인간은 일반적으로 전체 문서를 섹션으로 구성하는 개요를 준비하는 것으로 시작한 다음 반복적으로 다듬습니다. 인간은 또한 추상적인 수준에서 더 긴 문서의 여러 부분 간의 종속성을 감지하고 기억합니다. 이전의 연구 작성 예제를 확장하면 종속성을 추적한다는 것은 서론에서 언급된 각 실험에 대한 결과를 제공해야 함을 의미합니다. 마지막으로 정보를 처리하고 분석할 때 인간은 큰 문서의 모든 단어를 고려하지 않습니다. 대신 계층적 접근 방식을 사용합니다. 특정 정보를 찾기 위해 긴 문서의 어느 부분을 검색해야 하는지 기억합니다.

우리가 아는 한, 특정 언어 또는 modality의 어떤 구체화와도 독립적인 추상적 수준에서 정보 처리 및 생성의 이러한 명시적 계층적 구조는 현재의 어떤 LLM에서도 찾아볼 수 없습니다. 본 연구에서는 토큰 수준에서의 처리에서 벗어나 추상적 embedding 공간에서의 (계층적) reasoning에 더 가까워지는 새로운 접근 방식을 제시합니다. 이 추상적 embedding 공간은 콘텐츠가 표현되는 언어 또는 modality와 독립적으로 설계되었습니다. 즉, 특정 언어에서의 구체화가 아닌 순전히 semantic 수준에서 기본 reasoning 프로세스를 모델링하는 것을 목표로 합니다. 우리의 접근 방식을 검증하기 위해 우리는 연구를 두 가지 수준의 추상화, 즉 subword 토큰과 concepts로 제한합니다. 우리는 concept를 추상적인 원자적 아이디어로 정의합니다. 실제로 concept는 텍스트 문서의 문장 또는 이와 동등한 음성 발화에 해당하는 경우가 많습니다. 우리는 단일 단어와는 달리 문장이 언어 독립성을 달성하기에 적절한 단위라고 가정합니다. 이는 영어 중심적이고 토큰 기반인 현재의 LLM 기술과는 극명한 대조를 이룹니다.

우리의 기본 아이디어는 encoder와 decoder를 사용할 수 있는 모든 고정 크기 문장 embedding 공간을 기반으로 할 수 있습니다. 특히 우리의 reasoning architecture에 최적화된 새로운 embedding 공간을 학습하는 것을 목표로 할 수 있습니다. 본 연구에서는 SONAR (Duquenne et al., 2023b)라는 기존의 자유롭게 사용 가능한 문장 embedding을 선택했습니다. SONAR는 200개 언어의 텍스트 입력 및 출력, 76개 언어의 음성 입력 및 영어의 음성 출력을 지원합니다. 섹션 2.1에서 이러한 선택의 제약 조건과 영향을 논의하고 섹션 6에서 대체 embedding 공간에 대한 몇 가지 아이디어를 공유합니다.

그림 1 - 왼쪽: concepts의 embedding 공간에서의 reasoning 시각화 (요약 작업). 오른쪽: Large Concept Model (LCM)의 기본 architecture. ⋆: concept encoder 및 decoder는 고정됨.

그림 1-왼쪽은 5개의 concept 표현을 2개로 매핑하는 embedding 공간의 함수로 구체화된 요약 작업의 예와 함께 embedding 공간에서의 reasoning을 시각화합니다. 그림 1-오른쪽은 전체 architecture 및 처리 흐름을 요약합니다. 입력은 먼저 문장으로 분할되고 각 문장은 SONAR로 encoding되어 일련의 concepts, 즉 문장 embeddings를 얻습니다. 이 concept sequence는 Large Concept Model (LCM)에 의해 처리되어 출력에서 새로운 concept sequence를 생성합니다. 마지막으로 생성된 concepts는 SONAR에 의해 일련의 subwords로 decoding됩니다. encoder와 decoder는 고정되어 있으며 학습되지 않습니다. LCM의 출력에서 변경되지 않은 concept sequence는 전체 reasoning 프로세스를 다시 수행하지 않고도 다른 언어 또는 modality로 decoding될 수 있다는 점을 강조하는 것이 중요합니다. 같은 맥락에서 요약과 같은 특정 reasoning 작업은 concept에서만 작동하기 때문에 모든 언어 또는 modality의 입력에 대해 zero-shot 설정에서 수행할 수 있습니다.

요약하자면 LCM은 입력 언어 또는 modality에 대한 정보를 가지고 있지 않으며 특정 언어 또는 modality로 출력을 생성하지 않습니다. 우리는 LCM을 학습시키기 위해 특히 diffusion의 여러 변형과 같은 여러 architectures를 탐색합니다. 마지막으로 단락 또는 작은 섹션에 대한 짧은 설명에 해당하는 concept 이상의 추가 추상화 수준을 구상합니다. 섹션 4.3에서 이러한 high-level 표현을 conditioning하고 예측하는 것이 LCM에서 생성된 출력의 일관성을 어떻게 향상시킬 수 있는지에 대한 초기 아이디어를 보고합니다.

어느 정도 LCM architecture는 embedding 공간에서 다음 관찰의 표현을 예측하는 것을 목표로 하는 Jepa 접근 방식 (LeCun, 2022)과 유사합니다. 그러나 self-supervised 방식으로 표현 공간을 학습하는 데 더 중점을 두는 Jepa와 달리 LCM은 기존 embedding 공간에서 정확한 예측에 중점을 둡니다.

우리의 일반적인 Large Concept Model 접근 방식의 주요 특징은 다음과 같습니다.

토큰을 넘어서는 추상적인 언어 및 modality 독립적인 수준에서의 Reasoning:
- 특정 언어에서의 구체화가 아닌 기본 reasoning 프로세스를 모델링합니다.
- LCM은 모든 언어와 modality에서 동시에 학습, 즉 지식을 습득할 수 있으므로 편향되지 않은 방식으로 확장성을 보장합니다.
명시적 계층 구조:
- 인간에 의한 장문 출력의 가독성 향상.
- 사용자에 의한 로컬 대화형 편집 용이.
긴 context 및 장문 출력 처리:
- 일반적인 transformer model의 복잡성은 sequence 길이와 함께 2차 함수적으로 증가합니다. 이로 인해 큰 context window 처리가 어려워지고 sparse attention (Child et al., 2019) 또는 LSH attention (Kitaev et al., 2020)과 같은 이 문제를 완화하기 위한 여러 기술이 개발되었습니다. 우리의 LCM은 최소한 10배 더 짧은 sequence에서 작동합니다.
타의 추종을 불허하는 zero-shot generalization:
- LCM이 pre-trained 및 fine-tuned된 언어 또는 modality와 독립적으로 추가 데이터 또는 fine-tuning 없이 SONAR encoders에서 지원하는 모든 언어 및 modality에 적용할 수 있습니다. 텍스트 modality에서 여러 언어에 대한 결과를 보고합니다.
모듈성 및 확장성:
- modality 경쟁 (Aghajanyan et al., 2023; Chameleon team, 2024)으로 어려움을 겪을 수 있는 multimodal LLM과 달리 concept encoders와 decoders는 경쟁이나 간섭 없이 독립적으로 개발하고 최적화할 수 있습니다.
- 기존 시스템에 새로운 언어 또는 modality를 쉽게 추가할 수 있습니다.

본 논문의 목표는 현재의 language modeling 모범 사례에 대한 대안 architecture의 high-level 비전에 대한 개념 증명을 제공하는 것입니다. 다음 섹션에서는 우리 models의 주요 설계 원칙을 제시하고 Large Concept Model을 구축하고 학습시키기 위한 여러 변형을 논의합니다. 우리는 concept embeddings를 사용한 diffusion 접근 방식을 구현하기 위한 여러 설계를 논의하고 noise scheduling을 신중하게 연구합니다. 이 섹션은 token 기반 LLM과의 계산 복잡성 비교로 완료됩니다. 섹션 3은 더 큰 7B parameter model 분석에 전념합니다. 우리는 여러 생성 작업에서 이 model을 instruction fine-tuning할 때의 과제를 논의하고 비슷한 크기의 기존 LLM과 비교합니다. 이 논문은 관련 연구, 현재의 제한 사항 및 우리 접근 방식의 전망에 대한 논의로 결론을 맺습니다.

이 분야의 연구를 촉진하기 위해 최대 200개 언어 및 여러 modality에 대한 LCM 학습 코드와 SONAR encoders 및 decoders를 자유롭게 제공합니다.

1. 서론 (정리 노트)

핵심 아이디어:

Large Language Models (LLM)은 자연어 처리 연구의 중심이며, 이미지, 비디오, 음성 등 다양한 modality로 확장되고 있음. 인간 지능에 다가가기 위한 핵심 기술로 여겨짐.
LLM은 광범위한 작업에서 인상적인 성능을 보임 (질문 답변, 문서 분석, 메시지 작성, 코딩 등).
LLM 구축에는 막대한 컴퓨팅 자원과 데이터가 필요하며, 모델 크기는 4천억 parameter를 초과함.
LLM의 지식 습득은 데이터 중심적이며, 새로운 언어나 modality 확장을 위해 추가 데이터 (합성 데이터 포함)가 필요함.

LLM의 분류:

Open models: Llama, Mistral, Bloom, Falcon 등.
Closed models: Gemini, GPT, Claude 등.
대부분의 LLM은 transformer 기반, decoder 전용 language model architecture를 사용하며, 이전 토큰을 기반으로 다음 토큰을 예측하도록 pre-trained됨.

LLM의 한계:

현재의 LLM은 인간 지능의 중요한 특징인 명시적인 reasoning 및 planning (다단계 추상화)을 결여하고 있음.
인간은 고차원적인 계획 후 세부 사항을 추가하는 하향식 방식을 사용하지만, LLM은 주로 단어 수준에서 작동함.
LLM이 계층적 표현을 암묵적으로 학습할 수 있다고 주장할 수 있지만, 명시적인 계층적 architecture를 가진 모델이 장문 생성에 더 적합함.

인간의 정보 처리 방식:

인간은 강연 준비 시 모든 단어를 적는 대신 고차원 아이디어의 흐름을 구성함.
같은 강연을 여러 번 하더라도 핵심 아이디어는 유지됨 (언어가 달라져도 마찬가지).
논문 작성 시에도 전체 문서의 구조를 먼저 계획하고 반복적으로 다듬음.
긴 문서에서 특정 정보를 찾을 때도 계층적인 접근 방식을 사용함.

본 연구의 목표 및 접근 방식:

현재 LLM에서 찾아볼 수 없는 추상적 수준의 명시적인 계층적 정보 처리 및 생성 구조를 제시하는 것이 목표.
토큰 수준의 처리에서 벗어나 추상적 embedding 공간에서의 (계층적) reasoning에 초점을 맞춤.
제안하는 추상적 embedding 공간은 언어 및 modality에 독립적임. 즉, 특정 언어가 아닌 순수한 semantic 수준에서 reasoning process를 모델링하는 것을 목표로 함.
연구는 subword 토큰과 concept (추상적인 원자적 아이디어, 문장에 해당)의 두 가지 추상화 수준으로 제한됨. 문장을 언어 독립성을 위한 적절한 단위로 가정함.
기존의 자유롭게 사용 가능한 문장 embedding인 SONAR를 사용하며, 이는 200개 언어의 텍스트 및 76개 언어의 음성 입력을 지원함.

LCM (Large Concept Model)의 개요:

입력을 문장으로 분할하고 SONAR를 사용하여 concept sequence (문장 embeddings)로 변환.
LCM이 concept sequence를 처리하여 새로운 concept sequence를 생성.
생성된 concept는 SONAR를 통해 subword sequence로 decoding되어 최종 텍스트 출력 생성.
Encoder와 decoder는 고정되어 학습되지 않음.
LCM 출력의 concept sequence는 언어나 modality에 독립적이므로, 다른 언어 또는 modality로 decoding 가능.
요약과 같은 reasoning 작업은 zero-shot setting에서 수행 가능.
LCM은 입력 언어/modality 정보를 가지지 않으며, 특정 언어/modality로 출력을 생성하지 않음.
diffusion의 여러 변형을 포함한 다양한 architecture를 탐색.
paragraph 또는 작은 section에 해당하는 concept 이상의 추가 추상화 수준을 구상.

LCM과 Jepa의 비교:

LCM architecture는 embedding 공간에서 다음 관찰의 표현을 예측하는 Jepa 접근 방식과 유사하지만, LCM은 기존 embedding 공간에서의 정확한 예측에 중점을 둠.

LCM 접근 방식의 주요 특징:

토큰을 넘어서는 추상적인 언어 및 modality 독립적인 수준에서의 reasoning.
명시적인 계층 구조.
긴 context 및 장문 출력 처리 (transformer 모델의 2차 복잡성 문제 완화).
탁월한 zero-shot generalization.
모듈성 및 확장성 (modality 경쟁 문제 방지, 새로운 언어/modality 추가 용이).

결론 및 향후 계획:

본 논문은 language modeling의 대안 architecture에 대한 high-level 비전의 개념 증명을 제공하는 것을 목표로 함.
LCM 구축 및 학습을 위한 여러 변형, diffusion 접근 방식, noise scheduling 등을 논의.
7B parameter 모델 분석, instruction fine-tuning 과제, 기존 LLM과의 비교 제공.
관련 연구, 현재의 제한 사항 및 전망 논의.
LCM 학습 코드, SONAR encoders 및 decoders를 공개하여 연구 촉진.

2 주요 설계 원칙

이 섹션에서는 LCM의 주요 설계 원칙을 간략하게 설명합니다. 먼저 SONAR embedding 공간과 그 encoder 및 decoder를 설명합니다. 그런 다음 문장 분할, 즉 긴 문서를 문장으로 분할하는 방법과 같은 데이터 준비의 세부 사항을 논의합니다. 마지막으로 본 연구에서 소개된 다양한 버전의 LCM을 자세히 설명합니다.

2.1 SONAR embedding 공간

본 연구의 동기는 토큰보다 더 높은 conceptual level에서 reasoning을 수행하는 것입니다. 이를 위해서는 highly semantic한 embedding 공간이 필요합니다. 우리는 xsim 또는 xsim++ (Chen et al., 2023b)과 같은 여러 semantic similarity metrics에서 최고의 성능을 달성하고 번역을 위한 대규모 bitext mining (Seamless Communication et al., 2023b)에서 성공적으로 사용되었기 때문에 SONAR (Duquenne et al., 2023b)를 선택했습니다.

SONAR 텍스트 embedding 공간은 cross-attention 대신 고정 크기 bottleneck을 가진 encoder/decoder architecture로 학습되었습니다 (그림 2 참조).

그림 2 - SONAR 텍스트 embeddings를 학습하기 위한 encoder/decoder bottleneck architecture (그림의 오른쪽 부분). SONAR를 speech modality로 확장하기 위한 teacher-student 접근 방식 (왼쪽 부분).

이 기준은 200개 언어를 영어로, 영어에서 다른 언어로의 machine translation objective, denoising auto-encoding 및 embedding bottleneck layer에서의 명시적인 MSE loss를 결합합니다. 텍스트 embedding 공간이 학습된 후 teacher-student 접근 방식이 적용되어 SONAR 공간을 speech modality로 확장했습니다. architecture 및 학습 절차에 대한 자세한 내용은 Duquenne et al. (2023b)에서, 자세한 speech recognition 및 translation 결과는 Seamless Communication et al. (2023a)의 부록에서 확인할 수 있습니다.

우리의 LCM은 SONAR concepts embeddings에서 직접 작동하므로 지원되는 모든 언어 및 modalities에서 reasoning을 수행할 수 있습니다. 표 1은 다른 여러 LLM의 언어 지원 범위를 비교합니다.

LCM은 특히 많은 low-resource languages에서 다른 models보다 훨씬 더 많은 언어를 지원합니다. 텍스트 modality 외에도 SONAR는 76개 언어의 speech input과 영어의 speech output을 지원합니다. 우리는 또한 American Sign language (ASL)를 위한 실험적인 encoder를 개발했습니다. 이러한 모든 encoders와 decoders는 자유롭게 사용할 수 있습니다. 지원되는 언어의 정확한 목록은 SONAR GitHub repository에서 확인할 수 있습니다.

2.1 SONAR 임베딩 공간 (정리 노트)

핵심 아이디어:

LCM은 token 수준보다 더 높은 conceptual level에서 reasoning을 수행하는 것을 목표로 함.
이를 위해 highly semantic한 임베딩 공간이 필요하며, SONAR를 선택함.

SONAR 선택 이유:

xsim, xsim++ 등 여러 semantic similarity metrics에서 최고의 성능을 보임. (Chen et al., 2023b)
대규모 bitext mining을 통한 번역 작업에서 성공적으로 사용됨. (Seamless Communication et al., 2023b)

SONAR 텍스트 임베딩 공간의 학습 방식:

encoder/decoder architecture 사용.
cross-attention 대신 고정 크기의 bottleneck 사용 (Figure 2 참고).
학습 기준:
- 200개 언어의 영어 상호 machine translation objective.
- denoising auto-encoding.
- 임베딩 bottleneck layer에서의 명시적인 MSE loss (𝔏<sub>MSE</sub>).
이러한 학습을 통해 encoder와 decoder가 유사한 임베딩을 생성하도록 유도. 즉, 같은 의미의 문장은 임베딩 공간에서 가까운 위치에 표현되도록 학습.

SONAR의 speech modality 확장:

텍스트 임베딩 공간이 학습된 후, teacher-student 접근 방식을 사용하여 speech modality로 확장.
W2v-bert 2.0으로 초기화된 Speech encoders를 사용.
텍스트 encoder의 출력을 "teacher"로 사용하여 학습. 즉, 음성 입력이 텍스트 입력과 유사한 임베딩으로 변환되도록 학습.
MSE loss (α·𝔏<sub>MSE</sub>)를 사용하여 음성 임베딩이 해당 텍스트 임베딩과 유사해지도록 함.

LCM의 특징:

SONAR concept embeddings에서 직접 작동하므로 지원되는 모든 언어 및 modalities에서 reasoning 가능.
다른 LLM에 비해 훨씬 더 많은 언어 (특히 low-resource languages)를 지원 (Table 1 참고).
텍스트 modality 외에도 76개 언어의 speech input과 영어 speech output 지원.
American Sign language (ASL)에 대한 실험적인 encoder 개발.
모든 encoder와 decoder는 자유롭게 사용 가능.
지원되는 언어의 정확한 목록은 SONAR GitHub repository에서 확인 가능.

핵심 요약:

SONAR는 highly semantic한 임베딩 공간으로, 텍스트와 음성을 통합하여 학습되었기 때문에 LCM은 입력 modality에 관계없이 일관된 방식으로 reasoning을 수행할 수 있습니다. 또한, 다양한 언어와 modality를 지원하는 확장성을 가지고 있습니다.

2.2 Data preparation

LCM을 학습하고 평가하기 위해 원시 텍스트 datasets을 각 문장에 해당하는 SONAR embeddings sequence로 변환해야 합니다. 대용량 텍스트 corpora를 다루는 것은 여러 가지 실제적인 제약을 나타냅니다. 첫째, 오류, 특정 서식 문제 또는 기타 noise 원인으로 인해 텍스트를 문장으로 정확하게 분할하는 것이 어려울 수 있습니다. 이를 위해서는 강력한 자동 텍스트 분할 기술을 적용해야 합니다. 둘째, 일부 문장 (잘 구성된 문장조차도)은 매우 길고 복잡할 수 있으며, 이는 encoding된 SONAR embeddings의 품질에 부정적인 영향을 미칠 수 있습니다. 이는 특히 과학 분야의 텍스트에서 두드러집니다. 다음에서는 문장 분할 전략과 이것이 SONAR encoding에 미치는 영향에 대해 논의합니다.

문장 분할 분석

우리는 두 가지 잠재적인 문장 분할 기술을 확인했습니다. 다국어 데이터를 탐색하고 있으므로 광범위한 언어 지원 범위를 가진 문장 분할기에 중점을 둡니다.

SpaCy segmenter (SpaCy) (Honnibal et al., 2020)는 문장 분할에 대한 rule-based 접근 방식을 제공하는 잘 확립된 다국어 NLP toolkit입니다. SpaCy는 high-resource languages에 대해 철저히 테스트되었습니다.
Segment any Text (SaT) (Minixhofer et al., 2023; Frohmann et al., 2024)는 토큰 수준에서 문장 경계를 예측하는 models 및 adapters suite를 제공합니다. SaT는 특히 구두점과 대문자에 대한 과도한 의존을 피하면서 섭동에 탄력적으로 설계되었습니다. 이는 이러한 기존 marker가 종종 누락되는 domains에서 유용합니다. 그러나 SaT의 분할 품질은 "적절한" 분할 확률 임계값 선택에 따라 달라집니다.

우리는 또한 문자 단위의 최대 문장 길이 제한을 통합하여 두 가지 방법을 모두 사용자 정의합니다. 이러한 확장을 SpaCy Capped 및 SaT Capped라고 합니다. 긴 문장은 SpaCy의 경우 구두점을 기반으로 하는 rule-based 접근 방식을 사용하여 더 작고 논리적으로 일관된 조각으로 나뉩니다. SaT의 경우 제공된 분할 확률 추정치를 활용하여 다음으로 가장 적합한 잠재적 분할을 식별합니다.

주어진 segmenter의 효능을 측정하기 위해 AutoBLEU를 사용하여 재구성된 문장의 품질을 평가합니다. 이는 segment를 encoding한 후 SONAR 벡터에서 decoding된 텍스트를 참조 segment와 비교하는 BLEU score (Papineni et al., 2002)로 정의됩니다. 좋은 분할은 signal 손실 없이 encoding된 후 decoding될 수 있는 segments를 생성하므로 더 높은 AutoBLEU 점수를 얻습니다.

이 분석을 위해 약 50만 개의 문장을 나타내는 pretraining datasets에서 1만 개의 문서를 샘플링합니다. 문서는 각 segmenter로 처리되고, 문장은 encoding된 후 decoding되며 AutoBLEU 점수가 계산됩니다. 원래 문장의 길이에 따라 결과를 계층화했습니다.

그림 3 - Segmenters 품질. out of the box (왼쪽) 및 capped 구현 (오른쪽) 모두에 대해 문장 길이에 따른 다양한 문장 분할 방법의 평균 Auto-BLEU 점수.

그림 3에서 볼 수 있듯이 200자로 제한하면 SaT Capped 방법이 SpaCy Capped보다 약간이지만 일관된 이점을 보여줍니다. 그러나 두 가지 out-of-the-box segmenters 모두 모든 문장 길이에서 상당한 성능 저하를 나타냅니다. 이러한 낮은 성능은 특히 250자를 초과하는 문장에서 두드러지며, capping 없이 segmenters를 사용하는 것의 한계를 강조합니다.

따라서 SaT Capped를 사용하여 LCM 학습 데이터를 준비합니다. 부록 A에서는 많은 양의 SONAR embeddings를 처리할 때 직면하는 기술적 및 엔지니어링 과제를 논의합니다.

2.2 데이터 준비 (정리 노트)

핵심 목표: LCM 학습 및 평가를 위해 원시 텍스트 datasets을 문장별 SONAR embeddings sequence로 변환.

문제점: 대용량 텍스트 corpora 처리 시 다음과 같은 현실적인 제약 존재:

정확한 문장 분할의 어려움: 오류, 서식 문제, noise 등으로 인해 텍스트를 정확하게 문장 단위로 나누는 것이 어려움. 강력한 자동 텍스트 분할 기술 필요.
긴 문장의 영향: 일부 문장은 매우 길고 복잡하여 encoding된 SONAR embeddings의 품질에 부정적인 영향 (특히 과학 분야 텍스트에서 두드러짐).

해결 전략: 문장 분할 전략 및 이것이 SONAR encoding에 미치는 영향 분석.

문장 분할 분석: 다국어 데이터 처리에 초점을 맞춰 광범위한 언어 지원을 제공하는 두 가지 문장 분할 기술 검토:

SpaCy segmenter (SpaCy): rule-based 접근 방식을 제공하는 검증된 다국어 NLP toolkit. high-resource languages에 대해 철저히 테스트됨.
Segment any Text (SaT): 토큰 수준에서 문장 경계를 예측하는 models 및 adapters suite 제공. 구두점과 대문자에 대한 과도한 의존을 피하도록 설계되어 섭동에 강함. "적절한" 분할 확률 임계값 선택에 따라 품질이 달라짐.

개선된 방법 (Capped 버전): 두 방법 모두 최대 문장 길이 제한을 추가하여 개선 (SpaCy Capped, SaT Capped).

SpaCy Capped: SpaCy에 구두점 기반 rule을 사용하여 긴 문장을 논리적으로 일관된 더 작은 조각으로 분할.
SaT Capped: SaT의 분할 확률 추정치를 활용하여 다음으로 가장 적합한 잠재적 분할 지점을 찾아 긴 문장 분할.

분할 품질 측정: AutoBLEU를 사용하여 분할 품질 평가.

AutoBLEU: segment encoding 후 SONAR 벡터에서 decoding된 텍스트를 참조 segment와 비교하는 BLEU score. signal 손실 없이 encoding 및 decoding 가능한 segment는 높은 AutoBLEU 점수를 얻음.

실험:

pretraining datasets에서 1만 개 문서 (약 50만 개 문장) 샘플링.
각 segmenter로 문서 처리, 문장 encoding 및 decoding 후 AutoBLEU 점수 계산.
원래 문장 길이에 따라 결과 분류.

결과 (Figure 3):

200자 capping 시 SaT Capped가 SpaCy Capped보다 약간이지만 일관된 이점 보임.
capping 없는 out-of-the-box segmenters는 모든 문장 길이에서 상당한 성능 저하를 나타냄 (특히 250자 초과 문장에서 두드러짐).

결론: LCM 학습 데이터는 SaT Capped를 사용하여 준비. 대량의 SONAR embeddings 처리 시 발생하는 기술적 및 엔지니어링 문제는 부록 A에서 논의.

핵심 요약: 긴 문장 처리의 어려움과 그로 인한 encoding 품질 저하 문제를 해결하기 위해 SaT에 최대 문장 길이 제한을 추가한 SaT Capped를 사용하여 데이터를 준비했습니다. AutoBLEU 평가 결과, SaT Capped가 다른 방법들보다 우수한 성능을 보였습니다.