AI바라기의 인공지능
VAR : 논문리뷰 : Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction 본문
VAR : 논문리뷰 : Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
AI바라기 2025. 3. 14. 15:07Overall Summary
본 논문은 "next-scale prediction" 기반의 새로운 Visual Autoregressive (VAR) modeling framework를 제안하여, 기존 image AR models의 문제점을 해결하고 scalability와 zero-shot generalization 능력을 확보했다. VAR는 ImageNet benchmarks에서 state-of-the-art image generation 성능을 달성했으며, 특히 diffusion models를 능가하는 결과를 보여주었다. 이러한 연구는 visual generation 분야에서 AR/VAR models의 가능성을 제시하고, unified learning 발전에 기여할 것으로 기대된다.
쉬운 설명:
이 논문은 그림을 그릴 때, 캔버스 전체에 자잘하게 점을 찍어 그리는 방식이 아닌, 전체적인 밑그림 (low resolution) 부터 그리고 점점 디테일하게 부분부분 고해상도로 그려나가는 방식과 유사하다고 볼 수 있습니다. 한번에 하나의 토큰을 예측하는 것이 아니라, 한번에 한 스케일(해상도)를 예측하며, 각 스케일 내에서는 병렬적으로 토큰을 생성합니다.
Visual Autoregressive Modeling (VAR) 학습 노트
Purpose of the Paper
- 기존 문제: 기존 image autoregressive (AR) models은 raster-scan "next-token prediction" 방식을 사용하여, bidirectional correlations, spatial locality degradation, inefficiency 등의 문제가 있었음.
- 새로운 접근 방식: Coarse-to-fine "next-scale prediction" (또는 "next-resolution prediction")을 통해, GPT-style AR models의 image generation 성능을 향상시키고 scalability와 zero-shot generalization 능력을 확보하고자 함.
- 기존 연구와 차별성: "next-scale prediction" 개념을 도입. GPT Style AR Model이 Diffusion Transformer을 능가하게 하는 방법론 제시.
Key Contributions
- Contribution 1: Visual Autoregressive (VAR) Modeling Framework:
- Multi-scale autoregressive paradigm with next-scale prediction.
- Image를 multi-scale token maps으로 autoregressively generate (coarse to fine).
- Parallel token generation within each scale.
- Multi-scale VQVAE 사용.
- Novelty: "Next-scale prediction"이라는 새로운 AR learning paradigm for images 제시.
- Contribution 2: Scaling Laws & Zero-shot Generalization:
- VAR models에서 LLMs와 유사한 Scaling Laws 검증.
- Zero-shot generalization (image in-painting, out-painting, editing) 가능성 확인.
- Novelty: Visual autoregressive models에서 Scaling Laws 및 zero-shot generalization을 empirically validation.
- Contribution 3: Performance Breakthrough:
- GPT-style autoregressive methods가 image synthesis에서 strong diffusion models를 능가.
- Novelty: AR models이 diffusion models보다 image generation 성능이 뛰어날 수 있음을 최초로 입증.
- Contribution 4: Open-source Code:
- VQ tokenizer 및 autoregressive model training pipelines 공개.
- Novelty: Visual autoregressive learning 발전을 위한 comprehensive open-source code suite 제공.
Experimental Highlights
- Datasets: ImageNet 256x256 and 512x512 conditional generation benchmarks.
- Metrics: Fréchet inception distance (FID), inception score (IS), precision, recall.
- Baselines: VQGAN, ViT-VQGAN, RQ-Transformer, Diffusion Transformer (DiT), L-DiT.
- Results:
- ImageNet 256x256: VAR (2B parameters) achieves FID of 1.73, IS of 350.2, with 20x faster inference speed compared to AR baseline.
- VAR outperforms DiT in FID/IS, data efficiency, inference speed, and scalability.
- Scaling up VAR models exhibits clear power-law scaling laws (linear correlation coefficients near -0.998).
- VAR shows zero-shot generalization ability in downstream tasks.
Limitations and Future Work
- Limitations:
- VQVAE architecture 및 training은 baseline [30]을 따름 (tokenizer 개선 여지).
- Text-prompt generation 미구현.
- Video generation 미구현
- Future Work:
- Advancing VQVAE tokenizer (e.g., [99, 59, 95]) for further performance improvement.
- Integrating VAR with LLMs for text-to-image generation.
- Extending VAR to video generation via "3D next-scale prediction".
- VAR models in the realm of video generation explorate.
Abstract
우리는 coarse-to-fine "next-scale prediction" 또는 "next-resolution prediction"으로 images에 대한 autoregressive learning을 재정의하는 새로운 generation paradigm인 Visual AutoRegressive modeling (VAR)을 제시하며, 이는 표준 raster-scan "next-token prediction"과는 다릅니다. 이 간단하고 직관적인 방법론은 autoregressive (AR) transformers가 visual distributions을 빠르게 학습하고 잘 일반화할 수 있도록 합니다. VAR은 처음으로 GPT-style AR models이 image generation에서 diffusion transformers를 능가하게 만듭니다.
ImageNet 256×256 benchmark에서 VAR은 Fréchet inception distance (FID)를 18.65에서 1.73으로, inception score (IS)를 80.4에서 350.2로 개선하고, inference speed는 20배 더 빠르게 하여 AR baseline을 크게 개선합니다. 또한 VAR이 image quality, inference speed, data efficiency, scalability를 포함한 여러 차원에서 Diffusion Transformer (DiT)보다 성능이 우수하다는 것을 경험적으로 확인했습니다.
VAR models을 scaling up하면 LLMs에서 관찰되는 것과 유사한 명확한 power-law scaling laws을 보이며, linear correlation coefficients는 -0.998에 가깝습니다. VAR은 image in-painting, out-painting, editing을 포함한 downstream tasks에서 zero-shot generalization 능력을 보여줍니다. 이러한 결과는 VAR이 LLMs의 두 가지 중요한 속성인 Scaling Laws와 zero-shot generalization을 에뮬레이트했음을 시사합니다. 우리는 visual generation과 unified learning을 위한 AR/VAR models의 탐구를 촉진하기 위해 모든 models과 codes를 공개했습니다.
주요 용어 정리
- coarse-to-fine: 이미지 생성 과정에서 처음에는 대략적인(coarse) 형태를 만들고 점차 세밀한(fine) 부분을 추가하는 방식입니다. 저해상도에서 시작해 고해상도로 진행하는 방식과 유사합니다.
- next-scale prediction, next-resolution prediction: VAR 모델의 핵심 아이디어로, 다음 해상도(scale/resolution)의 이미지를 예측하는 방식으로 학습합니다. 기존의 "다음 토큰"을 예측하는 방식에서 벗어나, 더 큰 그림을 보도록 유도합니다.
- 표준 raster-scan "next-token prediction": 이미지를 왼쪽 위에서 오른쪽 아래로 훑으면서(raster-scan), 다음에 올 픽셀(token)을 예측하는 전통적인 autoregressive 모델의 방식입니다.
- Fréchet inception distance (FID): 생성된 이미지의 품질을 평가하는 지표 중 하나입니다. 낮을수록 실제 이미지 분포와 가깝다는 의미입니다.
- inception score (IS): 생성된 이미지의 품질과 다양성을 평가하는 지표입니다. 높을수록 좋습니다.
- scalability: 모델의 확장성. 모델의 크기를 키웠을 때 성능이 얼마나 향상되는지를 나타냅니다.
- VAR models을 scaling up하다: VAR 모델의 크기(파라미터 수, 레이어 수 등)를 늘리는 것을 의미합니다.
- power-law scaling laws: 모델 크기, 데이터셋 크기, 연산량 등의 요소가 증가함에 따라 모델 성능이 특정 거듭제곱 법칙(power-law)을 따르며 향상되는 현상입니다. LLMs에서 주로 관찰됩니다.
- linear correlation coefficients: 선형 상관 계수. 두 변수 간의 선형 상관 관계의 강도와 방향을 나타냅니다. -1(완벽한 음의 상관관계)에서 +1(완벽한 양의 상관관계) 사이의 값을 가지며, 0은 선형 상관관계가 없음을 의미합니다.
- Scaling Laws: 모델 크기, 데이터셋 크기 등과 성능 간의 관계를 나타내는 법칙입니다.
- zero-shot generalization: 별도의 fine-tuning 없이 새로운 task에 대해 일반화하는 능력입니다.
- unified learning: 다양한 task와 modality를 아우르는 범용적인 학습 방식을 의미합니다.
- Generalizability (일반화 능력): 모델이 학습 데이터에 없었던 새로운 task나 데이터에 대해서도 잘 작동하는 능력을 의미합니다.
- Hallucinations: LLMs (Large Language Models)에서, 모델이 사실이 아니거나 무의미한 내용을 생성하는 현상을 말합니다.
- Image In-painting: 이미지의 손상되거나 누락된 부분을 채워넣는 작업을 의미합니다.
- Image Out-painting: 이미지의 경계 바깥 영역을 확장하여 자연스럽게 이어지는 내용을 생성하는 작업을 의미합니다.
- Image Editing: 이미지의 색상, 스타일, 객체 추가/제거 등 다양한 수정을 가하는 작업을 포괄적으로 의미합니다.
- VQ tokenizer: (Vector Quantized tokenizer) 연속적인 이미지 데이터를 이산적인(discrete) token sequence로 변환하는 도구로, VQ-VAE, VQGAN 등에서 사용됩니다.
- Power-law 관계: 한 변수가 다른 변수의 거듭제곱에 비례하여 변화하는 관계를 의미하며, 모델 크기나 데이터셋 크기가 증가함에 따라 모델 성능이 특정 지수 법칙을 따르며 향상되는 현상을 설명하는 데 사용됩니다.
- Resource allocation: 사용 가능한 자원(컴퓨팅 파워, 시간, 비용 등)을 효율적으로 분배하고 할당하는 것을 의미합니다.
- Vision community: Computer vision 분야의 연구자, 엔지니어, 관련 종사자들을 통칭하는 말입니다.
- Adaptive Normalization (AdaLN): Layer normalization의 변형으로, normalization parameters (scale 및 bias)를 external condition (예: class label, text embedding)에 따라 dynamically하게 조절하는 기법입니다.
- Class-conditional Synthesis: 생성 모델(generative model)이 특정 class label에 해당하는 이미지를 생성하도록 제어하는 방법입니다. (예: "고양이" class에 해당하는 이미지 생성)
- Start Token: Autoregressive model에서 sequence 생성을 시작하기 위해 주어지는 특별한 token입니다. (예: 문장 생성에서 문장의 시작을 알리는 토큰)
- Rotary Position Embedding (RoPE): Transformer 모델에서 sequence 내 token들의 relative position 정보를 encoding하는 방법 중 하나로, sinusoidal embedding 대신 rotation matrix를 사용합니다.
- Sinusoidal Embedding: Transformer에서 sequence 내 token들의 position 정보를 나타내기 위해, sine 및 cosine 함수를 사용하여 각 position에 대한 고유한 embedding vector를 생성하는 방식입니다.
- Rotation Matrix: Vector를 회전시키는 linear transformation을 나타내는 행렬로, RoPE에서는 sinusoidal embedding 대신 query와 key vector를 회전시켜 relative position 정보를 encoding합니다.
VAR의 핵심 아이디어:
- Autoregressive Image Generation의 재정의: 기존의 픽셀 단위(token) "next-token prediction" (raster-scan 방식) 대신, 이미지의 해상도/스케일(scale/resolution)을 점진적으로 높여가는 "next-scale/resolution prediction" 방식으로 autoregressive image generation을 재정의했습니다.
- Coarse-to-fine 접근: 저해상도의 대략적인 이미지 구조(coarse)에서 시작하여 점차 고해상도의 세부적인 디테일(fine)을 추가하는 방식으로 이미지를 생성합니다.
기존 Raster-scan 방식과의 차이점:
- Raster-scan: 이미지를 왼쪽 위부터 오른쪽 아래로 한 픽셀씩 순차적으로 생성합니다. 이 방식은 이미 생성된 픽셀들에만 의존하기 때문에, 이미지 전체의 맥락을 고려하기 어렵습니다.
- VAR: 전체적인 이미지 구조를 먼저 파악하고, 이를 바탕으로 점차 디테일을 추가하기 때문에 이미지 전체의 일관성과 맥락을 더 잘 파악할 수 있습니다.
VAR의 장점:
- 성능 향상: FID, IS와 같은 이미지 생성 품질 지표에서 기존 autoregressive 모델 및 diffusion transformer (DiT)를 능가하는 성능을 보였습니다.
- 효율성: Inference 속도가 빠르고, 데이터 효율성이 높습니다.
- Scalability: LLM과 유사하게, 모델 크기를 scaling up함에 따라 성능이 power-law scaling laws를 따르며 향상됩니다.
- Zero-shot Generalization: Image in-painting, out-painting, editing과 같은 downstream task에서 별도의 fine-tuning 없이도 좋은 성능을 보입니다.
정리:
VAR은 "next-scale/resolution prediction"이라는 새로운 방식으로 autoregressive image generation을 수행하여, 기존의 raster-scan 방식보다 이미지 전체의 맥락을 더 잘 고려하고, 성능, 효율성, 확장성 측면에서 뛰어난 결과를 보여줍니다. 또한, LLM의 특징인 scaling laws와 zero-shot generalization 능력을 보여줌으로써, visual generation 분야에서 LLM의 성공을 재현할 가능성을 제시합니다.
Figure 2: Standard autoregressive modeling (AR) vs. our proposed visual autoregressive modeling (VAR).
(a) AR applied to language: 왼쪽에서 오른쪽으로, 단어 단위로 순차적인 텍스트 토큰을 생성합니다.
(b) AR applied to images: 왼쪽에서 오른쪽, 위에서 아래로 raster-scan 순서로 순차적인 visual token을 생성합니다.
(c) VAR for images: Coarse scale(낮은 해상도)에서 fine scale(높은 해상도)로 multi-scale token maps을 autoregressively하게 생성하며, 각 scale 내에서는 parallel token generation을 수행합니다. VAR은 multi-scale VQVAE를 필요로 합니다.
1 Introduction
GPT 시리즈와 더 많은 autoregressive (AR) large language models (LLMs)의 출현은 artificial intelligence 분야에 새로운 시대를 열었습니다. 이러한 models은 hallucinations와 같은 문제에도 불구하고 일반 인공 지능(AGI)을 향한 견고한 발걸음으로 여겨지는, 일반성과 다양성에서 유망한 지능을 보여줍니다.
이러한 models의 핵심에는 sequence에서 다음 token을 예측하는 self-supervised learning 전략이 있습니다. 이는 단순하지만 심오한 접근 방식입니다. 이러한 대규모 AR models의 성공에 대한 연구는 scalability와 generalizabilty를 강조합니다. scalability는 scaling laws에 의해 예시되듯이, 더 작은 models에서 큰 model의 성능을 예측할 수 있게 해주어 더 나은 리소스 할당을 안내하고, generalizabilty는 zero-shot 및 few-shot learning으로 입증되듯이 unsupervised-trained models이 다양하고 보이지 않는 tasks에 적응할 수 있음을 강조합니다. 이러한 속성은 AR models이 레이블이 지정되지 않은 방대한 데이터로부터 학습하여 "AGI"의 본질을 포착하는 잠재력을 보여줍니다.
이와 동시에, computer vision 분야는 인상적인 scalability와 generalizability를 에뮬레이트하기 위해 대규모 autoregressive 또는 world models를 개발하기 위해 노력해 왔습니다. VQGAN 및 DALL-E와 그 후속 모델들과 같은 선구적인 노력은 image generation에서 AR models의 잠재력을 보여주었습니다. 이러한 models은 visual tokenizer를 활용하여 연속적인 이미지를 2D tokens의 grids로 이산화한 다음, 1D sequence로 flatten하여 AR learning을 수행합니다(Fig. 2 b). 이는 sequential language modeling의 프로세스를 반영합니다(Fig. 2 a). 그러나 이러한 models의 scaling laws는 아직 충분히 연구되지 않았으며, 더 안타깝게도 Fig. 3에서 볼 수 있듯이 성능이 diffusion models에 비해 크게 뒤떨어집니다. LLMs의 놀라운 성과와는 대조적으로, computer vision에서 autoregressive models의 힘은 다소 제한적인 것으로 보입니다.
Autoregressive modeling은 데이터의 순서를 정의해야 합니다. 우리의 연구는 이미지를 "정렬"하는 방법을 다시 고려합니다. 인간은 일반적으로 이미지를 계층적 방식으로 인식하거나 생성하며, 먼저 global structure를 파악한 다음 local details를 파악합니다. 이러한 multi-scale, coarse-to-fine 특성은 이미지에 대한 "순서"를 제안합니다. 또한 널리 사용되는 multi-scale designs에서 영감을 받아, Fig. 2 (b)의 기존 "next-token prediction"과 달리 Fig. 2 (c)에서와 같이 이미지에 대한 autoregressive learning을 "next-scale prediction"으로 정의합니다.
우리의 접근 방식은 이미지를 multi-scale token maps으로 encoding하는 것으로 시작합니다. 그런 다음 autoregressive process는 1x1 token map에서 시작하여 점진적으로 해상도를 확장합니다. 각 단계에서 transformer는 이전의 모든 token maps을 조건으로 하여 다음 higher-resolution token map을 예측합니다. 우리는 이 방법론을 Visual AutoRegressive (VAR) modeling이라고 부릅니다.
VAR은 visual autoregressive learning을 위해 GPT-2와 유사한 transformer architecture를 직접 활용합니다. ImageNet 256×256 benchmark에서 VAR은 AR baseline을 크게 개선하여 1.73의 Fréchet inception distance (FID)와 350.2의 inception score (IS)를 달성했으며, inference speed는 20배 더 빠릅니다(자세한 내용은 Sec. 7 참조). 특히 VAR은 Stable Diffusion 3.0 및 SORA와 같은 주요 diffusion systems의 기반인 Diffusion Transformer (DiT)를 FID/IS, data efficiency, inference speed, scalability 측면에서 능가합니다. VAR models은 또한 LLMs에서 목격된 것과 유사한 scaling laws를 나타냅니다. 마지막으로, 우리는 image in-painting, out-painting, editing과 같은 tasks에서 VAR의 zero-shot generalization 능력을 보여줍니다.
요약하면, 우리의 커뮤니티에 대한 기여는 다음과 같습니다:
- Next-scale prediction을 사용하는 multi-scale autoregressive paradigm을 사용하는 새로운 visual generative framework로, computer vision을 위한 autoregressive algorithm design에 대한 새로운 통찰력을 제공합니다.
- VAR models의 Scaling Laws 및 zero-shot generalization 잠재력에 대한 경험적 검증은, large language models (LLMs)의 매력적인 속성을 에뮬레이트합니다.
- Visual autoregressive model 성능의 획기적인 발전으로, GPT-style autoregressive methods가 처음으로 image synthesis에서 강력한 diffusion models를 능가하게 만들었습니다.
- Visual autoregressive learning의 발전을 돕기 위해 VQ tokenizer와 autoregressive model training pipelines을 모두 포함하는 포괄적인 open-source code suite입니다.
--------따로 정리------
1. VQGAN (Vector Quantized Generative Adversarial Network):
- 역할: VQGAN은 이미지를 discrete latent space(이산 잠재 공간)로 압축하는 역할을 합니다. 즉, 고화질 이미지를 저차원의 "codebook"으로 표현하는 방법을 학습합니다.
- 구성 요소:
- Encoder: 이미지를 입력받아 latent space의 vector sequence로 변환합니다.
- Codebook: 학습된 vector들의 집합으로, 이미지의 특징을 나타내는 일종의 "vocabulary" 역할을 합니다.
- Decoder: Codebook의 vector sequence를 입력받아 다시 이미지로 복원합니다.
- Discriminator: (GAN의 일부) 생성된 이미지와 실제 이미지를 구별하여, 생성된 이미지가 더 실제처럼 보이도록 학습을 유도합니다.
- AR과의 관련성: VQGAN 자체는 GAN(Generative Adversarial Network) 기반이지만, codebook을 통해 이미지를 discrete token sequence로 표현한다는 점에서 Autoregressive 모델(DALL-E 등)과 함께 사용될 수 있습니다.
2. DALL-E:
- 역할: 텍스트 설명을 입력받아 해당 설명에 맞는 이미지를 생성합니다.
- 핵심 구성 요소:
- Text Encoder: 텍스트 설명을 입력받아 latent representation으로 변환합니다.
- Prior: Text representation을 image representation으로 변환합니다 (DALL-E 2에서 사용).
- Image Decoder: (VQGAN 또는 다른 이미지 생성 모델) Image representation을 기반으로 이미지를 생성합니다.
- Autoregressive Transformer: DALL-E의 핵심 부분으로, text token sequence와 image token sequence를 함께 입력받아 다음에 올 image token을 예측하는 방식으로 학습됩니다.
- AR Model인 이유:
- DALL-E는 text token sequence를 먼저 처리한 후, 이전에 생성된 image token들과 text representation을 바탕으로, raster-scan 순서로 다음 image token을 예측합니다.
- 이러한 순차적인 "next-token prediction" 방식이 Autoregressive 모델의 정의에 부합합니다.
Figure 3: ImageNet 256×256 generation benchmark에서 다양한 model families의 scaling behavior.
Validation set의 FID는 참고 lower bound (1.78) 역할을 합니다. 2B parameters를 가진 VAR은 1.73의 FID에 도달하여, 3B 또는 7B parameters를 가진 L-DiT를 능가합니다.
VAR 논문 Introduction 정리 노트 (AI 연구자 대상)
핵심: Image generation에서 autoregressive (AR) models의 잠재력을 최대한 활용하기 위한 새로운 접근 방식인 Visual Autoregressive (VAR) modeling을 제시합니다.
기존 연구의 문제점:
- Computer vision 분야에서 AR models은 language modeling 분야의 LLMs만큼 큰 성공을 거두지 못했습니다.
- Image generation에서 AR models의 성능은 diffusion models에 비해 크게 뒤떨어집니다.
- 기존 AR image generation models (VQGAN, DALL-E 등)은 raster-scan 방식으로 이미지를 처리하여 이미지 전체의 구조와 맥락을 파악하기 어려웠습니다.
- AR image generation models의 scaling laws에 대한 연구가 부족했습니다.
VAR의 제안:
- Next-scale prediction: 이미지를 coarse-to-fine 방식으로, 즉 낮은 해상도에서 높은 해상도로 점진적으로 생성하는 새로운 autoregressive learning 방식을 제안합니다 ("next-scale prediction").
- 이미지를 multi-scale token maps으로 encoding합니다.
- Autoregressive process는 가장 낮은 해상도(1x1)의 token map에서 시작하여, 점차 해상도를 높여가며 다음 단계의 token map을 예측합니다.
- 각 해상도 내에서는 parallel token generation을 수행합니다.
- GPT-2-like transformer architecture: Visual autoregressive learning을 위해 GPT-2와 유사한 transformer architecture를 직접 활용합니다.
VAR의 성과:
- ImageNet 256x256 benchmark:
- AR baseline을 크게 개선 (FID: 18.65 → 1.73, IS: 80.4 → 350.2).
- Inference speed가 20배 더 빠릅니다.
- Diffusion Transformer (DiT)를 여러 측면(FID/IS, data efficiency, inference speed, scalability)에서 능가합니다.
- Scaling Laws: LLMs에서 관찰되는 것과 유사한 power-law scaling laws를 보입니다.
- Zero-shot Generalization: Image in-painting, out-painting, editing 등의 task에서 별도 fine-tuning 없이도 좋은 성능을 보입니다.
기여:
- Computer vision을 위한 autoregressive algorithm design에 대한 새로운 통찰력을 제공하는, next-scale prediction 기반의 새로운 visual generative framework를 제시했습니다.
- VAR models의 Scaling Laws와 zero-shot generalization 잠재력을 실험적으로 검증하여, LLMs의 매력적인 특성을 visual generation 분야에서도 구현할 가능성을 제시했습니다.
- Visual autoregressive model 성능의 획기적인 발전을 이루어, GPT-style autoregressive methods가 image synthesis에서 처음으로 강력한 diffusion models를 능가하게 만들었습니다.
- Visual autoregressive learning의 발전을 돕기 위해 VQ tokenizer와 autoregressive model training pipelines을 모두 포함하는 포괄적인 open-source code suite를 제공합니다.
쉬운 설명:
기존의 문제점:
- 이미지 생성 분야에서 Autoregressive (AR) 모델은 자연어 처리(NLP) 분야의 Large Language Models (LLMs)만큼 큰 성공을 거두지 못했습니다.
- 기존 AR 모델(예: DALL-E)은 이미지를 왼쪽 위에서 오른쪽 아래로 한 픽셀씩 순차적으로 생성(raster-scan)했기 때문에, 이미지 전체의 구조나 조화를 고려하기 어려웠습니다.
VAR의 해결책:
- VAR은 이미지를 낮은 해상도에서 높은 해상도로 점진적으로 생성하는 새로운 방식을 제안합니다.
- 먼저 이미지를 여러 해상도의 "token maps"으로 표현합니다.
- 가장 낮은 해상도(예: 1x1)에서 시작하여, 점차 해상도를 높여가면서 다음 단계의 이미지를 예측합니다.
- 비유하자면, 그림을 그릴 때 처음에는 전체적인 윤곽을 스케치하고, 점차 세부적인 묘사를 추가하는 것과 비슷합니다.
- 이를 통해 이미지 전체의 구조와 맥락을 더 잘 파악하고, 더 자연스럽고 고품질의 이미지를 생성할 수 있습니다.
VAR의 성과:
- VAR은 기존 AR 모델보다 훨씬 뛰어난 성능을 보였으며, 심지어 diffusion models (예: Stable Diffusion)보다도 좋은 결과를 얻었습니다.
- LLMs처럼 모델 크기를 키울수록 성능이 꾸준히 향상되는 scaling laws를 보였습니다.
- 별도의 추가 학습 없이도 다양한 이미지 편집 작업(예: 그림의 일부를 채우거나, 그림을 확장하는 등)을 수행할 수 있었습니다.
결론:
VAR은 이미지 생성 분야에서 AR 모델의 잠재력을 최대한 활용하는 새로운 방법을 제시했습니다. LLM의 성공을 이미지 생성 분야에서도 재현할 수 있는 가능성을 열었다고 볼 수 있습니다.
조금 더 덧붙이자면,
- 기존 이미지 Autoregressive modeling의 문제점: 단순히 성능이 좋지 않았다는 것뿐만 아니라, raster-scan 방식으로 인해 이미지 전체의 구조와 맥락을 파악하기 어려웠다는 점도 중요합니다.
- 넥스트 스케일 예측 (Next-scale prediction): 1x1 해상도부터 시작하는 것은 맞지만, 단순히 해상도만 늘리는 것이 아니라, 각 해상도에서 "token map"을 예측하고, 이를 바탕으로 다음 단계의 더 높은 해상도의 "token map"을 예측하는 방식으로 진행됩니다. Coarse-to-fine 방식으로 이미지의 전체적인 구조에서 세부적인 디테일 순서로 생성해나갑니다.
- 성능: IS가 높고 FID가 낮다는 것은 생성된 이미지의 품질이 좋고(high quality), 다양성(diversity)도 높다는 것을 의미합니다.
- 제로샷 일반화(zero-shot generalization) 및 스케일링 법칙(scaling laws): 이 두 가지는 Large Language Models (LLMs)의 주요 특징인데, VAR 모델도 이를 보인다는 것은 visual generation 분야에서 LLM과 유사한 성공을 거둘 가능성을 시사합니다.
전체 내용을 다시 한번 간략하게 정리하면:
- 문제 제기: 기존 raster-scan 방식의 autoregressive image generation은 성능 및 이미지 전체 구조 파악에 한계가 있었다.
- 해결책 제시 (VAR): Next-scale prediction (coarse-to-fine) 방식의 새로운 visual autoregressive modeling (VAR)을 제안한다.
- 성과:
- FID, IS 등 성능 지표에서 기존 모델(AR, diffusion)을 능가.
- LLM과 유사하게 scaling laws를 따름.
- Zero-shot generalization 능력 확인.
- 의의: Visual generation 분야에서 LLM의 성공을 재현할 가능성을 제시.
2 Related Work
2.1 Properties of large autoregressive language models
Scaling laws는 autoregressive language models에서 발견되고 연구되었으며, 이는 model (또는 dataset, computation 등)의 scale과 test set에 대한 cross-entropy loss 값 사이의 power-law 관계를 설명합니다. Scaling laws를 통해 우리는 더 작은 model로부터 더 큰 model의 성능을 직접 예측할 수 있으므로 더 나은 resource allocation을 안내합니다. 더 기분 좋게도, LLMs의 성능은 model, data, computation의 증가에 따라 잘 확장될 수 있고 포화되지 않는다는 것을 보여주며, 이는 성공의 핵심 요소로 간주됩니다. Scaling laws가 가져온 성공은 vision community가 multimodality understanding 및 generation을 위해 더 유사한 methods를 탐구하도록 영감을 주었습니다.
Zero-shot generalization. Zero-shot generalization은 model, 특히 Large Language Model이 명시적으로 학습되지 않은 tasks를 수행하는 능력을 나타냅니다. Computer vision 영역 내에서, foundation models, CLIP, SAM, Dinov2의 zero-shot 및 in-context learning 능력에 대한 관심이 커지고 있습니다. Painter 및 LVM과 같은 혁신은 visual prompters를 확장하여 vision에서 in-context learning을 달성합니다.
2.2 Visual generation
Raster-scan autoregressive models for visual generation은 2D images를 1D token sequences로 encoding해야 합니다. 초기 노력들은 표준 row-by-row, raster-scan 방식으로 RGB (또는 그룹화된) pixels를 생성하는 능력을 보여주었습니다. 는 super-resolution을 반복적으로 수행하기 위해 여러 독립적인 trainable networks를 사용하여 를 확장합니다. VQGAN은 VQVAE의 latent space에서 autoregressive learning을 수행하여 를 발전시킵니다. ViT가 2D images를 1D patches로 직렬화하는 방식과 같이 raster-scan 순서로 tokens를 생성하기 위해 GPT-2 decoder-only transformer를 사용합니다. VQVAE-2 및 RQ-Transformer는 또한 이 raster-scan 방식을 따르지만 추가 scales 또는 stacked codes를 사용합니다. ViT-VQGAN의 architecture를 기반으로 하는 Parti는 transformer를 20B parameters로 scaling하고 text-to-image synthesis에서 잘 작동합니다.
Masked-prediction model. MaskGIT는 VQ autoencoder와 BERT와 유사한 masked prediction transformer를 사용하여 greedy algorithm을 통해 VQ tokens를 생성합니다. MagViT는 이 접근 방식을 videos에 적용하고, MagViT-2는 images와 videos 모두를 위해 개선된 VQVAE를 도입하여 를 개선합니다. MUSE는 MaskGIT를 3B parameters로 scaling합니다.
Diffusion models의 발전은 개선된 learning 또는 sampling, guidance, latent learning, architectures를 중심으로 이루어졌습니다. DiT 및 U-ViT는 U-Net을 transformer로 대체하거나 통합하고, Stable Diffusion 3.0, SORA, Vidu를 포함한 최근 image 또는 video synthesis systems에 영감을 줍니다.
VAR 논문 Related Work 정리 노트 (AI 연구자 대상)
핵심: 이 섹션에서는 기존 visual generation 연구의 흐름을 짚어보면서, VAR 모델이 어떤 점에서 기존 연구와 차별화되는지, 그리고 왜 VAR 방식이 더 우수한 접근 방식인지를 강조하기 위한 배경 지식을 제공합니다.
1. Large Autoregressive Language Models (LLMs)의 특성:
- Scaling Laws:
- LLMs 연구에서 밝혀진 핵심 원리.
- Model/data/computation scale과 성능 간의 power-law 관계를 설명.
- VAR에의 시사점: VAR 모델도 LLMs처럼 scaling laws를 따를 가능성을 제시 (실제로 따름을 실험적으로 증명).
- Zero-shot Generalization:
- LLMs의 중요한 능력 중 하나 (별도 training 없이 새로운 task 수행).
- VAR에의 시사점: VAR 모델도 zero-shot generalization 능력을 가질 가능성을 제시 (실제로 image in-painting, out-painting 등에서 확인).
2. Visual Generation 기존 연구:
- Raster-scan Autoregressive Models:
- 초기 연구들은 raster-scan 방식으로 이미지를 생성 (픽셀 단위).
- VQGAN은 VQVAE의 latent space에서 AR learning을 수행, GPT-2 decoder-only transformer 사용.
- VQVAE-2, RQ-Transformer, Parti 등은 raster-scan 방식을 따르면서 scale을 키우거나 stacked codes를 사용하는 등의 개선을 시도.
- VAR과의 차별점: VAR은 raster-scan 방식이 아닌, "next-scale prediction" 방식을 사용.
- Masked-prediction Model:
- MaskGIT는 VQ autoencoder와 masked prediction transformer (BERT와 유사) 사용.
- MagViT, MagViT-2, MUSE 등이 MaskGIT를 발전시킴.
- VAR과의 관계: Masked prediction models과 직접적인 비교는 없지만, VQ 기반이라는 점에서는 유사.
- Diffusion Models:
- Image/video synthesis 분야에서 state-of-the-art.
- DiT, U-ViT는 U-Net을 transformer로 대체/통합.
- Stable Diffusion 3.0, SORA, Vidu 등이 DiT 기반.
- VAR과의 관계: VAR은 성능, 효율성, scalability 측면에서 diffusion models (DiT)를 능가함을 강조.
정리:
이 섹션은 LLMs의 성공 요인(scaling laws, zero-shot generalization)을 언급하며, visual generation 분야에서도 이러한 특성을 가진 모델을 개발하고자 하는 동기를 부여합니다. 기존 visual generation 연구(raster-scan AR models, masked-prediction models, diffusion models)를 간략하게 소개하면서, VAR 모델이 기존 연구들과 어떤 차별점을 가지는지(next-scale prediction), 그리고 왜 더 우수한 접근 방식인지(diffusion models 능가)를 강조하기 위한 배경을 설정합니다.
쉬운 설명:
LLMs의 성공 비결:
- Scaling Laws: 모델 크기를 키우면 성능도 예측 가능하게 좋아진다!
- Zero-shot Generalization: 따로 안 가르쳐줘도 새로운 일을 잘 한다!
Visual Generation 분야의 기존 연구:
- Raster-scan AR Models: 이미지를 픽셀 단위로 순서대로 생성 (예: VQGAN, DALL-E).
- Masked-prediction Models: 이미지의 일부를 가리고 맞추는 방식으로 학습 (예: MaskGIT).
- Diffusion Models: 노이즈를 제거하면서 이미지를 생성 (예: Stable Diffusion, SORA).
VAR은 뭐가 다른가?:
- Raster-scan 방식 대신 "next-scale prediction" 방식 사용: 저해상도에서 고해상도로 점진적으로 이미지를 생성.
- Diffusion Models보다 더 좋음 (여러 면에서): 성능, 효율성, 확장성 등.
- LLM의 장점을 이미지 생성에도 적용하고자 함!
결론적으로:
이 섹션에서는 "LLM처럼 잘 되는 이미지 생성 모델을 만들어보자!"라는 VAR 논문의 목표를 설정하고, 기존 연구들을 간단히 소개하면서 VAR이 어떤 점에서 더 나은 방법인지를 어필하기 위한 밑밥을 까는 부분입니다.
3 Method
3.1 Preliminary: autoregressive modeling via next-token prediction
Formulation. V 크기의 vocabulary에서 xt ∈ [V]인 discrete tokens의 sequence x = (x1, x2, ..., xT)를 고려합니다. Next-token autoregressive는 현재 token xt를 관찰할 확률이 prefix (x1, x2, ..., xt-1)에만 의존한다고 가정합니다. 이 unidirectional token dependency 가정은 sequence x의 likelihood를 다음과 같이 분해할 수 있게 합니다:
p(x1, x2, ..., xT) = Π(t=1 to T) p(xt | x1, x2, ..., xt-1). (1)
Autoregressive model pθ를 training하는 것은 dataset에 대해 pθ(xt | x1, x2, ..., xt-1)를 최적화하는 것을 포함합니다. 이것은 "next-token prediction"으로 알려져 있으며, trained pθ는 new sequences를 generate할 수 있습니다.
Tokenization. Images는 본질적으로 2D continuous signals입니다. Next-token prediction을 통해 images에 autoregressive modeling을 적용하려면 다음을 수행해야 합니다. 1) image를 여러 개의 discrete tokens로 tokenize하고, 2) unidirectional modeling을 위해 tokens의 1D order를 정의합니다.
1)을 위해, 와 같은 quantized autoencoder는 image feature map f ∈ R^(h×w×C)를 discrete tokens q ∈ [V]^(h×w)로 변환하는 데 자주 사용됩니다:
f = E(im), q = Q(f), (2)
여기서 im은 raw image, E(·)는 encoder, Q(·)는 quantizer를 나타냅니다. Quantizer는 일반적으로 V vectors를 포함하는 learnable codebook Z ∈ R^(V×C)를 포함합니다. Quantization process q = Q(f)는 각 feature vector f^(i,j)를 Euclidean 거리에서 가장 가까운 code의 code index q^(i,j)에 매핑합니다:
q^(i,j) = arg min(v∈[V]) ||lookup(Z, v) - f^(i,j)||^2 ∈ [V], (3)
여기서 lookup(Z, v)는 codebook Z에서 v번째 vector를 가져오는 것을 의미합니다. Quantized autoencoder를 training하기 위해, 모든 q^(i,j)에 의해 Z를 lookup하여 원래 f의 근사치인 fˆ를 얻습니다. 그런 다음 decoder D(·)를 사용하여 새 image imˆ을 reconstruct하고, compound loss L을 최소화합니다:
fˆ = lookup(Z, q), imˆ = D(fˆ), (4)
L = ||im - imˆ||^2 + ||f - fˆ||^2 + λPLP(imˆ) + λGLG(imˆ), (5)
여기서 LP(·)는 LPIPS와 같은 perceptual loss, LG(·)는 StyleGAN의 discriminator loss와 같은 discriminative loss, λP와 λG는 loss weights입니다. Autoencoder {E, Q, D}가 완전히 trained되면, 이후 unidirectional autoregressive model의 training을 위해 images를 tokenize하는 데 사용됩니다.
q ∈ [V]^(h×w)의 image tokens는 2D grid로 배열됩니다. 고유한 left-to-right ordering이 있는 natural language sentences와 달리, image tokens의 order는 unidirectional autoregressive learning을 위해 명시적으로 정의되어야 합니다. 이전 AR methods는 row-major raster scan, spiral, z-curve order와 같은 전략을 사용하여 q의 2D grid를 1D sequence x = (x1, ..., xh×w)로 flatten합니다. 일단 flatten되면, dataset에서 a set of sequences x를 추출한 다음, next-token prediction을 통해 (1)의 likelihood를 최대화하도록 autoregressive model을 training할 수 있습니다.
Discussion on the weakness of vanilla autoregressive models. Tokenizing 및 flattening의 위 접근 방식은 images에 대한 next-token autoregressive learning을 가능하게 하지만, 몇 가지 문제를 야기합니다:
- Mathematical premise violation. Quantized autoencoders (VQVAEs)에서 encoder는 일반적으로 모든 i, j에 대해 상호 의존적인 feature vectors f^(i,j)를 갖는 image feature map f를 생성합니다. 따라서 quantization 및 flattening 후, token sequence (x1, x2, ..., xh×w)는 bidirectional correlations를 유지합니다. 이는 각 token xt가 prefix (x1, x2, ..., xt-1)에만 의존해야 한다고 규정하는 autoregressive models의 unidirectional dependency 가정과 모순됩니다.
- Inability to perform some zero-shot generalization. 1)과 유사하게, image autoregressive modeling의 unidirectional 특성은 bidirectional reasoning이 필요한 tasks에서 generalizability를 제한합니다. 예를 들어, 이미지의 아래 부분이 주어졌을 때 위쪽 부분을 예측할 수 없습니다.
- Structural degradation. Flattening은 image feature maps에 내재된 spatial locality를 파괴합니다. 예를 들어, token q^(i,j)와 4개의 immediate neighbors q^(i±1,j), q^(i,j±1)는 근접성으로 인해 밀접하게 연관되어 있습니다. 이 spatial relationship은 linear sequence x에서 손상되며, 여기서 unidirectional constraints는 이러한 correlations를 감소시킵니다.
- Inefficiency. Conventional self-attention transformer를 사용하여 image token sequence x = (x1, x2, ..., xn×n)를 생성하면 O(n^2) autoregressive steps와 O(n^6) computational cost가 발생합니다.
2)와 3)은 명백합니다(위의 예 참조). 1)과 관련하여, 부록 A에 경험적 증거를 제시합니다. 3)의 증명은 부록 B에 자세히 설명되어 있습니다. 이러한 이론적 및 실제적 한계는 image generation의 맥락에서 autoregressive models에 대한 재고를 요구합니다.
핵심: 이 절에서는 기존의 next-token prediction 기반 autoregressive modeling의 작동 방식과 이미지에 적용했을 때의 문제점을 설명하여, VAR의 새로운 접근 방식(next-scale prediction)의 필요성을 강조합니다.
1. Autoregressive Modeling (Next-Token Prediction):
- 기본 원리: Sequence x = (x1, ..., xT)의 확률을 다음과 같이 분해:
- p(x) = Π p(xt | x1, ..., xt-1)
- 즉, 각 token xt의 확률은 이전 token들(prefix)에만 의존.
- 학습: Dataset에 대해 pθ(xt | x1, ..., xt-1)를 최적화 (next-token prediction).
2. Image에 Autoregressive Modeling 적용 (Next-Token Prediction):
- 필요한 단계:
- Tokenization: Image를 discrete tokens로 변환 (예: VQ-VAE 사용).
- 1D Ordering: 2D image token들을 1D sequence로 flatten (예: raster-scan).
- 과정 (VQ-VAE 사용 예시):
- Encoding: Image → feature map f (Encoder E).
- Quantization: f → discrete tokens q (Quantizer Q, Codebook Z).
- Decoding: q → reconstructed image (Decoder D).
- Loss: Reconstruction loss, perceptual loss, discriminative loss 등을 결합하여 최소화.
- Flattening: 2D token grid q를 1D sequence x로 변환 (raster-scan 등).
- Autoregressive Learning: x에 대해 next-token prediction 수행.
3. Vanilla Autoregressive Models (Next-Token Prediction)의 문제점:
- Mathematical Premise Violation:
- VQ-VAE encoder는 상호 의존적인 feature vector들을 생성.
- Flattening 후에도 token sequence는 bidirectional correlations를 유지.
- 이는 autoregressive model의 unidirectional dependency 가정과 모순.
- Inability to Perform Some Zero-shot Generalization:
- Unidirectional modeling은 bidirectional reasoning이 필요한 task에 취약 (예: 이미지 아래쪽 보고 위쪽 예측).
- Structural Degradation:
- Flattening은 image feature map의 spatial locality를 파괴.
- Unidirectional constraints는 인접 token 간의 correlations를 감소시킴.
- Inefficiency:
- Self-attention transformer 사용 시, O(n^2) autoregressive steps 및 O(n^6) computational cost 발생.
결론 (이 논문만의 핵심):
- 기존의 next-token prediction 방식은 이미지의 특성(2D, continuous)과 autoregressive model의 가정(unidirectional dependency) 사이에 불일치가 발생하여 여러 문제점을 야기한다.
- 이는 image generation을 위한 autoregressive models에 대한 새로운 접근 방식(VAR의 next-scale prediction)의 필요성을 시사한다.
쉬운 설명:
기존 Autoregressive Modeling (Next-Token Prediction):
- 원리: "다음 단어 예측"처럼, 이전 token들을 보고 다음 token을 예측하는 방식으로 작동.
- 이미지에 적용하려면?:
- 이미지 쪼개기 (Tokenization): 이미지를 작은 조각(token)들로 나누고, 각 조각을 특정한 "단어"(codebook index)로 표현. (예: VQ-VAE 사용)
- 순서 정하기 (1D Ordering): 2차원 조각들을 한 줄로 쭉 나열 (예: 왼쪽 위부터 오른쪽 아래로).
- 다음 조각 예측: 이전 조각들을 보고 다음 조각을 예측.
문제점:
- 억지스러운 가정:
- 이미지 조각들은 서로 연관되어 있는데, "다음 조각 예측"은 이전 조각들만 고려하고, 이후 조각들은 무시함. (잘못된 가정)
- 일부 작업 불가능:
- 이미지의 아래쪽 절반을 보고 위쪽 절반을 예측하는 것처럼, 양방향 추론이 필요한 작업은 수행 불가능.
- 이미지 구조 손상:
- 이미지를 한 줄로 펴면서, 원래 2차원 구조에서 가까이 있던 조각들 간의 관계가 깨짐.
- 비효율적:
- 계산량이 매우 많음.
결론:
- 기존의 "다음 조각 예측" 방식은 이미지에 잘 맞지 않는다.
- 그래서 VAR은 새로운 방식("다음 해상도 예측")을 제안한다!
Figure 4: VAR은 두 개의 분리된 training stages를 포함합니다.
Stage 1: multi-scale VQ autoencoder는 이미지를 K개의 token maps R = (r1, r2, ..., rK)로 encoding하고 compound loss (5)에 의해 training됩니다. "Multi-scale quantization" 및 "Embedding"에 대한 자세한 내용은 Algorithm 1과 2를 확인하십시오.
Stage 2: VAR transformer는 next-scale prediction (6)을 통해 training됩니다: ([s], r1, r2, ..., rK-1)을 input으로 받아 (r1, r2, r3, ..., rK)를 예측합니다. Attention mask는 training에서 각 rk가 r≤k에만 attend할 수 있도록 하는 데 사용됩니다. Standard cross-entropy loss가 사용됩니다.
3.2 Visual autoregressive modeling via next-scale prediction
Reformulation. 우리는 "next-token prediction"에서 "next-scale prediction" 전략으로 전환하여 images에 대한 autoregressive modeling을 재구성합니다. 여기서 autoregressive unit은 single token이 아닌 전체 token map입니다. 우리는 feature map f ∈ R^(h×w×C)를 K개의 multi-scale token maps (r1, r2, ..., rK)로 quantizing하는 것으로 시작합니다. 각 token map은 점진적으로 더 높은 resolution hk × wk를 가지며, rK는 original feature map의 resolution h × w와 일치합니다. Autoregressive likelihood는 다음과 같이 공식화됩니다:
p(r1, r2, ..., rK) = Π(k=1 to K) p(rk | r1, r2, ..., rk-1), (6)
여기서 각 autoregressive unit rk ∈ [V]^(hk×wk)는 hk × wk tokens를 포함하는 scale k의 token map이고, sequence (r1, r2, ..., rk-1)는 rk에 대한 "prefix" 역할을 합니다. k번째 autoregressive step 동안, rk의 hk × wk tokens에 대한 모든 distributions은 rk의 prefix 및 associated k-th position embedding map을 조건으로 하여 parallel하게 생성됩니다. 이 "next-scale prediction" 방법론은 Fig. 4의 오른쪽에 묘사된 visual autoregressive modeling (VAR)으로 정의됩니다. VAR training에서는 block-wise causal attention mask를 사용하여 각 rk가 prefix r≤k에만 attend할 수 있도록 합니다. Inference 중에는 kv-caching을 사용할 수 있으며 mask는 필요하지 않습니다.
Discussion. VAR은 이전에 언급된 세 가지 문제를 다음과 같이 해결합니다:
- 각 rk가 prefix에만 의존하도록 제한하면, 즉 rk를 얻는 process가 r≤k에만 관련되도록 하면 mathematical premise가 충족됩니다. 이 제약은 인간의 시각적 인식 및 예술적 드로잉과 같은 자연스러운 coarse-to-fine progression characteristics와 일치하므로 허용 가능합니다(Sec. 1에서 논의한 대로). 자세한 내용은 아래 Tokenization에 제공됩니다.
- (i) VAR에는 flattening operation이 없고 (ii) 각 rk의 tokens가 fully correlated되므로 spatial locality가 보존됩니다. Multi-scale design은 spatial structure를 추가로 강화합니다.
- n × n latent를 가진 image를 생성하기 위한 complexity가 O(n^4)로 크게 감소합니다(증명은 Appendix 참조). 이러한 효율성 향상은 각 rk에서 parallel token generation으로 인해 발생합니다.
Tokenization. 우리는 image를 K multi-scale discrete token maps R = (r1, r2, ..., rK)로 encoding하기 위해 새로운 multi-scale quantization autoencoder를 개발합니다. 이는 VAR learning (6)에 필요합니다. 우리는 VQGAN과 동일한 architecture를 사용하지만 수정된 multi-scale quantization layer를 사용합니다. f 또는 fˆ에 대한 residual design을 사용한 encoding 및 decoding procedures는 algorithms 1과 2에 자세히 설명되어 있습니다. 우리는 경험적으로 와 유사한 이 residual-style design이 independent interpolation보다 더 잘 수행될 수 있음을 발견했습니다. Algorithm 1은 각 rk가 prefix (r1, r2, ..., rk-1)에만 의존함을 보여줍니다. 모든 scales에서 공유 codebook Z가 활용되어 각 rk의 tokens가 동일한 vocabulary [V]에 속하도록 합니다. Zk를 hK × wK로 upscaling할 때 information loss를 해결하기 위해 K개의 extra convolution layers {ϕk}를 사용합니다. f를 hk × wk로 downsampling한 후에는 convolution이 사용되지 않습니다.
Algorithm 1: Multi-scale VQVAE Encoding
- Inputs: raw image im;
- Hyperparameters: steps K, resolutions (hk, wk) for k=1 to K;
- f = E(im), R = [];
- for k = 1, ..., K do
-
rk = Q(interpolate(f, hk, wk));
-
R = queue\_push(R, rk);
-
zk = lookup(Z, rk);
-
zk = interpolate(zk, hK, wK);
-
f = f - ϕk(zk);
- Return: multi-scale tokens R;
Algorithm 2: Multi-scale VQVAE Reconstruction
- Inputs: multi-scale token maps R;
- Hyperparameters: steps K, resolutions (hk, wk) for k=1 to K;
- fˆ = 0;
- for k = 1, ..., K do
-
rk = queue\_pop(R);
-
zk = lookup(Z, rk);
-
zk = interpolate(zk, hK, wK);
-
fˆ = fˆ + ϕk(zk);
- imˆ = D(fˆ);
- Return: reconstructed image imˆ;
Algorithm 1: Multi-scale VQVAE Encoding
1 Inputs: raw image im;
2 Hyperparameters: steps K, resolutions (hk, wk) for k=1 to K;
3 f = E(im), R = [];
4 for k = 1, ..., K do
5 rk = Q(interpolate(f, hk, wk));
6 R = queue_push(R, rk);
7 zk = lookup(Z, rk);
8 zk = interpolate(zk, hK, wK);
9 f = f - ϕk(zk);
10 Return: multi-scale tokens R;
- Inputs:
- im: Raw image (입력 이미지)
- Hyperparameters:
- K: 생성할 multi-scale token maps의 개수 (scale의 개수)
- (hk, wk) for k=1 to K: 각 scale (k)에 해당하는 token map의 resolution (height, width).
- h1 x w1은 가장 낮은 해상도 (예: 1x1).
- hK x wK는 가장 높은 해상도 (original feature map f와 동일).
- Line 3:
- f = E(im): Input image im을 encoder (E)에 통과시켜 feature map f를 얻습니다.
- R = []: Multi-scale token maps을 저장할 빈 리스트 R을 초기화합니다.
- Line 4 (Loop): k = 1부터 K까지 반복 (K개의 scale에 대해).
- Line 5:
- interpolate(f, hk, wk): Feature map f를 현재 scale (k)의 resolution (hk, wk)로 downsampling합니다. (Interpolation 사용)
- rk = Q(...): Downsampled feature map을 quantizer (Q)와 codebook (Z)를 사용하여 discrete token map rk로 변환합니다. (Quantization)
- Line 6:
- R = queue_push(R, rk): rk를 리스트 R의 끝에 추가합니다. (queue처럼 사용)
- Line 7:
- zk = lookup(Z, rk): rk의 각 token에 해당하는 code vector들을 codebook (Z)에서 lookup하여 zk를 얻습니다.
- Line 8:
- zk = interpolate(zk, hK, wK): zk를 가장 높은 해상도 (hK, wK)로 upsampling합니다. (Interpolation 사용)
- Line 9:
- f = f - ϕk(zk): Original feature map f에서 upsampled zk를 <ins>뺍니다</ins> (residual connection).
- ϕk: Learnable convolution layer. 각 scale (k)마다 다른 ϕk를 사용합니다.
- Residual Connection의 이유: 다음 scale (k+1)에서는 이전 scale (k)에서 놓친 residual information에 집중하도록 유도합니다.
- f = f - ϕk(zk): Original feature map f에서 upsampled zk를 <ins>뺍니다</ins> (residual connection).
- Line 5:
- Line 10:
- Return: multi-scale tokens R: K개의 multi-scale token maps R = (r1, r2, ..., rK)를 반환합니다.
Algorithm 2: Multi-scale VQVAE Reconstruction
1 Inputs: multi-scale token maps R;
2 Hyperparameters: steps K, resolutions (hk, wk) for k=1 to K;
3 fˆ = 0;
4 for k = 1, ..., K do
5 rk = queue_pop(R);
6 zk = lookup(Z, rk);
7 zk = interpolate(zk, hK, wK);
8 fˆ = fˆ + ϕk(zk);
9 imˆ = D(fˆ);
10 Return: reconstructed image imˆ;
- Inputs:
- R: Multi-scale token maps (Algorithm 1의 output).
- Hyperparameters:
- K: Scale의 개수 (Algorithm 1과 동일).
- (hk, wk) for k=1 to K: 각 scale (k)에 해당하는 token map의 resolution (Algorithm 1과 동일).
- Line 3:
- fˆ = 0: Reconstructed feature map fˆ를 0으로 초기화합니다.
- Line 4 (Loop): k = 1부터 K까지 반복 (K개의 scale에 대해).
- Line 5:
- rk = queue_pop(R): R에서 token map을 하나씩 꺼냅니다 (queue처럼 사용, Algorithm 1에서 넣은 순서의 반대 순서).
- 즉, 가장 높은 해상도의 token map (rK)부터 가장 낮은 해상도의 token map (r1) 순서로 처리합니다.
- rk = queue_pop(R): R에서 token map을 하나씩 꺼냅니다 (queue처럼 사용, Algorithm 1에서 넣은 순서의 반대 순서).
- Line 6:
- zk = lookup(Z, rk): rk의 각 token에 해당하는 code vector들을 codebook (Z)에서 lookup하여 zk를 얻습니다. (Algorithm 1과 동일)
- Line 7:
- zk = interpolate(zk, hK, wK): zk를 가장 높은 해상도 (hK, wK)로 upsampling합니다. (Algorithm 1과 동일)
- Line 8:
- fˆ = fˆ + ϕk(zk): Upsampled zk를 fˆ에 <ins>더합니다</ins>.
- ϕk: Learnable convolution layer (Algorithm 1과 동일).
- Residual Connection의 복원: Algorithm 1에서 뺐던 residual information을 다시 더해주는 과정입니다.
- fˆ = fˆ + ϕk(zk): Upsampled zk를 fˆ에 <ins>더합니다</ins>.
- Line 5:
- Line 9:
- imˆ = D(fˆ): Reconstructed feature map fˆ를 decoder (D)에 통과시켜 reconstructed image imˆ를 얻습니다.
- Line 10:
- Return: reconstructed image imˆ: Reconstructed image imˆ를 반환합니다.
핵심:
- Algorithm 1 (Encoding): 이미지를 multi-scale token maps으로 변환합니다.
- Downsampling, quantization, residual connection을 사용합니다.
- Algorithm 2 (Reconstruction): Multi-scale token maps으로부터 이미지를 복원합니다.
- Upsampling, residual connection 복원을 사용합니다.
- Residual Connection: Encoding 과정에서 각 scale에서 놓친 정보를 다음 scale에서 보완할 수 있도록 해주는 중요한 기법입니다.
핵심: 이 절에서는 VAR 모델의 핵심 아이디어인 "next-scale prediction"을 소개하고, 이를 통해 기존 autoregressive image generation의 문제점을 어떻게 해결하는지 설명합니다.
1. Reformulation (Next-Scale Prediction):
- 기존: Next-token prediction (autoresizing unit = single token)
- VAR: Next-scale prediction (autoregressive unit = entire token map)
- 이미지를 K개의 multi-scale token maps (r1, r2, ..., rK)로 표현.
- Autoregressive likelihood: p(r1, r2, ..., rK) = Π p(rk | r1, ..., rk-1)
- 각 scale의 token map (rk)은 이전 scale의 token maps (r1, ..., rk-1)에만 의존.
- rk 내의 모든 token들은 parallel하게 생성 (conditioned on rk의 prefix 및 k-th position embedding).
- Training: Block-wise causal attention mask를 사용하여 각 rk가 r≤k에만 attend하도록 제한.
- Inference: kv-caching 사용 가능, mask 불필요.
2. Discussion (VAR의 장점):
- Mathematical Premise Violation 해결:
- Next-scale prediction에서는 각 rk가 이전 scale의 token maps (r≤k)에만 의존하도록 제한.
- 이는 coarse-to-fine progression (인간의 시각, 그림 그리기 방식)과 일치.
- Structural Degradation 해결:
- Flattening operation 불필요 → spatial locality 보존.
- 각 rk 내 token들은 fully correlated.
- Multi-scale design은 spatial structure를 강화.
- Inefficiency 해결:
- Complexity: O(n^6) → O(n^4)로 감소 (Appendix B 참조).
- 각 rk 내에서 parallel token generation 덕분.
3. Tokenization (Multi-scale Quantization Autoencoder):
- 필요성: Next-scale prediction을 위해 이미지를 K개의 multi-scale discrete token maps으로 encoding.
- Architecture: VQGAN과 동일한 architecture, modified multi-scale quantization layer 사용.
- Encoding/Decoding (Algorithms 1 & 2):
- Residual-style design (f = f - ϕk(zk)).
- 각 scale에서 residual information을 추출하여 다음 scale에서 활용.
- Coarse-to-fine 방식으로 이미지를 표현하도록 유도 (명시적으로 언급되지는 않았지만, VQ loss 및 multi-scale structure를 통해 암시적으로 유도).
- Shared codebook Z 사용.
- Upscaling 시 information loss를 해결하기 위해 K개의 extra convolution layers {ϕk} 사용.
- Residual-style design (f = f - ϕk(zk)).
결론 (이 논문만의 핵심):
- VAR은 "next-scale prediction"이라는 새로운 autoregressive modeling 방식을 제안.
- Next-scale prediction은 기존 next-token prediction의 문제점(수학적 전제 위반, 구조적 손상, 비효율성)을 해결.
- Multi-scale quantization autoencoder를 사용하여 next-scale prediction에 필요한 multi-scale token maps을 생성.
- Residual connection을 통해 coarse-to-fine 방식으로 이미지를 표현.
쉬운 설명:
기존 방식 (Next-Token Prediction):
- 이미지를 픽셀 단위(token)로 쪼개고, 한 줄로 쭉 나열 (flattening).
- "다음 픽셀 예측" 방식으로 이미지를 생성.
- 문제점: 이미지의 2차원 구조가 깨지고, 멀리 떨어진 픽셀 간의 관계를 파악하기 어려움.
VAR 방식 (Next-Scale Prediction):
- 이미지를 여러 해상도의 "밑그림"(token maps)으로 표현.
- "다음 해상도 예측" 방식으로 이미지를 생성:
- 가장 낮은 해상도(1x1)의 밑그림부터 시작.
- 이전 해상도의 밑그림들을 바탕으로 다음 해상도의 밑그림을 예측.
- 점점 더 높은 해상도의 밑그림을 추가하면서 이미지를 완성 (coarse-to-fine).
- 장점:
- 이미지의 2차원 구조를 유지.
- 전체적인 구조(coarse)에서 세부적인 디테일(fine) 순서로 자연스럽게 이미지를 생성.
- 계산 효율성 향상.
Multi-scale Quantization Autoencoder:
- VAR 방식 ("다음 해상도 예측")을 위해 이미지를 여러 해상도의 밑그림(multi-scale token maps)으로 변환하는 역할.
- 핵심 기법: Residual connection
- 각 해상도에서 "이미 표현된 정보"를 빼고, "아직 표현되지 않은 정보"만 남김.
- 다음 해상도에서는 이 "남은 정보"에 집중하여 밑그림을 그림.
- 결과적으로, 낮은 해상도에서는 전체적인 구조, 높은 해상도에서는 세부적인 디테일을 표현.
결론:
VAR은 "다음 해상도 예측"이라는 새로운 방식으로, 기존 방식보다 더 자연스럽고 효율적으로 이미지를 생성할 수 있습니다!
4 Implementation Details
VAR tokenizer. 앞서 언급했듯이, 우리는 vanilla VQVAE architecture를 사용하고 K개의 extra convolutions (0.03M extra parameters)를 가진 multi-scale quantization scheme을 사용합니다. 우리는 V = 4096으로 모든 scale에 대해 shared codebook을 사용합니다. Baseline에 따라, 우리의 tokenizer는 compound loss (5)와 16x의 spatial downsample ratio를 사용하여 OpenImages에 대해 training됩니다.
VAR transformer. 우리의 주요 초점은 VAR algorithm이므로 simple model architecture design을 유지합니다. 우리는 GPT-2 및 VQGAN과 유사한 standard decoder-only transformers의 architecture를 채택하고 adaptive normalization (AdaLN)을 사용하는데, 이는 많은 visual generative models에서 널리 채택되고 입증된 효과를 보입니다. Class-conditional synthesis의 경우, class embedding을 start token [s] 및 AdaLN의 condition으로 사용합니다. 우리는 attention 전에 queries와 keys를 unit vectors로 normalizing하는 것이 training을 안정화할 수 있음을 발견했습니다. 우리는 rotary position embedding (RoPE), SwiGLU MLP, RMS Norm과 같은 large language models의 advanced techniques는 사용하지 않습니다. 우리 model shape는 다음과 같이 width w, head counts h, drop rate dr이 depth d에 따라 선형적으로 scaling되는 과 유사한 simple rule을 따릅니다:
w = 64d, h = d, dr = 0.1 * d/24. (7)
결과적으로, depth d를 가진 VAR transformer의 main parameter count N은 다음과 같이 주어집니다:
N(d) = d * 4w^2 (self-attention) + d * 8w^2 (feed-forward) + d * 6w^2 (adaptive layernorm) = 18dw^2 = 73728d^3. (8)
모든 models는 유사한 settings으로 training됩니다: 256 batch size 당 10^-4의 base learning rate, β1 = 0.9, β2 = 0.95, decay = 0.05인 AdamW optimizer, 768에서 1024 사이의 batch size 및 200에서 350 epochs의 training epochs (model size에 따라 다름). Sec. 5의 평가는 이러한 simple model design이 scaling 및 generalizing을 잘 수행할 수 있음을 시사합니다.