AI바라기의 인공지능

Abstracted Shapes as Tokens - A Generalizable and Interpretable Model for Time-series Classification 본문

논문리뷰

Abstracted Shapes as Tokens - A Generalizable and Interpretable Model for Time-series Classification

AI바라기 2025. 5. 16. 13:34

쉬운 설명 (Easy Explanation)

이 논문은 time-series data (예: 주가 변동, 심전도 신호)를 이해하는 새로운 방식을 제안합니다. 기존의 많은 AI 모델들은 "이 신호는 A 유형이다"라고 분류는 잘하지만, "왜 A 유형인지"는 설명하지 못했습니다. 마치 어떤 음악을 듣고 "이건 신나는 곡이네"라고는 알지만, 어떤 멜로디나 리듬 때문에 신나는지는 모르는 것과 같습니다.

VQShape는 이 문제를 해결하기 위해, time-series를 "기본적인 모양 조각 (abstracted shapes)"들의 조합으로 보려고 합니다. 마치 레고 블록처럼, 미리 학습된 다양한 "모양 블록" (codebook)들을 가지고 있고, 어떤 time-series가 주어지면 "이 신호는 1번 모양 블록이 여기에, 3번 모양 블록이 저기에, 이런 크기와 길이로 나타나네"라고 설명하는 것입니다.

이렇게 하면 AI가 왜 특정 결정을 내렸는지 "모양 블록"들을 보면서 이해할 수 있게 되고 (interpretable), 이 "모양 블록"들은 다양한 종류의 time-series에 두루 사용될 수 있습니다 (generalizable). 즉, AI의 판단 근거를 투명하게 보여주면서도 여러 상황에 잘 적용될 수 있는 모델을 만드는 아이디어입니다.

 

 

 

용어 설명 (Terminology)

  • VQShape: 이 논문에서 제안하는 pre-trained, generalizable, interpretable time-series representation learning 및 classification 모델.
  • Abstracted Shapes: Time-series의 subsequence를 정규화하고 일반화하여 얻은, 해석 가능한 기본 형태. VQShape의 codebook에 저장되는 핵심 요소.
  • Codebook (Z): Vector quantization을 통해 학습된, abstracted shapes의 집합. 각 shape은 low-dimensional code로 표현됨.
  • Vector Quantization (VQ): Continuous한 latent vector를 codebook 내의 discrete code로 mapping하는 과정. VQ-VAE에서 영감을 받음.
  • Attributes (Tk): Time-series subsequence sk를 나타내는 튜플 (zk, μk, σk, tk, lk).
    • zk: sk의 abstracted shape에 대한 code.
    • μk: sk의 offset.
    • σk: sk의 scale (standard deviation).
    • tk: x 내에서 sk의 relative starting position.
    • lk: x의 길이에 대한 sk의 relative length.
  • Ldiv (Disentanglement Loss): Latent-space token (attributes)들이 다양한 position (tk)과 scale (lk)에서 shape-level 정보를 포착하도록 장려하는 정규화 항.
  • Code Histogram: Input time-series에서 각 abstracted shape (code)의 등장 빈도를 나타내는 representation. Concept Bottleneck Models (CBMs)에서 영감을 받음.
  • Shapelets: Time-series classification을 위한 기존의 interpretable feature. TS subsequence 자체를 사용하며, 특정 dataset에 discriminative하도록 최적화됨.
  • UEA Multivariate TS Classification Archive: Multivariate time-series classification을 위한 벤치마크 dataset 모음.
  • TST (Time Series Transformer): Masked reconstruction을 사용하는 Transformer 기반 pre-trained 모델.
  • MOMENT: Padding과 sub-sampling으로 TS 길이를 통일하고 masked patch reconstruction으로 pre-train하는 patch-based Transformer 모델.
  • UniTS: Prompt 기반으로 predictive 및 generative task를 단일 모델로 통합하는 pre-trained 모델.
  • dcode: Codebook vector의 dimension. 논문에서는 8로 설정하여 bottleneck 효과 유도.
  • ds: starget (target subsequence) 및 sk (decoded shape)의 고정된 길이. 논문에서는 128.
  • Ncode: Codebook의 크기 (code의 개수).

Purpose of the Paper

  • 기존 time-series (TS) foundation models은 대부분 black box 형태로, 학습된 representation에 대한 insight나 설명을 제공하지 못하는 한계가 있음.
  • 기존 interpretable TS modeling 방법론인 shapelets는 유연성이 부족하고 (pre-defined length, dataset-specific optimization) 다른 domain으로의 transfer가 어려움.
  • 이 논문은 TS data를 위한 generalizable 하면서도 interpretable한 unified view 및 representation을 제공하는 pre-trained model, VQShape를 제안함.
  • 이를 위해, TS subsequence를 "abstracted shape"과 offset, scale, start time, duration 등의 attribute로 분해하고, vector quantization을 통해 domain에 구애받지 않는 interpretable token (abstracted shapes)의 codebook을 학습하고자 함.

Key Contributions & Novelty

  • Novel Interpretable Representation:
    • TS data를 shape-level feature에 기반한 "abstracted shapes"와 attributes (offset, scale, start time, duration)의 집합으로 기술하는 새로운 representation 제안.
    • Novelty: 기존 shapelet 방식과 달리, shape 자체를 학습하고 이를 정규화된 "abstracted shape"으로 만들어 dataset-agnostic하게 만들고, 여기에 동적인 attributes를 결합하여 유연성과 해석 가능성을 동시에 높임.
  • VQShape Model & Interpretable Codebook Learning:
    • Self-supervised pre-trained model (VQShape)을 통해 TS data로부터 interpretable representation을 추출. VQShape는 다양한 domain의 TS를 설명할 수 있는 abstracted shapes로 구성된 generalizable codebook을 학습.
    • Novelty: TS 분야에서 interpretable representation을 추출하는 최초의 self-supervised pre-trained model. 다른 VQ-VAE 기반 TS 모델 (e.g., TOTEM)의 token이 단순히 latent vector인 것과 달리, VQShape의 token은 실제 "abstracted shape"으로 시각화 및 해석 가능. 또한, Ldiv loss를 통해 shape의 position과 length의 다양성을 장려하여 disentanglement를 유도.
  • Comparable Performance with Interpretability & Generalizability:
    • Classification task에서 fine-tuning 없이 specialist black-box model들과 유사한 성능을 달성하면서도, interpretable latent-space token 및 representation 제공.
    • Zero-shot learning 상황에서 VQShape와 codebook이 pre-training에 포함되지 않은 unseen dataset 및 domain으로 일반화 가능함을 보임.
    • Novelty: Interpretability를 확보하면서도 성능 저하가 크지 않음을 보였으며, 학습된 codebook의 zero-shot transferability를 통해 진정한 generalizability를 시사.

Experimental Highlights

  • Datasets: UEA multivariate TS classification archive의 29개 datasets (InsectWingbeat dataset 제외).
  • Metrics: Classification accuracy, mean rank.
  • Baselines: Classical (DTW, STRF), Supervised (DLinear, PatchTST, TimesNet 등), Unsupervised representation learning (TS-TCC, TST, TS2Vec, T-Rep), Pre-trained (MOMENT, UniTS).
  • Key Result 1 (Performance): VQShape는 frozen pre-trained representation을 사용하여 linear classifier를 학습했을 때, SOTA black-box model들과 비교하여 통계적으로 유의미한 차이 없이 comparable performance를 달성 (Table 1, Table 5).
  • Key Result 2 (Interpretability):
    • 학습된 codebook의 VQShape-64 (Ncode=64) 시각화 (Figure 2)를 통해 다양한 abstracted shapes 확인.
    • TS가 VQShape에 의해 abstracted shapes와 그 attributes로 분해되는 예시 (Figure 3)를 통해 encoding 과정의 해석 가능성 제시.
    • UWaveGestureLibrary dataset에서 두 class 간 평균 code histogram 비교 (Figure 4)를 통해, 특정 code (shape)가 class 구분에 discriminative feature로 작용함을 보임 (e.g., "CW circle"은 shape s61, "CCW circle"은 shape s33을 주로 포함).
  • Key Result 3 (Generalizability):
    • UEA dataset의 training split으로 pre-train하고 test split으로 평가하여 in-domain generalizability 확인.
    • Cross-domain generalizability: 9개 UEA dataset으로 pre-train한 VQShape 모델을 전체 29개 dataset에 평가했을 때, 모든 29개 dataset으로 pre-train한 모델과 유사하거나 약간 낮은 성능을 보이며, unseen domain으로의 일반화 가능성 입증 (Table 2, right half). MOMENT도 유사한 경향.
  • Key Result 4 (Ablation - Codebook Size, Figure 5):
    • Token representation을 사용하는 classifier는 codebook size (Ncode)가 클수록 성능 향상.
    • Histogram representation을 사용하는 classifier는 Ncode=64일 때 최적 성능을 보임. 이는 512개 code로 학습해도 약 60개의 cluster만 형성되는 관찰과 일치 (abstraction과 expressiveness 간의 trade-off).
  • Key Result 5 (Ablation - Shape Reconstruction Loss Ls, Table 3):
    • Subsequence reconstruction (Ls, λs)은 shape-level abstraction 학습에 중요. λs = 0으로 설정 시 성능 저하.

Limitations and Future Work

  • Limited Pre-training Data Scale:
    • 현재 pre-training 데이터 양이 MOMENT와 같은 다른 large pre-trained model에 비해 제한적이므로, VQShape를 "foundation model"로 칭하기에는 이름.
    • Why important: 모델의 진정한 generalizability와 다양한 task로의 확장성은 대규모 데이터 pre-training에 크게 의존.
    • Future Work: 더 큰 규모의 다양한 dataset에서 pre-train을 수행하고, 이를 위한 추가적인 pre-processing 및 input engineering 기법 개발.
  • Focus on Classification Tasks:
    • 추출된 shape token이 classification task에서 주로 interpretable하기 때문에, 연구 초점이 classification에 맞춰져 있음.
    • Why important: Time-series 분석은 forecasting, imputation, anomaly detection 등 다양한 task를 포함.
    • Future Work: VQShape로 추출된 interpretable token을 활용하여 다른 TS task (forecasting, imputation, anomaly detection 등)를 위한 interpretable framework 개발.
  • Data "Pollution" in Pre-training:
    • BasicMotion과 같이 짧은 subsequence 내에 의미 있는 shape-level 정보가 없는 dataset은 pre-training을 "오염"시켜 불필요한 high-frequency feature를 학습하게 할 수 있음 (Table 6, 29개 dataset pre-train 시 일부 dataset 성능 하락).
    • Why important: 단순히 pre-training data를 늘리는 것이 항상 성능 향상으로 이어지지 않음을 시사.
    • Future Work: 대규모 dataset pre-train 시, 데이터 특성을 고려한 추가적인 pre-processing 및 input engineering 포함.
  • Post-hoc Codebook Size Determination:
    • 최적의 codebook cluster 수 (e.g., Ncode=64)는 pre-training 후 t-SNE 시각화 등을 통해 post-hoc으로 발견됨.
    • Why important: 최적의 codebook size를 찾기 위해 재학습이 필요할 수 있음.
    • Future Work: Training 또는 inference 과정에서 codebook size를 동적으로 조절하는 메커니즘 개발.

Overall Summary

이 논문은 기존 time-series foundation model의 "black box" 문제와 interpretable shapelet 방법의 일반화 한계를 해결하고자 VQShape를 제안한다. VQShape는 self-supervised pre-training을 통해 time-series를 "abstracted shapes"와 관련 attributes (offset, scale, position, duration)로 분해하고, vector quantization을 이용하여 이 shape들에 대한 interpretable codebook을 학습한다. 실험을 통해 VQShape는 fine-tuning 없이도 SOTA 모델들과 유사한 classification 성능을 달성하면서, 동시에 인간이 이해할 수 있는 representation과 zero-shot generalization 능력을 제공함을 입증했다. 이 연구는 진정으로 interpretable하고 generalizable한 time-series foundation model 개발을 위한 중요한 첫걸음을 내디뎠다고 평가할 수 있다.

 

 

 

 

 

 

 

 

 

 

 

 

 

Abstract

Time-series analysis에서 최근 많은 연구들은 여러 domain에 걸친 time-series에 대한 통합된 관점과 representation을 제공하고자 하며, 이는 time-series data를 위한 foundation models의 개발로 이어지고 있습니다. 다양한 modeling techniques에도 불구하고, 기존 models은 black boxes이며 그들의 representations에 대한 통찰력과 설명을 제공하지 못합니다. 본 논문에서는 time-series representation learning 및 classification을 위한 pre-trained되고, 일반화 가능하며, 해석 가능한 model인 VQShape를 제시합니다. Time-series data를 위한 새로운 representation을 도입함으로써, VQShape의 latent space와 shape-level features 간의 연결을 구축합니다. Vector quantization을 사용하여, 서로 다른 domain의 time-series가 통합된 low-dimensional codes 집합을 사용하여 설명될 수 있음을 보여주며, 여기서 각 code는 time domain에서 추상화된 shape로 표현될 수 있습니다. Classification tasks에서 VQShape의 representations는 해석 가능한 classifiers를 구축하는 데 활용될 수 있으며, specialist models과 비슷한 performance를 달성함을 보여줍니다. 또한, zero-shot learning에서 VQShape와 그 codebook은 pre-training 과정에 포함되지 않은 이전에 보지 못한 datasets 및 domains으로 일반화될 수 있습니다. Code와 pre-trained weights는 https://github.com/YunshiWen/VQShape 에서 확인할 수 있습니다.

 

 

1 Introduction

더보기

Data의 기본적인 형태 중 하나인 time-series (TS)는 healthcare, 날씨, 교통, 움직임, 인간 활동, sensors 등 광범위한 domains 및 applications에 존재합니다. 여러 domains에 걸친 TS data를 modeling하는 것은 TS data가 다양한 sampling rates, 길이, 크기, 빈도 및 noise 수준을 가질 수 있기 때문에 어려운 task였습니다. 이러한 이질성으로 인해 TS modeling을 위한 대부분의 기존 machine learning 방법들은 단일 dataset 또는 단일 domain에만 초점을 맞춥니다.

최근 natural language processing 및 computer vision 분야에서 large pre-trained models의 성공에 힘입어, 이 두 분야에서 채택된 다양한 접근 방식들이 서로 다른 domains의 TS data에 대한 통합된 관점과 feature space를 구축하기 위해 제안되었습니다. 대부분의 models은 transformer를 backbone으로 사용하고 다양한 datasets에서 이를 pre-train합니다. 이러한 방법들은 TS representation learning에서 큰 성공을 거두었으며, 다양한 downstream tasks에 도움이 되고 그 generalizability를 입증했습니다. 그들의 성공에도 불구하고, 대부분은 인간이 이해할 수 있는 representations을 제공할 수 없기 때문에 black boxes로 남아 있습니다. Language 및 vision을 위한 pre-trained models에서 tokenizers가 점점 더 중요한 역할을 해왔지만, TS에서는 pre-training이 종종 다음 또는 masked timestamp, time window, 또는 patch를 예측함으로써 수행되어 LLMs에서와 같은 discrete tokens의 개념이 부족합니다. 아주 최근에 Talukder et al.은 TOTEM을 개발했는데, 이는 VQ-VAE를 활용하여 codebook을 얻고 TS를 재구성합니다. 그럼에도 불구하고, 다른 모든 VQ-VAE models과 마찬가지로 codebook의 tokens은 단지 latent vector representations일 뿐이며 물리적인 의미가 부족합니다.

다른 한편으로, interpretable TS modeling에서 shapelets은 TS data에 대해 interpretable하고 expressive features로 인식되어 왔습니다. 초기에 classification에서 서로 다른 categories를 구별하는 TS subsequences로 정의되었으나, 나중에는 representative patterns으로 일반화되었습니다. 구체적으로, shapelets은 TS data를 shapelet과 TS 사이의 거리 형태 또는 TS에 shapelet이 존재할 확률을 측정하는 logical predicate의 형태로 low-dimensional representations으로 변환할 수 있습니다. 그러나 classification tasks에서의 효과에도 불구하고, 이 shape-level feature는 유연성이 부족한데, 이는 pre-defined된 길이를 가진 shapelets이 dataset-specific 예측을 하기 위한 discriminative features를 포착하도록 최적화되어 있기 때문입니다. 예를 들어, accelerometers로 인간의 움직임을 측정할 때, 동일한 제스처를 수행하는 성인과 어린이는 서로 다른 offsets, scales 및 durations을 가진 TS를 기록할 수 있습니다. 그들이 동일한 shape-level concept을 공유하더라도, 이를 각각 설명하기 위해서는 여러 개의 shapelets이 필요합니다. 추가적으로, shapelet-based interpretable models은 단일 dataset에 특화되어 있으며, 학습된 shapelets은 다른 domains으로 이전되지 못합니다.

본 논문에서는 TS에서 기존 pre-trained models 및 interpretable models의 한계에 착안하여, TS modeling을 위한 interpretable하고 generalizable tokens으로서 abstracted shapes를 제공하는 self-supervised pre-trained model인 VQShape를 제안합니다. 첫째, TS subsequence를 abstracted shape, offset, scale, 시작 시간 및 지속 시간을 포함하는 속성 집합으로 분해합니다. Vector quantization을 통합함으로써, VQShape는 다양한 domains의 TS를 나타내는, 일반화 가능하고 기술적인 abstracted shapes의 codebook을 학습합니다. 다양한 classification tasks에서 fine-tuning 없이 평가했을 때, VQShape는 black-box pre-trained models과 비슷한 performance를 달성하면서 추가적으로 TS data를 설명하기 위한 interpretable latent-space tokens 및 representations을 제공합니다.

우리의 기여는 다음과 같이 요약됩니다:

  • 우리는 shape-level features에 기반하여 TS data를 설명하기 위한 abstracted shapes와 attributes로 구성된 interpretable representation을 제시하며, 이는 dataset-agnostic interpretable features의 학습을 가능하게 합니다.
  • 우리의 지식으로는 최초로, 모든 TS data에서 interpretable representations을 추출하는 self-supervised pre-trained model인 VQShape를 소개합니다. VQShape는 또한 여러 datasets에 일반화되는 abstracted shapes를 포함하는 codebook을 학습합니다.
  • 다양한 datasets에서 pre-trained되고 fine-tuning 없이, VQShape는 benchmark classification datasets에서 기존 black-box models과 비슷한 performance를 달성합니다. 우리는 VQShape의 representations이 보이지 않는 datasets 및 domains에 대해 interpretable하고 generalizable하다는 것을 명시적으로 보여줍니다.

 

 

 

정리노트: 1 Introduction (VQShape 논문)

AI 연구자를 위한 핵심 요약:

이 논문의 Introduction은 기존 time-series (TS) analysis 방법론들의 두 가지 주요 한계점을 지적하며 시작합니다: 1) Generalizability 부족: 대부분의 TS modeling 방법들이 단일 dataset이나 domain에 특화되어 있다는 점, 2) Interpretability 부족: Natural language processing (NLP)이나 computer vision 분야의 성공에 힘입어 등장한 large pre-trained TS models (주로 transformer 기반)은 높은 performance를 보이지만, 내부 작동 방식을 이해하기 어려운 black box라는 점입니다. 특히, LLMs와 같은 discrete tokens 개념이 TS pre-training에는 부재하며, VQ-VAE 기반 접근법(예: TOTEM)의 tokens도 물리적 의미가 결여되어 있다고 비판합니다.

기존 interpretable TS modeling의 대표 주자인 shapelets 역시 한계를 가집니다. Shapelets은 TS subsequences를 통해 해석력을 제공하지만, pre-defined 길이로 인한 유연성 부족, dataset-specific 최적화로 인한 generalizability 결여 (다른 domain으로 이전 불가), 그리고 동일한 shape-level concept을 다른 offset, scale, duration으로 표현하기 위해 다수의 shapelets이 필요한 문제점이 있습니다.

VQShape 제안:

이러한 배경 하에, 본 논문은 VQShape를 제안합니다. VQShape는 self-supervised pre-trained model로서, TS modeling을 위한 interpretable하고 generalizable tokens로서 "abstracted shapes"라는 개념을 도입합니다.

  • 핵심 아이디어: TS subsequence를 [abstracted shape, offset, scale, 시작 시간, duration]과 같은 속성(attributes) 집합으로 분해합니다.
  • Mechanism: Vector quantization (VQ)을 활용하여, 다양한 domains의 TS를 표현할 수 있는, 일반화 가능하고 기술적인(descriptive) abstracted shapes의 codebook을 학습합니다.
  • 목표: Fine-tuning 없이도 기존 black-box pre-trained models과 유사한 classification performance를 달성하면서, 동시에 TS data를 설명하는 interpretable latent-space tokens 및 representations을 제공하는 것입니다.

주요 Contributions (Introduction 기준):

  1. 새로운 Interpretable Representation 제안: Shape-level features에 기반한 abstracted shapes와 attributes로 구성된 representation을 제시하여, dataset에 구애받지 않는(dataset-agnostic) interpretable features 학습을 가능하게 합니다.
  2. VQShape Model: (저자들 주장에 따르면) TS data로부터 interpretable representations을 추출하는 최초의 self-supervised pre-trained model입니다. VQShape는 여러 datasets에 일반화될 수 있는 abstracted shapes를 포함하는 codebook을 학습합니다.
  3. Performance 및 Generalizability: 다양한 datasets에서 pre-trained된 VQShape는 fine-tuning 없이도 기존 black-box models과 비교할 만한 classification performance를 보이며, 그 representations은 이전에 보지 못한(unseen) datasets 및 domains에 대해서도 interpretable하고 generalizable함을 명시적으로 보일 것이라고 주장합니다.

쉬운 설명 : 1 Introduction

Time-series data는 주가 변동, 날씨 변화, 심전도 그래프처럼 시간에 따라 변하는 모든 종류의 데이터를 말해요. 이런 데이터를 컴퓨터로 분석하는 건 아주 중요한데, 기존 방법들에는 몇 가지 어려움이 있었어요.

기존 방법의 문제점:

  1. 특정 데이터에만 잘 맞음: 어떤 모델은 특정 종류의 날씨 데이터 분석에는 뛰어나지만, 주가 예측에는 잘 안 맞는 경우가 많았어요. 즉, 여러 분야에 두루두루 잘 맞는 범용적인 모델이 부족했죠.
  2. 깜깜이 상자 (Black Box): 최근 AI 분야(특히 글이나 이미지 처리)에서 아주 큰 모델들이 성공하면서, time-series 분석에도 비슷한 모델들이 등장했어요. 이런 모델들은 성능은 좋지만, 왜 그런 예측을 했는지, 데이터의 어떤 특징을 보고 판단했는지 그 이유를 알기가 어려워요. 마치 속을 알 수 없는 '깜깜이 상자'와 같죠.
  3. 설명 가능한 기존 방법의 한계: 물론 'shapelets'처럼 데이터의 특정 '모양' 패턴을 찾아서 설명을 시도하는 방법도 있었어요. 하지만 이 방법들은 미리 정해진 길이의 패턴만 찾거나, 특정 데이터에만 너무 맞춰져 있어서 다른 종류의 데이터에는 적용하기 어렵다는 단점이 있었죠. 예를 들어, 어른과 아이가 같은 손짓을 해도 기록되는 데이터의 크기나 길이가 다를 텐데, 기존 shapelets 방법으로는 이를 같은 '모양'으로 보기 어려웠어요.

이 논문이 해결하려는 것 (VQShape의 아이디어):

그래서 이 논문에서는 VQShape라는 새로운 모델을 제안해요. 이 모델의 목표는 두 마리 토끼를 다 잡는 거예요. 즉, 다양한 종류의 time-series 데이터에 잘 적용되면서(generalizable) 동시에 모델이 왜 그렇게 판단했는지 사람이 이해할 수 있도록(interpretable) 만들겠다는 거죠.

VQShape의 핵심 아이디어는 복잡한 time-series 데이터를 **'추상화된 모양(abstracted shapes)'**이라는 기본 단위 조각들로 나눠서 이해하는 거예요. 예를 들어, 어떤 복잡한 파동이 있다면, 그 안에서 '뾰족한 봉우리', '완만한 골짜기', '수평선' 같은 더 단순하고 일반적인 '모양'들을 찾아내는 거죠. VQShape는 이런 기본 '모양'들을 스스로 학습해서 일종의 '모양 사전(codebook)'을 만들어요.

VQShape의 장점:

  • 모델이 어떤 time-series 데이터를 보고 이 '모양 사전'에 있는 어떤 '모양'들의 조합으로 인식했는지 살펴보면, "아, 이 모델은 이 데이터를 이런 패턴들의 연속으로 보고 있구나!" 하고 사람이 그 이유를 이해하기 쉬워져요.
  • 이렇게 학습된 '모양 사전'은 특정 데이터뿐만 아니라, 이전에 보지 못했던 새로운 종류의 time-series 데이터에도 적용될 수 있어서 범용성도 높아요.
  • 성능도 기존의 '깜깜이 상자' 모델들만큼 좋으면서 설명까지 가능하게 만드는 것이 이 연구의 목표랍니다.

 

 

 

2 Related Work

더보기

Deep learning methods for TS analysis. Deep learning 방법들은 TS analysis에 점점 더 많이 적용되고 있습니다. 기존 방법들은 Transformer 구조를 backbone으로 사용하는지에 따라 두 그룹으로 분류될 수 있습니다. Non-Transformer-based models의 경우, MLP, CNN, ResNet과 같은 고전적인 deep learning models들이 다양한 tasks에서 괜찮은 performance를 보여줍니다. 최근 방법들은 TS data의 명시적인 features를 model하기 위해 다양한 feature engineering techniques을 개발했습니다. TimesNet은 TS를 2D space로 변환하여 모듈화된 방식으로 multi-period features를 포착함으로써 다양한 tasks에서 state-of-the-art performance를 달성합니다. TS2Vec은 TS data의 unsupervised representation learning을 위해 hierarchical contrastive learning을 사용합니다. T-Rep은 TS를 time embeddings로 augmenting하여 latent space에 추가적인 temporal structure를 제공하는 self-supervised representation learning 접근 방식을 소개합니다.

Transformers는 TS analysis에 점점 더 많이 적용되고 있지만, 일반적으로 원래 구조에 약간의 수정을 가합니다. 예를 들어, Autoformer는 temporal dependencies를 포착하기 위해 Auto-Correlation mechanism을 통합하여 attention mechanism을 수정합니다. Real-valued data에 Transformers를 적용할 때, inputs을 patches로 변환하는 것은 images에 효과적인 접근 방식으로 인식되어 왔는데, 이는 tokens이 language에서의 "word"처럼 더 많은 semantic meaning을 포함할 수 있기 때문입니다. 유사하게, PatchTST는 TS analysis 또한 patched inputs과 Transformers를 결합하는 것에서 이점을 얻으며, TS를 64개의 "words" sequence로 간주함을 보여줍니다.

Pre-trained Models for TS data. Language 및 vision 분야에서 large pre-trained models의 성공은 TS analysis를 위한 foundation models의 개발을 촉진합니다. 기존 접근 방식들은 다양한 관점에서 TS data에 대한 unified view를 찾는 것을 목표로 합니다. 예를 들어, TST는 Transformer model을 사용하며 masked reconstruction을 사용하여 pre-trained되는 반면, TimeGPT-1은 forecasting window를 생성하여 pre-trained됩니다. MOMENT는 padding 및 sub-sampling을 사용하여 TS data의 길이를 통합함으로써 patch-based Transformer를 여러 datasets으로 확장합니다. 이 model은 또한 masked patches를 재구성하도록 pre-trained됩니다. TOTEM은 raw TS data에 convolutional neural network (CNN) encoder를 적용하고 encoder outputs에 vector quantization (VQ)을 사용하여 TS data를 위한 discrete하고 domain-invariant한 codebook을 제공합니다. TOTEM은 전체 TS를 재구성하기 위해 VQ-VAE로 pre-trained되며, convolutions에서 얻은 latent-space codes를 unified representation으로 간주합니다. UniTS는 단일 model 및 pre-training process 내에서 predictive 및 generative tasks를 통합하기 위한 prompt-based method를 소개합니다. 이러한 방법들은 다양한 downstream tasks에 도움이 되고 generalizability를 입증하는 representations을 학습하지만, 이러한 pre-trained models은 human-understandable representations을 제공할 수 없기 때문에 black boxes로 남아 있습니다.

 

정리노트: 2 Related Work (VQShape 논문)

AI 연구자를 위한 핵심 요약:

이 섹션에서는 VQShape 논문이 제안하는 방법론의 배경이 되는 기존 Time-Series (TS) analysis 연구들을 두 가지 주요 흐름으로 나누어 설명합니다.

  1. Deep learning methods for TS analysis:
    • Non-Transformer-based models:
      • MLP, CNN, ResNet 등 고전적인 deep learning models이 다양한 tasks에서 준수한 performance를 보임.
      • 최근 연구들은 TS data의 명시적 features를 modeling 하거나 (TimesNet - 2D space 변환으로 multi-period features 포착), unsupervised representation learning (TS2Vec - hierarchical contrastive learning) 또는 self-supervised learning을 통해 temporal structure를 강화하는 (T-Rep - time embeddings) 등 feature engineering 및 representation learning에 집중함.
    • Transformer-based models:
      • TS analysis에 활발히 적용되나, 원본 Transformer 구조에 변형을 가하는 경우가 많음 (예: Autoformer - Auto-Correlation mechanism으로 temporal dependencies 포착).
      • Patching 기법의 유효성: TS를 일련의 patch (tokens, "words")로 나누어 처리하는 방식(PatchTST)이 language model에서처럼 tokens에 semantic meaning을 부여하여 TS analysis에 효과적임을 보임. (예: TS를 64개 "words"의 sequence로 간주).
      • VQShape와의 연관성: Patching은 tokenization의 효과를 보여주지만, VQShape는 이러한 tokens이 학습된 patch가 아닌, 해석 가능한 "abstracted shapes"가 되도록 하며, 보다 일반화된 codebook 생성을 목표로 함.
  2. Pre-trained Models for TS data:
    • Language 및 vision 분야 large pre-trained models의 성공에 힘입어, TS analysis를 위한 foundation models 개발이 활발함. 이들은 다양한 관점에서 TS data의 unified view를 찾고자 함.
    • 주요 Pre-trained Models 및 접근법:
      • TST: Transformer 기반, masked reconstruction으로 pre-train.
      • TimeGPT-1: Forecasting window 생성으로 pre-train.
      • MOMENT: Patch-based Transformer를 여러 datasets에 적용 (padding/sub-sampling으로 길이 통일), masked patch reconstruction으로 pre-train.
      • TOTEM: CNN encoder와 vector quantization (VQ)을 사용하여 discrete, domain-invariant codebook 생성. VQ-VAE 방식으로 전체 TS를 재구성하도록 pre-train하며, convolution의 latent-space codes를 unified representation으로 간주.
      • UniTS: Prompt-based 방식으로 predictive 및 generative tasks 통합.
    • 본 논문이 지적하는 핵심 한계점: 이러한 pre-trained models은 downstream tasks 성능 향상 및 generalizability를 보여주지만, 여전히 black boxes임. 즉, human-understandable representations을 제공하지 못함.
      • VQShape와의 차별점: TOTEM과 같이 VQ를 사용하는 모델도 있지만, VQShape 저자들은 TOTEM의 latent codes가 물리적 의미가 부족하다고 지적. 반면 VQShape는 VQ로 학습된 codebook의 "abstracted shapes"가 time domain에서 직접적으로 해석 가능한 의미를 갖는다고 주장하며 이 지점을 공략.

결론적으로, Related Work 섹션은 기존 연구들이 TS representation learning과 pre-training에서 성과를 거뒀음에도 불구하고, '해석 가능성(interpretability)' 특히, 인간이 이해할 수 있는 '의미 있는 tokens'의 부재라는 중요한 공백이 있음을 강조합니다. VQShape는 이 공백을 메우기 위해, VQ를 활용하되 그 결과물인 code가 'abstracted shapes'라는 직관적 형태로 나타나도록 설계되었음을 시사합니다.


쉬운 설명 : 2 Related Work

Time-series 데이터(시간에 따라 변하는 데이터)를 AI가 어떻게 분석하고 이해하는지에 대한 기존 연구들을 크게 두 갈래로 나눠서 살펴볼게요.

첫 번째 갈래: Time-series 데이터를 위한 다양한 AI 학습 방법들

  • Transformer를 쓰지 않는 모델들:
    • 예전부터 쓰이던 AI 모델(MLP, CNN, ResNet 등)들도 time-series 분석에 꽤 괜찮은 성능을 보여요.
    • 최근에는 데이터의 특징을 더 잘 뽑아내거나(feature engineering), AI가 스스로 데이터의 표현법을 배우도록(representation learning) 하는 새로운 기술들이 개발되고 있어요. 예를 들어, TimesNet은 시간 데이터를 2차원 그림처럼 바꿔서 여러 주기적 특징을 한 번에 파악하고, TS2Vec은 데이터 조각들을 서로 비교하면서 스스로 학습해요.
  • Transformer를 쓰는 모델들 (언어 이해 AI처럼):
    • 요즘 글을 잘 이해하는 AI로 유명한 Transformer 모델을 time-series 분석에도 많이 사용해요. 보통은 time-series 데이터의 특성에 맞게 조금씩 바꿔서 쓰죠.
    • "패치(Patch)" 방식: 긴 time-series 데이터를 짧은 조각(patch)들로 잘라서, 마치 문장을 단어들로 나누어 이해하듯이 처리하는 방법(PatchTST)이 효과가 좋아요. 각 조각이 하나의 '단어'처럼 의미를 갖게 되는 거죠.

두 번째 갈래: 미리 학습된 똑똑한 Time-series 전문가 모델 만들기 (Pre-trained Models)

  • 수많은 글이나 이미지를 미리 학습해서 똑똑해진 AI 모델들(foundation models)처럼, time-series 데이터도 이런 '만능 전문가 모델'을 만들려는 연구가 활발해요. 목표는 다양한 종류의 time-series 데이터를 하나의 모델로 잘 이해하는 거예요.
  • 다양한 시도들:
    • 데이터의 일부를 가리고 맞추게 하거나(TST, MOMENT), 미래 값을 예측하게 하면서(TimeGPT-1) AI를 학습시켜요.
    • TOTEM이라는 모델은 "vector quantization (VQ)"이라는 기술을 써서, time-series 데이터에서 자주 나타나는 패턴들을 모아 일종의 '코드북(codebook, 패턴 사전)'을 만들어요. 이 코드북에 있는 코드들로 데이터를 표현하는 거죠.
  • 하지만 중요한 문제점!
    • 이런 최신 모델들이 성능도 좋고 여러 분야에 잘 적용될 수 있지만, 대부분 여전히 **'깜깜이 상자(black box)'**예요. 즉, AI가 왜 그렇게 판단했는지, 데이터의 어떤 부분을 보고 그런 결론을 내렸는지 사람이 이해하기 어렵다는 거죠.
    • 예를 들어, 위에서 말한 TOTEM 모델이 '코드북'을 사용하긴 하지만, 그 '코드' 자체가 사람에게 어떤 명확한 의미(예: '급격한 상승 패턴')를 전달해주지는 못한다고 이 논문은 보고 있어요.

그래서 이 논문(VQShape)은 뭘 하려는 걸까요? 바로 이 '이해하기 어려운 점'을 해결하려는 거예요. 기존 연구들이 다양한 방법으로 time-series를 분석하고 있지만, VQShape는 그 분석 결과를 사람이 직관적으로 이해할 수 있는 '모양(shape)'으로 보여주는 데 초점을 맞추고 있답니다. 즉, '깜깜이 상자'가 아니라 '투명한 상자'를 만들고 싶어 하는 거죠.

 

 

3 Proposed Method

더보기
## 3 Proposed Method

Interpretable TS modeling을 위해, 먼저 abstracted shapes와 attributes의 집합을 사용하여 univariate TS data를 설명하는 shape-level representations의 공식을 제시합니다. 그런 다음, VQShape의 architecture와 각 단계의 상세한 workflow 및 결과물을 포함한 구성 요소들을 소개합니다.

**Notations.** $(X, Y) = \{(x_i, y_i)|i = 1, \ldots, N\}$을 $N$개의 samples을 가진 TS classification dataset이라고 표기하며, 여기서 $x_i \in R^{M \times T}$는 multivariate TS sample이고 $y_i \in \{1, \ldots, C\}$는 class label입니다. 여기서 $M$은 variables의 수, $T$는 timestamp 단위의 길이, 그리고 $C$는 categories의 수입니다. 각 multivariate TS sample $x_i$는 univariate TS samples의 집합으로 볼 수 있으며, $x_i^m \in R^T$는 $m$번째 variable에서의 TS를 나타냅니다. 표기의 단순화를 위해, 본 논문에서 $x_{i,t_1:t_2}^m$은 $m$번째 variable $x_i^m$의 timestamp $\lfloor T t_1 \rfloor$와 $\lfloor T t_2 \rfloor$ 사이의 subsequence를 나타내며, 여기서 $t_1, t_2 \in [0, 1]$은 상대적인 위치입니다.

### 3.1 Shape-level representation

Univariate TS $x$에 대해, subsequence $s_k$는 attribute tuple $\tau_k = (z_k, \mu_k, \sigma_k, t_k, l_k)$로 표현될 수 있으며, 여기서 각 요소는 다음과 같습니다:
* $z_k \in R^{d_{code}}$는 $s_k$의 abstracted shape에 대한 code입니다.
* $\mu_k \in R^1$은 $s_k$의 offset입니다.
* $\sigma_k \in R^1$은 $s_k$의 scale (standard deviation)이며 $\sigma_k > 0$입니다.
* $t_k \in R^1$은 $x$ 내에서 $s_k$의 상대적인 시작 위치이며 $0 \le t_k \le 1 - l_{min}$입니다.
* $l_k \in R^1$은 $x$의 길이에 대한 $s_k$의 상대적인 길이이며 $l_{min} \le l_k \le 1 - t_k$입니다.

여기서 $l_{min}$은 shape의 최소 길이를 정의하는 hyperparameter입니다. 우리는 $l_{min} = 1/64$로 설정했는데, 이는 patch의 길이이기 때문입니다. 본 연구에서는 univariate TS $x$가 주어졌을 때 attribute tuples의 집합 $T = \{\tau_k | k = 1, \ldots, K\}$를 생성하기 위해 pre-trained transformer model을 개발합니다. 추가적으로, 이 model은 서로 다른 domains의 datasets에 대해 재사용 가능하고 일반화될 수 있는 abstracted shape $z$의 codebook을 학습합니다.

### 3.2 VQShape Architecture

VQShape model은 TS encoder $E$, TS decoder $D$, latent-space codebook $Z$, shape decoder $S$, attribute encoder $A_{enc}$, 그리고 attribute decoder $A_{dec}$를 포함합니다. VQShape의 개요는 그림 1에 제시되어 있습니다. 이제 각 component에 대한 자세한 공식을 제시합니다.

**TS Encoding.** VQShape는 patch-based transformer encoder를 포함하며, 이는 먼저 univariate TS $x$를 $K$개의 겹치지 않는 고정 길이 patches (dimension $d_{patch}$)로 변환합니다. 그런 다음, 이 patches는 learnable linear projection과 additive position embedding에 의해 encoding되어 transformer model의 inputs으로 사용되는 patch embeddings를 형성합니다. Transformer는 $K$개의 latent embeddings $\hat{h} \in R^{d_{embed}}$를 outputs합니다. 공식적으로, TS encoder는 다음과 같이 표기됩니다:
$\{\hat{h}_k \in R^{d_{embed}} | k = 1, \ldots, K\} = E(x)$.
$\hat{h}_k$는 $k$번째 patch뿐만 아니라 모든 patches의 정보를 포함할 수 있다는 점에 유의하십시오.

**Attribute Decoding.** Attribute decoder $A_{dec}$는 latent embedding $h_k$를 받아 attribute tuple $\hat{\tau}_k = (\hat{z}_k, \mu_k, \sigma_k, t_k, l_k)$를 추출합니다. 공식적으로, $A_{dec}$는 다음을 수행합니다:
$ \hat{\tau}_k = (\hat{z}_k, \mu_k, \sigma_k, t_k, l_k) = A_{dec}(h_k), \text{ 여기서} $
$ \begin{cases} \hat{z}_k = f_z(h_k), \\ \mu_k = f_\mu(h_k), \\ \sigma_k = \text{softplus}(f_\sigma(h_k)), \\ t_k = \text{sigmoid}(f_t(h_k)) \cdot (1 - l_{min}), \\ l_k = \text{sigmoid}(f_l(h_k)) \cdot (1 - t_k) + l_{min}. \end{cases} \quad (1) $
$\{f_z, f_\mu, f_\sigma, f_t, f_l\}$의 각 decoding function은 하나의 hidden layer와 ReLU activation을 가진 multi-layer perceptron (MLP)을 사용하여 구현됩니다. 일반적인 표기법을 따라, $\hat{\tau}$는 quantization 이전의 attribute tuple을 나타냅니다.

**Codebook and Vector-Quantization.** Latent-space codebook은 $Z = \{z_q \in R^{d_{code}} | q = 1, \ldots, N_{code}\}$로 표기됩니다. Abstracted shape-level features만을 포함하는 일반화 가능한 codebook을 학습하기 위해, $d_{code} = 8$인 low-dimensional codes를 사용합니다. 이 구성은 또한 reconstruction을 위한 bottleneck을 생성하여 abstracted shapes 외에 추론될 수 있는 추가 정보를 최소화합니다. Quantization은 VQ-VAE를 따르며, Euclidean distance에 기반하여 discrete code를 선택합니다:
$ z_k = \text{arg min}_{z_q \in Z} \| \hat{z}_k - z_q \|. \quad (2) $

**Shape Decoding.** TS subsequence의 abstracted shape는 normalizations를 통해 길이, offset, scale 정보가 제거된 sequence입니다. $\tau_k = (z_k, \mu_k, \sigma_k, t_k, l_k)$가 주어지면, 먼저 $t_k$와 $l_k$에 의해 명시된 $x$로부터 target subsequence $x_{t_k:t_k+l_k}$를 추출합니다. 그런 다음, $x_{t:t+l}$은 길이 정보를 제거하기 위해 고정된 길이 $d_s$로 interpolate됩니다. Shape decoder $S$는 $z_k$를 받아 동일한 길이의 다른 sequence를 outputs합니다. 공식적으로, $\tau_k$에 대해 이 단계는 두 개의 sequences를 생성합니다:
$ s_k^{\text{target}} \in R^{d_s} = \text{interpolate}(x_{t_k:t_k+l_k}), $
$ s_k \in R^{d_s} = S(z_k) \cdot \sigma_k + \mu_k. \quad (3) $
$S$의 output은 $S(z_k)$가 offset과 scale 정보가 제거되도록 normalize된다는 점에 유의하십시오.

**Attribute encoding and reconstruction.** Quantization 후의 attribute tuple $\tau_k = (z_k, \mu_k, \sigma_k, t_k, l_k)$는 $h_k \in R^{d_{embed}} = \text{Linear}(\tau_k)$로 표기되는 learnable linear projection에 의해 변환됩니다. 그런 다음, TS decoder $D$는 $\{h_k | k = 1, \ldots, K\}$를 받아 reconstructed TS $\hat{x}$를 outputs합니다.

정리노트: 3 Proposed Method (VQShape 논문)

AI 연구자를 위한 핵심 요약:

이 섹션에서는 VQShape model의 구체적인 방법론을 제시하며, interpretable TS modeling을 위한 두 가지 핵심 구성요소를 설명합니다: 1) Shape-level representation, 2) VQShape architecture.

1. Shape-level representation:

  • 목표: Univariate TS data를 해석 가능한 abstracted shapes와 attributes의 집합으로 기술.
  • 정의: TS 내의 subsequence 는 attribute tuple 로 표현됨.
    • : abstracted shape에 대한 code (핵심 해석 요소).
    • : 의 offset.
    • : 의 scale (standard deviation, ).
    • : 의 상대적 시작 위치 ().
    • : 길이에 대한 의 상대적 길이 ().
  • Hyperparameter : Shape의 최소 길이 (논문에서는 patch 길이와 동일한 로 설정).
  • 학습 목표: 주어진 univariate TS 에 대해 attribute tuples 집합 를 생성하고, 여러 domains에 걸쳐 재사용 가능하고 일반화될 수 있는 abstracted shape 의 codebook을 학습.

2. VQShape Architecture:

  • 주요 Components:
    • TS encoder (): Patch-based transformer.
    • Attribute decoder (): Latent embedding으로부터 attribute tuple 추출.
    • Latent-space codebook (): Abstracted shapes 저장.
    • Shape decoder (): Abstracted shape code 로부터 정규화된 shape sequence 생성.
    • TS decoder (): Quantized attribute tuple로부터 TS 재구성.
    • (Attribute encoder 도 언급되나, 이 섹션에서는 주로 이후의 흐름과 재구성을 위한 linear projection이 설명됨)
  • Workflow 상세:
    1. TS Encoding ():
      • Univariate TS 개의 non-overlapping fixed-length patches ()로 분할.
      • Patches를 learnable linear projection 및 additive position embedding으로 patch embeddings 화.
      • Transformer model을 통과시켜 개의 latent embeddings 생성. (는 모든 patches 정보 통합 가능)
    2. Attribute Decoding ():
      • 각 latent embedding (논문상 이후 로 표기)로부터 attribute tuple의 각 요소 를 MLP 기반 함수들()로 decoding (Equation 1).
      • 는 quantization 이전의 shape code. 로 양수 보장, 제약조건으로 범위 조절.
    3. Codebook () and Vector-Quantization (VQ):
      • Codebook (여기서 가 abstracted shape code).
      • 를 의도적으로 작게 설정 (예: 8)하여 reconstruction bottleneck을 만들고, 가 순수 abstracted shape features만 학습하도록 유도.
      • VQ-VAE 방식: Euclidean distance 최소화로 discrete code 선택 (Equation 2): . 이 가 해석 가능한 shape code.
    4. Shape Decoding (): (주로 shape의 해석 및 학습 손실 계산에 관여)
      • Quantized 와 attributes 를 사용.
      • 원본 TS에서 로 subsequence 추출 후, 고정 길이 로 interpolate하여 생성 (길이 정보 제거).
      • Shape decoder 는 정규화된 (offset/scale 제거된) shape sequence 출력. 이를 로 scale하고 로 offset을 더해 최종 shape 생성 (Equation 3).
      • ( 비교를 통해 학습 예상).
    5. Attribute Encoding and TS Reconstruction ():
      • Quantization 후의 전체 attribute tuple 를 learnable linear projection을 통해 다시 차원의 로 변환.
      • TS decoder 집합을 입력받아 최종적으로 TS 를 재구성.

핵심: VQShape는 TS를 (해석 가능한 저차원 shape code ) + (기타 attributes)로 분해하고, 이 를 중심으로 하는 codebook을 학습하여 해석 가능성을 확보하려 함. 동시에 전체 TS 재구성을 통해 representation의 유효성을 유지함. 설정은 가 오직 shape 정보만을 압축적으로 담도록 하는 중요한 설계.


쉬운 설명 : 3 Proposed Method

자, 이제 VQShape라는 AI 모델이 time-series 데이터(예: 심장 박동 그래프)를 어떻게 이해하고, 그 이해한 내용을 우리가 알기 쉽게 만드는지 그 방법을 자세히 살펴볼게요.

1단계: 데이터를 이해하기 쉬운 '조각'으로 나눠 생각하기 (Shape-level representation)

먼저, VQShape는 복잡한 심장 박동 그래프 전체를 한 번에 보지 않아요. 대신 그래프를 여러 개의 작은 '조각(subsequence)'으로 나눠서 각 조각이 어떤 특징을 가지는지 파악해요. 각 조각은 다음 5가지 정보로 요약될 수 있다고 정의해요:

  1. 핵심 모양 (): 이 조각의 가장 기본적인 '모양'이 뭔지 알려주는 코드예요. 예를 들어 '뾰족하게 솟아오르는 모양', '완만하게 내려가는 모양' 같은 거죠. 이게 바로 VQShape가 중요하게 생각하는 '해석 가능한' 부분이에요.
  2. 높낮이 (offset, ): 그래프 조각이 전체적으로 얼마나 위 또는 아래에 위치하는지.
  3. 크기 (scale, ): 그래프 조각의 진폭이 얼마나 큰지 (변동성).
  4. 시작점 (): 전체 그래프에서 이 조각이 어디서 시작하는지.
  5. 길이 (): 이 조각이 얼마나 긴지.

마치 우리가 음악을 들을 때, "높은 음에서 시작해서 빠르게 내려오는 짧은 멜로디"처럼 각 부분을 설명하는 것과 비슷해요.

2단계: VQShape 모델의 작동 방식 (VQShape Architecture)

VQShape 모델은 여러 부품으로 이루어진 기계와 같아요. 각 부품이 하는 일은 다음과 같아요.

  1. 데이터 잘게 쪼개서 살펴보기 (TS Encoder ):
    • 먼저, 긴 심장 박동 그래프()를 일정한 길이의 여러 '조각(patch)'으로 잘라요.
    • Transformer라는 똑똑한 부품이 이 조각들을 보고, 각 조각 주변의 정보를 종합해서 요약된 정보()를 만들어요.
  2. 각 조각의 세부 정보 뽑아내기 (Attribute Decoder ):
    • 앞에서 만든 요약 정보()를 바탕으로, 다른 부품이 각 조각의 5가지 세부 정보(위에서 말한 핵심 모양 코드의 후보(), 높낮이, 크기, 시작점, 길이)를 계산해내요 (수식 1).
  3. '표준 모양 사전'에서 가장 비슷한 모양 찾기 (Codebook & Vector Quantization):
    • VQShape는 미리 학습된 '표준 모양 사전(Codebook )'을 가지고 있어요. 이 사전에는 아주 단순화된 몇 가지(예: 이므로 매우 적은 수) 기본 '모양'들의 코드()가 들어있어요.
    • 방금 계산한 '핵심 모양 코드 후보()'를 이 '표준 모양 사전'에 있는 코드들과 비교해서, 가장 비슷한 표준 모양 코드()를 선택해요 (수식 2). 이렇게 선택된 가 바로 우리가 이해할 수 있는 '이 조각의 대표 모양'이 되는 거예요! 이 과정에서 모양 코드를 매우 단순하게 만듦으로써(차원을 8로 줄임), 정말 핵심적인 '모양' 정보만 남기려고 해요.
  4. 선택된 '표준 모양'이 진짜 잘 맞는지 확인하기 (Shape Decoder ):
    • 선택된 '표준 모양 코드()'에다가 해당 조각의 실제 크기()와 높낮이()를 다시 적용해서 원래 그래프 조각과 얼마나 비슷한지 확인해요 (수식 3). 이 과정을 통해 '표준 모양 사전'이 점점 더 좋아지도록 학습해요.
  5. 모든 조각 정보 합쳐서 원래 데이터 복원하기 (Attribute Encoding & TS Decoder ):
    • 이제 각 조각마다 얻은 '표준 모양 코드()'와 나머지 4가지 정보(높낮이, 크기, 시작점, 길이)를 합쳐요.
    • 이 합쳐진 정보들을 이용해서, 또 다른 부품(TS Decoder )이 원래의 심장 박동 그래프()를 최대한 비슷하게 다시 그려내요.

결론적으로 VQShape는, Time-series 데이터를 잘게 나눠서 각 조각을 (1) 매우 단순하고 이해하기 쉬운 '표준 모양 코드'와 (2) 그 외 부가 정보(높낮이, 크기 등)로 분리해서 이해하려고 해요. 특히 '표준 모양 코드'를 통해 사람이 데이터의 핵심 패턴을 쉽게 파악할 수 있도록 하는 것이 이 방법의 핵심 아이디어랍니다!

 

 

4 Pre-training

더보기

VQShape는 dataset-agnostic features와 tokens를 학습하기 위해 다양한 datasets에서 pre-trained됩니다. 이 섹션에서는 VQShape의 self-supervised training strategies와 objectives를 소개합니다. 그런 다음, model이 down-stream tasks에 제공할 수 있는 representations에 대해 논의합니다.

4.1 Objectives

Pre-training 단계에서 VQShape의 optimization objectives는 다음과 같이 요약됩니다.

Reconstructions. 대부분의 VQ-VAE 접근 방식과 유사하게, VQShape는 TS data modeling을 위한 필수적인 latent-space representations을 학습하기 위해 input TS를 정확하게 reconstruct하도록 trained됩니다. 추가적으로, interpretable representations을 제공하기 위해, decoded shapes는 실제 subsequences와 유사해야 합니다. 따라서, reconstruction은 다음 두 가지 objectives를 최소화합니다:

Time-series reconstruction: 

Subsequence reconstruction: 

Vector Quantization. 우리는 encoder 와 codebook 를 train하는 vector-quantization objective를 정의하기 위해 VQ-VAE를 따릅니다. 추가적으로, Yu et al.의 연구에서 영감을 받아 codebook usage를 장려하기 위해 추가적인 entropy 항들을 더합니다. 우리는 이러한 항들이 pre-training stability를 향상시키고 codebook usage의 collapse를 피할 수 있음을 발견했습니다. Codebook 학습을 위한 objective는 다음과 같이 정의됩니다: $ L_{vq} = |\hat{z} - \text{sg}(z)|_2^2 + \lambda_{commit}|\text{sg}(\hat{z}) - z|_2^2 \underbrace{}{\text{quantization}} + E[H(q(\hat{z}, Z))] - H(E[q(\hat{z}, Z)]) \underbrace{}{\text{codebook usage}}, \quad (6) $ 여기서 는 stop-gradient operator이고 는 discrete variables에 대한 entropy function입니다.    내의 모든 codes 간의 거리를 categorical distribution으로 측정합니다.

Disentanglement of shapes. Equation 5에서, attributes ()는 정확한 subsequence reconstructions을 향해 최적화됩니다. ()가 를 정의하기 때문에, abstracted shapes와 codebook을 학습하는 데 필수적이라는 점에 유의하는 것이 중요합니다. 그러나 유익한 subsequence selection을 위해 ()를 학습하는 데 Equation 4의 reconstruction으로부터의 gradients만을 사용하는 것은 어렵습니다. 따라서, 우리는 latent-space tokens (attributes)가 다양한 positions과 scales로 shape-level information을 포착하도록 장려하는 추가적인 regularization을 도입합니다. 이 regularization은 다음과 같이 정의됩니다: $ L_{div} = \frac{1}{K^2} \sum_{k_1=1}^{K} \sum_{k_2=1}^{K} \mathbf{1}(k_1 \neq k_2) \text{relu} \left( \epsilon - |\kappa(t_{k_1}, l_{k_1}) - \kappa(t_{k_2}, l_{k_2})|_2^2 \right), \text{ 여기서 } \kappa(t_k, l_k) = \begin{pmatrix} \cos(t_k\pi) \cdot \ln(l_k) / \ln(l_{min}) \ \sin(t_k\pi) \cdot \ln(l_k) / \ln(l_{min}) \end{pmatrix}. \quad (7) $ Equation 7에서, 는 (1) 작은  값들이 더 다양해지고 (2) 다른 로부터의 큰  값들이 더 집중되도록 ()를 공간으로 mapping하는 coordinate transformation을 정의합니다. 이 공간에서 서로 다른 ()를 다양하게 만듦으로써, 는 model이 local details를 포착하기 위해 short sequences의 사용을 늘리면서 disentangled shape-level information을 포착하도록 장려합니다. 그림 8은 transformation 의 예를 시각화합니다. 은 변환된 좌표에서 두 () samples이 충분히 다양하다고 간주되는 threshold distance를 정의하는 hyperparameter입니다.

전체 pre-training objective는 다음을 최소화하는 것입니다: $ L_{pretrain} = \lambda_x L_x + \lambda_s L_s + \lambda_{vq} L_{vq} + \lambda_{div} L_{div}, \quad (8) $ 여기서 는 components 간의 weighting을 정의하는 hyperparameters입니다. VQShape의 pre-training 동안, 우리는 로 설정합니다.

Design Analysis. 전반적으로, VQShape의 encoding process (Transformer encoder와 attribute decoder)는 univariate TS를 그들의 position, length, offset, scale과 함께 abstracted shapes의 집합을 사용하여 representing하고 summarizing함으로써 inductive bias를 도입합니다. Pre-training objectives는 components가 interpretable representations (Equation 5의 subsequence reconstruction을 통해)과 disentangled representations (Equation 7의 regularization을 통해)을 학습하도록 안내하는 동시에, TS를 설명하는 데 필요한 정보를 보존합니다 (Equation 4의 reconstruction을 통해). 이러한 objectives는 전통적인 deep autoencoder structure에 interpretability를 도입합니다. Universal codebook을 사용하여 다양한 datasets에서 pre-training함으로써, VQShape는 이 inductive bias를 더욱 활용하여 discrete하고 dataset-agnostic한 representations을 생성하며, 이는 TS data를 설명하는 primitives로 사용될 수 있는 abstracted shapes의 vocabulary를 만듭니다.

Model Configurations. Model size와 관련된 VQShape의 설정은 MOMENT-Small model의 설정과 일치합니다. 구체적으로, 우리는 모든 input univariate TS 를 길이가 가 되도록 interpolate하며, 이는  개의 patches로 나뉩니다. Encoder 와 decoder 의 Transformer layers는 8개의 heads, 의 embedding dimension, 그리고 크기 2048의 feed-forward layer를 가집니다. 우리는 8-layer encoder 와 2-layer decoder 의 asymmetric structure를 사용합니다. Codebook  개의 codes를 포함하며, 각 code는 dimension 을 가집니다. Subsequences 와 decoded sequences 는 길이 을 가집니다. 우리는 최소 shape 길이 로 설정합니다. 이러한 설정으로 VQShape는 37.1 million개의 parameters를 가집니다.

Pre-training 단계에서, 우리는 AdamW optimizer를 사용하여 VQShape를 train하며, weight decay , gradient clipping 1.0, 그리고 effective batch size 2048을 사용합니다. 우리는 초기 learning rate , 최종 learning rate , 그리고 1 epoch의 linear warm-up을 갖는 cosine learning rate schedule을 사용합니다. Pre-training dataset은 UEA Multivariate TS Classification Archive의 29개 datasets (InsectWingbeat dataset 제외)의 training split에서 추출한 univariate TS를 포함하여, 1,387,642개의 univariate TS로 구성됩니다. 우리는 이 dataset에서 VQShape를 50 epochs 동안 bfloat-16 mixed precision을 사용하여 train합니다.

4.2 Representations for down-stream tasks

VQShape는 Latent-space Tokens와 Code Histogram의 두 가지 유형의 representations을 제공합니다.

Tokens. VQ-VAE 및 VQ-GAN과 같은 일반적인 VQ approaches의 latent-space feature map과 유사하게, VQShape는 또한 representations으로서 tokens 집합을 제공합니다. Input univariate TS 에 대해, token representations은 로 구성됩니다. Token representations은 일반적인 down-stream tasks에 유용할 수 있지만 classification tasks에서는 code histogram representations보다 덜 interpretable합니다.

Code Histogram. Computer vision에서 개발된 Concept Bottleneck Models (CBMs)에서 영감을 받아, 우리는 각 를 TS data에 대한 concept으로 볼 수도 있습니다. CBMs가 representations으로서 concept scores를 가지는 것처럼, VQShape는 codes의 histogram 형태의 유사한 representation을 제공합니다. Equation 2를 기반으로, 우리는 또한 code indices의 vector를 가질 수 있습니다: $ q = \left[ q_k = \text{arg min}{q=1,\ldots,N{code}} |\hat{z}_k - z_q| \mid k = 1, \ldots, K \right]. \quad (9) $ 그러면, code histogram representation은 로 정의되며, 여기서 의 각 element는 에서 index 의 frequency입니다. 직관적으로, code histogram representation은 BOSS와 유사하지만 non-deterministic window size와 dataset-agnostic symbols를 가집니다. Classification tasks에서, 이러한 features에 기반한 classifiers는 해석하고 이해하기 쉬운 rule-like predictions를 생성할 수 있기 때문에 이러한 유형의 representation이 더 interpretable할 수 있습니다.

 

 

 

정리노트: 4 Pre-training (VQShape 논문)

AI 연구자를 위한 핵심 요약:

이 섹션은 VQShape model이 dataset-agnostic features와 interpretable tokens를 학습하기 위한 self-supervised pre-training 전략과 objectives, 그리고 학습된 representations을 상세히 설명합니다.

1. Pre-training Objectives (): VQShape는 4가지 주요 loss components의 가중합을 최소화하도록 학습됩니다 ( 적용).

  • Reconstruction Losses:
    • Time-series reconstruction (, Eq. 4): Input TS 전체를 정확히 복원하여 필수적인 latent-space representation 학습. 전통적인 autoencoder의 목표.
    • Subsequence reconstruction (, Eq. 5): Interpretability 핵심. Decoded shapes ()가 실제 subsequences ()와 유사하도록 강제. 이는 shape decoder 와 codebook 학습에 직접 기여.
  • Vector Quantization Loss (, Eq. 6): Encoder 와 codebook 학습.
    • VQ-VAE 표준항: Encoder가 codebook vector 에 가까운 를 출력하도록 ($ |\hat{z} - \text{sg}(z)|_2^2 $), codebook vector 는 encoder 출력 에 가까워지도록 ($ \lambda_{commit}|\text{sg}(\hat{z}) - z|_2^2 $) 학습. 는 stop-gradient.
    • 추가된 Entropy 항: . Codebook usage를 장려하고, pre-training 안정성 향상 및 codebook 사용량 편중(collapse) 방지. 와 codebook 내 모든 codes 간의 거리를 기반으로 한 categorical distribution.
  • Disentanglement of Shapes Loss (, Eq. 7):
    • 목적: Reconstruction loss만으로는 (subsequence의 시작 위치 및 길이)를 유의미하게 학습하기 어렵다는 점 해결. 다양한 subsequences 선택을 장려하여 shape-level information의 disentanglement 유도.
    • 메커니즘: 서로 다른 쌍들을 특정 변환 좌표계 상에서 분리시키는 regularization. $ \kappa(t_k, l_k) = (\cos(t_k\pi) \cdot \ln(l_k)/\ln(l_{min}), \sin(t_k\pi) \cdot \ln(l_k)/\ln(l_{min}))^T $. 이 변환은 짧은 를 더 다양하게, 서로 다른 의 긴 는 집중시켜 local details 포착 및 disentangled shape 정보 학습 촉진.

2. Design Analysis:

  • VQShape의 encoding process (Transformer encoder + attribute decoder)는 TS를 abstracted shapes와 그 attributes (position, length, offset, scale)로 표현/요약함으로써 inductive bias 도입.
  • Pre-training objectives는 다음을 학습하도록 유도:
    • Interpretable representations ( 통해).
    • Disentangled representations ( 통해).
    • 원본 정보 보존 ( 통해).
  • 다양한 datasets에 대한 pre-training과 universal codebook 사용은 discrete하고 dataset-agnostic한 representations, 즉 TS data 기술을 위한 primitives로서의 abstracted shapes vocabulary 생성.

3. Model Configurations & Pre-training Setup:

  • Model: MOMENT-Small과 유사. (input TS 길이), patches (), , 8-layer encoder, 2-layer decoder. Codebook : codes, (shape code 차원). (decoded shape 길이). 총 37.1M parameters.
  • Setup: AdamW optimizer, cosine learning rate schedule (), batch size 2048. UEA Archive 29개 datasets (약 1.38M univariate TS)에서 50 epochs, bfloat-16 mixed precision으로 학습.

4. Representations for Down-stream Tasks: VQShape는 두 가지 유형의 representation 제공.

  • Latent-space Tokens (): 각 input TS 에 대해 개의 attribute tuples 집합. 즉, 차원. 일반적인 down-stream task에 유용하나, classification에서는 Code Histogram보다 해석력이 낮음.
  • Code Histogram ():
    • 아이디어: Computer vision의 Concept Bottleneck Models (CBMs)에서 영감. 각 codebook entry 를 TS data의 'concept'으로 간주.
    • 생성: TS 개 segments에 대해 선택된 code indices (Eq. 9: )의 histogram. 차원 vector .
    • 특징: BOSS와 유사하나, non-deterministic window size 및 dataset-agnostic symbols 사용.
    • Interpretability: 이 histogram features 기반 classifier는 rule-like predictions 생성이 가능하여 해석 용이. (예: "code A가 많이 나타나고 code B가 적게 나타나면 class 1").

쉬운 설명 : 4 Pre-training

VQShape라는 AI 모델을 똑똑하게 만들기 위해 미리 학습시키는(pre-training) 과정을 살펴볼게요. 이 과정을 통해 모델은 어떤 종류의 time-series 데이터에도 잘 적용될 수 있는 기본적인 '눈'과 '이해력'을 갖추게 돼요.

1. VQShape 학습 목표: 무엇을 잘해야 할까?

VQShape 모델은 크게 네 가지 숙제를 동시에 잘하도록 훈련받아요.

  • 숙제 1 & 2: 원본 데이터 잘 따라 그리기 (Reconstruction )
    • 모델에게 time-series 데이터(예: 오늘의 주가 그래프)를 보여주고, "이 그래프랑 똑같이 다시 그려봐!" ()라고 시켜요. 이걸 잘해야 원래 데이터의 정보를 잘 간직하는 거겠죠?
    • 더 나아가, 그래프의 작은 부분 부분을 보여주면서 "이 부분은 네가 가진 '기본 모양' 중 어떤 것과 가장 비슷하니? 그 '기본 모양'에다가 실제 위치, 크기 정보를 더해서 이 부분을 다시 그려봐!" ()라고도 시켜요. 이걸 잘해야 모델이 가진 '기본 모양'들이 실제로 의미가 있고, 해석하기 좋아져요.
  • 숙제 3: '기본 모양 사전' 알차게 만들기 (Vector Quantization )
    • 모델은 '기본 모양 사전(codebook)'을 가지고 있는데, 이 사전의 '기본 모양'들이 다양하고 유용하게 사용되도록 해요. 특정 몇몇 모양만 계속 쓰지 않도록 하고(entropy 활용), 사전 자체가 데이터의 특징을 잘 반영하도록 업데이트해요.
  • 숙제 4: 다양한 관점에서 데이터 살피기 (Disentanglement of shapes )
    • 모델이 데이터를 볼 때, 너무 큰 그림만 보거나 너무 한 가지 패턴에만 꽂히지 않도록 해요. "그래프의 여러 위치에서, 다양한 길이의 조각들을 살펴보면서 각각의 '기본 모양'들을 찾아봐. 너무 비슷한 부분만 계속 보지 말고!" 이렇게 해서, 모델이 데이터의 다양한 측면(큰 흐름, 작은 디테일)을 골고루 포착하고, 각 '기본 모양'이 뚜렷한 자신만의 특징을 갖도록 유도해요.

이 모든 숙제들을 종합해서() 모델을 훈련시켜요.

2. VQShape 모델의 모습과 훈련 환경

  • 모델의 구조: VQShape는 MOMENT-Small이라는 다른 모델과 비슷한 크기를 가져요. 입력 데이터를 512 길이로 만들고, 이를 64개의 조각(patch)으로 나눠서 봐요. '기본 모양 사전'에는 512개의 '기본 모양'이 있고, 각 '기본 모양'은 단 8개의 숫자로 아주 간단하게 표현돼요. 전체적으로 약 3710만 개의 학습 가능한 파라미터(뇌세포 같은 것)를 가지고 있어요.
  • 훈련 데이터와 시간: 약 138만 개의 다양한 종류의 time-series 데이터를 사용해서 50번 반복 학습해요.

3. 학습 후 VQShape가 제공하는 것: 데이터 분석 결과물

이렇게 열심히 학습한 VQShape는 새로운 time-series 데이터를 보면 두 가지 방식으로 그 특징을 요약해서 알려줄 수 있어요.

  • 1. 상세한 '데이터 조각별 설명서' (Latent-space Tokens)
    • 데이터를 여러 조각(개)으로 나눠서, 각 조각()에 대해 "이 조각의 '기본 모양'은 사전의 O번 모양이고, 실제 위치는 여기, 길이는 이만큼, 높낮이는 이렇고, 크기는 이 정도야"라는 식으로 아주 상세한 정보를 제공해요. 이건 매우 자세한 정보지만, 한눈에 이해하기는 조금 복잡할 수 있어요.
  • 2. '기본 모양 출현 빈도표' (Code Histogram)
    • 이것이 VQShape의 핵심적인 해석 가능한 결과물이에요! 전체 데이터에서 '기본 모양 사전'에 있는 각각의 '기본 모양'들이 총 몇 번이나 나타났는지 세어서 표로 보여줘요. 예를 들어, "기본 모양 A: 5번 등장, 기본 모양 B: 10번 등장, 기본 모양 C: 0번 등장..." 이런 식이죠.
    • 마치 의사가 환자의 차트를 보고 "이 환자는 A 증상이 잦고 B 증상은 가끔 나타나는군. 따라서 C라는 병으로 진단할 수 있겠어."라고 판단하는 것과 비슷해요. 이 '출현 빈도표'를 보면, 왜 VQShape가 특정 데이터를 어떤 종류로 분류했는지 그 이유를 훨씬 쉽게 이해할 수 있답니다! 예를 들어 "이 주가 그래프는 '급상승 후 하락' 모양(기본 모양 X)이 자주 나타나므로 '단기 급등주 패턴'으로 분류합니다."와 같이 설명할 수 있게 되는 거죠.

 

 

 

 

 

주인장 이해...(헬...)

 

1. univariate TS (숫자들의 배열 형태로 입력.)
2. 1번의 데이터가 트랜스포머를 통과해서 B, 패치수 , 차원으로 됨 (H_k)
3. 2번의 피쳐가 attribute decoder를 통과하면 z햇이 나오게 됨. 
4. z햇을 가지고 코드북에 있는 유사한 코드를 선택해서 z를 리플레이스
5. z와 함께 높낮이, 크기, 상대적 위치, 상대적길이가 cat됨. -> 이걸 우린 Q 라고 해보자
6. Q를 바로 쓰는게 아니라 learnable linear projection를 거쳐서 D차원을 가지 hk로 변하게됨.
6. hk를 TS Decoder를 통과해서 나온 X햇과 원본 x를 MSEloss를 쓴다.  (Lx)
7. 또한 전체 예측이 아닌 서브시퀀스 별로도 예측, 이땐 Q에서 k번째만 씀. (Ls)

 

 

나머지 loss는 이해를 못했지만 암튼 코드북이 학습되고  다양하게 고르게끔 하는듯...