CROSSFORMER: TRANSFORMER UTILIZING CROSS DIMENSION DEPENDENCY FOR MULTIVARIATE TIME SERIES FORECASTING

Notice

Recent Posts

Recent Comments

Link

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

AI바라기의 인공지능

CROSSFORMER: TRANSFORMER UTILIZING CROSS DIMENSION DEPENDENCY FOR MULTIVARIATE TIME SERIES FORECASTING 본문

논문리뷰

CROSSFORMER: TRANSFORMER UTILIZING CROSS DIMENSION DEPENDENCY FOR MULTIVARIATE TIME SERIES FORECASTING

AI바라기 2025. 5. 16. 19:52

Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series Forecasting 학습 노트

용어 설명 (Terminology)

MTS (Multivariate Time Series): 여러 변수(dimension)로 구성된 시계열 데이터. (예: 날씨 데이터의 온도, 습도, 풍속 등)
Cross-Dimension Dependency: MTS에서 서로 다른 변수(dimension) 간의 상호 의존성. (예: 온도가 올라가면 습도가 변하는 관계)
Cross-Time Dependency: MTS에서 시간 축(time step) 상의 값들 간의 의존성. (예: 오늘의 온도가 어제의 온도에 영향을 받는 관계)
DSW (Dimension-Segment-Wise) Embedding: 각 차원의 시계열을 일정한 길이의 segment로 나누어 각각을 embedding vector로 변환하는 방식. 이를 통해 시간과 차원 정보를 2D vector array 형태로 보존.
TSA (Two-Stage Attention) Layer: DSW embedding으로 얻은 2D vector array에 대해, 먼저 Cross-Time Stage에서 각 차원별 시간적 의존성을 포착하고, 그 다음 Cross-Dimension Stage에서 차원 간 의존성을 포착하는 2단계 attention layer.
Router Mechanism: TSA layer의 Cross-Dimension Stage에서, 모든 차원 간 직접적인 attention (O(D^2)) 대신 소수의 고정된 "router" vector (개수 c)를 매개로 정보를 교환하여 계산 복잡도를 O(D)로 줄이는 메커니즘.
HED (Hierarchical Encoder-Decoder): DSW embedding과 TSA layer를 기반으로, encoder에서 segment를 병합하며 다양한 scale의 정보를 포착하고, decoder에서 각 scale의 정보를 활용해 예측하는 계층적 구조.
L_seg: DSW embedding 시 사용되는 segment의 길이.
c: TSA layer의 Cross-Dimension Stage에서 사용되는 router vector의 개수.

Purpose of the Paper

기존 Transformer 기반 MTS 예측 모델들이 주로 temporal dependency (cross-time dependency) 모델링에 집중하고, MTS 예측에 매우 중요한 cross-dimension dependency를 간과하거나 암시적으로만 활용하는 한계를 극복하고자 함.
기존 Transformer 모델들은 (논문의 Fig. 1 (b)처럼) 각 time step에서 모든 dimension의 데이터를 하나의 vector로 embedding하여 cross-time dependency는 잘 포착하지만, cross-dimension dependency 포착에는 구조적으로 미흡하다는 문제 인식에서 출발.

Key Contributions & Novelty

Contribution 1: Cross-dimension dependency를 명시적으로 활용하는 Transformer 기반 MTS 예측 모델 "Crossformer" 제안.
- Novelty: Transformer 아키텍처 내에서 cross-dimension dependency를 적극적으로, 그리고 명시적으로 모델링하려는 (저자들의 주장에 따르면) 최초의 시도 중 하나.
Contribution 2: DSW (Dimension-Segment-Wise) Embedding 개발.
- Novelty: 기존의 time-step-wise embedding 방식 (한 시점의 모든 변수를 하나의 벡터로) 대신, 각 dimension 내의 시계열을 segment 단위로 나누어 embedding (마치 ViT에서 이미지를 patch로 나누듯). 이를 통해 시간(segment)과 차원(dimension) 정보를 2D vector array 형태로 보존하여 후속 layer에서 두 종류의 dependency를 모두 고려할 수 있게 함.
Contribution 3: TSA (Two-Stage Attention) Layer 제안.
- Novelty: DSW embedding으로 생성된 2D vector array를 효율적으로 처리하기 위해, (1) Cross-Time Stage (각 dimension 내 segment 간 attention)와 (2) Cross-Dimension Stage (다른 dimension의 segment 간 attention)를 순차적으로 적용. 특히 Cross-Dimension Stage에서는 router mechanism을 도입하여 dimension 수 D에 대해 선형 복잡도(O(D))를 달성함으로써 scalability 확보.
Contribution 4: DSW embedding과 TSA layer를 활용한 HED (Hierarchical Encoder-Decoder) 구조 구축.
- Novelty: (Pyraformer, Autoformer 등과 유사하게) 계층적 구조를 통해 다양한 시간적 scale의 정보를 포착하고 예측에 활용. Crossformer에서는 이 계층 구조를 DSW embedding 및 TSA layer와 결합하여 구현.

Experimental Highlights

Datasets: ETTh1, ETTm1, WTH (Weather), ECL (Electricity Consuming Load), ILI (Influenza-Like Illness), Traffic (6개의 널리 사용되는 real-world MTS datasets).
Metrics: MSE (Mean Square Error), MAE (Mean Absolute Error).
Baselines: LSTMa, LSTnet, MTGNN, Transformer, Informer, Autoformer, Pyraformer, FEDformer.
Key Result 1 (SOTA Performance): Crossformer가 6개 데이터셋, 다양한 예측 길이 및 metric에 걸쳐 총 58개 설정 중 36개에서 top-1, 51개에서 top-2를 기록하며 기존 SOTA 모델들 대비 우수한 성능을 보임 (Table 1).
- 특히 GNN 기반인 MTGNN이 많은 Transformer 기반 모델보다 좋은 성능을 보이는 경우가 있는데, 이는 cross-dimension dependency 포착의 중요성을 시사하며, Crossformer는 이를 Transformer 프레임워크 내에서 효과적으로 달성.
Key Result 2 (Ablation Study): DSW embedding, TSA layer, HED 구조 각각이 모델 성능 향상에 기여함을 검증 (Table 2). 특히 DSW embedding 만으로도 기존 Transformer 방식보다 개선된 결과를 보이며, TSA layer 추가 시 성능이 더욱 향상됨.
Key Result 3 (Computational Efficiency): DSW embedding과 TSA layer의 router mechanism 덕분에, Crossformer는 입력 길이 T가 극단적으로 크지 않은 경우(논문에서는 T < 10^4) 기존 Transformer 기반 모델들보다 메모리 효율성이 우수하며 (Fig 4c), dimension 수 D에 대해 선형적인 메모리 복잡도를 가짐 (Fig 4d).

Limitations and Future Work

Limitation 1 (Cross-Dimension Stage Noise): TSA의 Cross-Dimension Stage에서 router mechanism을 사용하지만, 기본적으로 모든 dimension 간의 (간접적인) full connection을 가정. 이는 high-dimensional dataset에서 관련 없는 dimension 간의 노이즈를 학습할 가능성이 있음.
- Future Work 1: Sparse하고 효율적인 Graph Transformer (e.g., Wu et al., 2022의 Nodeformer) 아이디어를 TSA layer에 접목하여, dimension 간의 sparse한 관계를 학습하고 노이즈를 줄이며 계산 효율성도 높이는 방안 연구.
Limitation 2 (Permutation Invariance & Ordering): 동시기에 발표된 DLinear (Zeng et al., 2023) 연구는 Transformer의 self-attention mechanism이 permutation-invariant하여 시계열 데이터의 순서 정보를 제대로 활용하기 어렵다고 지적. Crossformer도 Transformer 기반이므로 이 문제에서 자유롭지 못할 수 있음.
- Future Work 2: Transformer의 순서 보존(ordering preserving) 능력을 강화하기 위한 연구 (e.g., 텍스트나 비전 분야에서 사용되는 relative position encoding 등)를 MTS에 맞게 적용하는 방안 모색.
Limitation 3 (Dataset Scale & Complexity): 현재 MTS 분석에 사용되는 벤치마크 데이터셋들은 vision이나 NLP 분야의 데이터셋에 비해 그 규모가 훨씬 작고 패턴도 상대적으로 단순함.
- Future Work 3: 새로운 모델 개발과 더불어, 다양하고 복잡한 패턴을 가진 대규모 MTS dataset을 구축하여 모델의 일반화 성능과 잠재력을 충분히 검증할 필요성 제기.

Overall Summary

Crossformer는 다변량 시계열 예측에서 기존 Transformer 모델들이 간과했던 cross-dimension dependency를 명시적으로 포착하고자 DSW embedding, TSA layer (router mechanism 포함), HED 구조를 새롭게 제안한 모델이다. 6개의 real-world dataset에서 SOTA 수준의 성능을 달성하며, 특히 Transformer 아키텍처 내에서 시간적 의존성뿐만 아니라 변수 간 의존성까지 효과적으로 모델링할 수 있음을 보였다. 이 연구는 MTS 예측 분야에서 Transformer의 활용 가능성을 넓히고, 향후 high-dimensional 데이터 처리, 순서 정보 강화, 대규모 데이터셋 기반 연구의 필요성을 제시하며 MTS 예측 기술 발전에 기여할 수 있다.

쉬운 설명 (Easy Explanation)

기존의 시계열 예측 Transformer 모델들은 주로 "시간의 흐름에 따른 변화 패턴 (temporal dependency)"에만 집중하는 경향이 있었습니다. 예를 들어, 어제 날씨를 보고 오늘 날씨를 예측하는 식이죠. 하지만 다변량 시계열 데이터에서는 "여러 변수들 사이의 관계 (cross-dimension dependency)"도 매우 중요합니다. 예를 들어, 온도가 올라가면 습도도 변하고, 이는 다시 강수량에 영향을 줄 수 있습니다.

Crossformer는 바로 이 "변수들 사이의 숨겨진 관계"를 Transformer가 잘 파악하도록 설계되었습니다.

먼저, 각 변수(온도, 습도 등)의 데이터를 시간 순서대로 잘게 "토막(segment)"내어 정보를 정리합니다 (DSW Embedding). 마치 표처럼 시간 토막들과 변수들이 2차원으로 배열됩니다.
그 다음, 이 "2차원 정보 표"에서 두 단계로 중요한 정보를 뽑아냅니다 (TSA Layer):
- 첫째, 각 변수별로 시간 토막들 사이의 관계를 살핍니다 (Cross-Time).
- 둘째, 서로 다른 변수들의 토막들 사이의 관계를 살핍니다 (Cross-Dimension). 이때, 변수가 너무 많으면 계산이 복잡해지므로, 똑똑한 "중개자(router)" 몇 명을 두어 효율적으로 정보를 교환합니다.
마지막으로, 이런 정보들을 다양한 시간 스케일(짧은 기간, 긴 기간)에서 종합적으로 고려하여 (HED) 최종 예측을 내놓습니다.

결과적으로 Crossformer는 "시간의 흐름"과 "변수 간의 관계"를 모두 효과적으로 학습하여 더 정확한 예측을 할 수 있게 됩니다.

ABSTRACT

최근 많은 deep models이 multivariate time series (MTS) forecasting을 위해 제안되었습니다. 특히, Transformer-based models은 long-term dependency를 포착할 수 있기 때문에 큰 잠재력을 보여주었습니다. 그러나 기존의 Transformer-based models은 주로 temporal dependency (cross-time dependency)를 modeling하는 데 중점을 두지만, MTS forecasting에 중요한 다른 변수들 간의 dependency (cross-dimension dependency)는 종종 생략합니다. 이러한 차이를 메우기 위해, 우리는 MTS forecasting을 위해 cross-dimension dependency를 활용하는 Transformer-based model인 Crossformer를 제안합니다. Crossformer에서, input MTS는 time 및 dimension 정보를 보존하기 위해 Dimension-Segment-Wise (DSW) embedding을 통해 vector array로 embedded 됩니다. 그 다음, cross-time 및 cross-dimension dependency를 효율적으로 포착하기 위해 Two-Stage Attention (TSA) layer가 제안됩니다. DSW embedding과 TSA layer를 활용하여, Crossformer는 final forecasting을 위해 다른 scales의 정보를 사용하는 Hierarchical Encoder-Decoder (HED)를 구축합니다. 6개의 실제 datasets에 대한 광범위한 실험 결과는 이전 state-of-the-art에 대한 Crossformer의 효과를 보여줍니다.

1 INTRODUCTION

Multivariate time series (MTS)는 여러 dimensions를 가진 time series이며, 각 dimension은 특정 univariate time series (예: 날씨의 기후 feature)를 나타냅니다. MTS forecasting은 MTS의 과거 값을 사용하여 미래 값을 forecast하는 것을 목표로 합니다. MTS forecasting은 downstream tasks의 의사 결정에 도움이 되며 날씨, 에너지, 금융 등 많은 분야에서 널리 사용됩니다. deep learning의 발전과 함께 많은 models이 제안되었으며 MTS forecasting에서 우수한 성능을 달성했습니다. 그중에서도 최근 Transformer-based models은 long-term temporal dependency (cross-time dependency)를 포착하는 능력 덕분에 큰 잠재력을 보여줍니다.

cross-time dependency 외에도 cross-dimension dependency는 MTS forecasting에 매우 중요합니다. 즉, 특정 dimension의 경우 다른 dimensions의 관련 series 정보가 prediction을 향상시킬 수 있습니다. 예를 들어, 미래 온도를 예측할 때 과거 온도뿐만 아니라 과거 풍속도 forecast에 도움이 됩니다. 일부 이전 neural models은 cross-dimension dependency를 명시적으로 포착합니다. 즉, latent feature space에 dimensions 정보를 보존하고 convolution neural network (CNN) 또는 graph neural network (GNN)를 사용하여 해당 dependency를 포착합니다. 그러나 최근 Transformer-based models은 embedding을 통해 이 dependency를 암묵적으로만 활용합니다. 일반적으로 Transformer-based models은 동일한 time step에서 모든 dimensions의 data points를 하나의 feature vector로 embed하고 다른 time steps 간의 dependency를 포착하려고 합니다. 이러한 방식으로는 cross-time dependency는 잘 포착되지만 cross-dimension dependency는 그렇지 않아 forecasting capability가 제한될 수 있습니다. 이러한 차이를 메우기 위해, 우리는 MTS forecasting을 위해 cross-dimension dependency를 명시적으로 활용하는 Transformer-based model인 Crossformer를 제안합니다. 구체적으로, 우리는 과거 time series를 처리하기 위해 Dimension-Segment-Wise (DSW) embedding을 고안합니다. DSW embedding에서 각 dimension의 series는 먼저 segments로 분할된 다음 feature vectors로 embedded 됩니다. DSW embedding의 output은 vector array이며, 두 축은 time과 dimension에 해당합니다. 그런 다음 vector array 사이의 cross-time 및 cross-dimension dependency를 효율적으로 포착하기 위해 Two-Stage-Attention (TSA) layer를 제안합니다. DSW embedding과 TSA layer를 사용하여 Crossformer는 forecasting을 위한 Hierarchical Encoder-Decoder (HED)를 구축합니다. HED에서 각 layer는 하나의 scale에 해당합니다. encoder의 상위 layer는 하위 layer에 의해 output된 인접한 segments를 병합하여 더 거친 scale에서 dependency를 포착합니다. Decoder layers는 다른 scales에서 predictions를 생성하고 이를 합산하여 final prediction을 만듭니다. 이 논문의 contributions는 다음과 같습니다:

우리는 MTS forecasting을 위한 기존 Transformer-based models을 심층적으로 분석하고 cross-dimension dependency가 잘 활용되지 않는다는 것을 발견했습니다: 이러한 models은 특정 time step에서 모든 dimensions의 data points를 단일 vector로 단순히 embed하고 다른 time steps 간의 cross-time dependency를 포착하는 데 중점을 둡니다. cross-dimension dependency에 대한 적절하고 명시적인 mining 및 utilization 없이는 이들의 forecasting capability가 경험적으로 제한됨을 보여줍니다.
우리는 MTS forecasting을 위해 cross-dimension dependency를 활용하는 Transformer model인 Crossformer를 개발합니다. 이것은 MTS forecasting을 위해 cross-dimension dependency를 명시적으로 explores하고 utilizes하는 몇 안 되는 transformer models 중 하나(아마도 우리가 아는 한 최초일 것)입니다.
6개의 실제 benchmarks에 대한 광범위한 실험 결과는 이전 state-of-the-arts에 대한 우리 Crossformer의 효과를 보여줍니다. 구체적으로, Crossformer는 다양한 prediction lengths 및 metrics의 58개 settings 중 36개에서 비교 대상 9개 models 중 top-1을 차지했으며, 51개 settings에서 top-2를 차지했습니다.

정리노트: 1 INTRODUCTION (Crossformer 논문)

연구 배경 및 문제점:

MTS forecasting의 중요성 증대 및 deep learning models, 특히 Transformer-based models의 long-term temporal dependency 포착 능력에 대한 주목.
기존 Transformer-based models의 한계: 주로 cross-time dependency에 집중, MTS forecasting에 치명적인 cross-dimension dependency (변수 간 상호 의존성)를 효과적으로 포착 및 활용하지 못함.
- 일반적으로 여러 dimensions의 data points를 단일 time step에서 하나의 feature vector로 embed하여 time steps 간의 관계에만 집중.

제안 모델: Crossformer

MTS forecasting에서 cross-dimension dependency를 명시적으로 활용하는 새로운 Transformer-based model.
핵심 구성 요소:
1. Dimension-Segment-Wise (DSW) embedding:
  - 각 dimension의 series를 독립적으로 segments로 분할 후 feature vectors로 embedding.
  - 결과적으로 time과 dimension 축을 갖는 vector array를 생성하여, dimension별 정보 구조를 보존.
2. Two-Stage Attention (TSA) layer:
  - DSW embedding으로 생성된 vector array에 작용.
  - Cross-time dependency와 cross-dimension dependency를 효율적으로 동시 포착.
3. Hierarchical Encoder-Decoder (HED):
  - DSW embedding과 TSA layer를 활용.
  - 다양한 scales에서 정보를 통합하여 final forecasting 수행.
  - Encoder: 상위 layer에서 하위 layer의 인접 segments를 병합하며 거친 scale의 dependency 포착.
  - Decoder: 여러 scales에서 predictions을 생성하고 합산하여 final prediction 도출.

주요 Contributions:

기존 Transformer-based models이 MTS forecasting에서 cross-dimension dependency를 충분히 활용하지 못함을 지적. (단순 embedding 후 cross-time dependency에만 집중).
Crossformer 제안: MTS forecasting을 위해 cross-dimension dependency를 명시적으로 explores하고 utilizes하는 선구적인 Transformer model 중 하나.
실험적 검증: 6개 실제 benchmarks에서 SOTA (state-of-the-arts) 달성.
- 9개 비교 models 중 58개 settings (다양한 prediction lengths 및 metrics) 중 36개에서 top-1, 51개 settings에서 top-2 기록.

쉬운 설명: 1 INTRODUCTION (Crossformer 논문)

이 논문의 "INTRODUCTION" 섹션은 다음과 같은 이야기를 하고 있어요.

1. 요즘 이런 게 중요해요: 여러 정보를 한 번에 예측하기!

Multivariate time series (MTS) forecasting이라는 기술이 있어요. 이건 마치 날씨를 예측할 때 온도, 습도, 풍속 등 여러 요소(dimensions)가 시간(time series)에 따라 어떻게 변할지 한꺼번에 예측하는 것과 같아요. 이런 예측은 여러 분야에서 중요하게 쓰인답니다.
최근 deep learning 기술, 특히 Transformer-based models이라는 똑똑한 인공지능 모델이 시간에 따른 긴 패턴(long-term temporal dependency)을 잘 찾아내서 주목받고 있어요.

2. 그런데 기존 똑똑이들에게 부족한 점이 있었어요.

기존 Transformer-based models은 각 변수가 시간 흐름에 따라 어떻게 변하는지(cross-time dependency, 예: 오늘의 온도가 내일의 온도에 미치는 영향)는 잘 파악해요.
하지만 여러 변수들이 서로 어떻게 영향을 주고받는지(cross-dimension dependency, 예: 풍속이 온도 예측에 어떤 도움을 주는지)는 잘 고려하지 못했어요. 마치 여러 악기를 동시에 연주하는데, 각 악기의 시간별 멜로디만 신경 쓰고 악기들 간의 화음은 놓치는 것과 비슷해요. 이게 MTS forecasting에서는 꽤 중요한 문제였죠.

3. 그래서 새로운 해결책, Crossformer가 등장했어요!

연구팀은 이 문제를 해결하기 위해 Crossformer라는 새로운 Transformer-based model을 만들었어요. 이 모델은 변수들 사이의 관계(cross-dimension dependency)도 똑똑하게 파악하려고 해요.
Crossformer의 특별한 점:
- 정보를 똑똑하게 정리해요 (Dimension-Segment-Wise (DSW) embedding): 각 변수(dimension)의 시간 흐름(series)을 따로따로 살펴보고, 이걸 잘게 나눈(segments) 다음, 컴퓨터가 이해하기 쉽게 정리(embedding)해요. 이렇게 하면 각 변수의 개별적인 특징과 시간 정보를 모두 담은 일종의 표( vector array)가 만들어져요.
- 두 가지 관점에서 주목해요 (Two-Stage Attention (TSA) layer): 위에서 만든 표를 가지고, 시간의 흐름에 따른 변화(cross-time)와 변수들 사이의 관계(cross-dimension)를 동시에 효과적으로 파악해요.
- 단계별로 종합해서 예측해요 (Hierarchical Encoder-Decoder (HED)): 정보를 큰 그림(coarser scale)으로도 보고, 세부적으로도(fine scale) 보면서 계층적으로 분석한 다음, 최종 예측(final forecasting)을 내놓아요.

4. 이 연구가 왜 중요할까요? (Contributions)

이 논문은 기존 Transformer-based models이 "변수들 간의 관계"라는 중요한 부분을 놓치고 있었다는 점을 짚어냈어요.
그리고 Crossformer라는, 이 "변수들 간의 관계"를 적극적으로 활용하는 거의 최초의 Transformer model을 제안했다는 점에서 의미가 커요.
실제로 여러 실험(benchmarks)에서 Crossformer가 기존 최고 성능(state-of-the-arts) 모델들보다 더 예측을 잘한다는 것을 보여줬어요! 예를 들어, 58가지 다른 조건에서 테스트했을 때 36번이나 1등을 했답니다.

쉽게 말해, Crossformer는 여러 가지 정보를 동시에 예측해야 할 때, 각 정보가 시간에 따라 어떻게 변하는지 뿐만 아니라 정보들끼리 서로 어떤 영향을 주는지까지 고려해서 더 정확한 예측을 하도록 만들어진 새로운 인공지능 모델이라고 할 수 있습니다!

2 RELATED WORKS

Multivariate Time Series Forecasting.

MTS forecasting models은 대략적으로 statistical models과 neural models로 나눌 수 있습니다. Vector auto-regressive (VAR) model과 Vector auto-regressive moving average (VARMA)는 일반적인 statistical models이며, linear한 cross-dimension dependency와 cross-time dependency를 가정합니다. deep learning의 발전과 함께 많은 neural models이 제안되었으며, 종종 statistical models보다 더 나은 performance를 경험적으로 보여줍니다. TCN과 DeepAR은 MTS data를 vectors의 sequence로 취급하고 CNN/RNN을 사용하여 temporal dependency를 포착합니다. LSTnet은 CNN을 사용하여 cross-dimension dependency를 포착하고 RNN을 사용하여 cross-time dependency를 포착합니다. 또 다른 연구 범주는 graph neural networks (GNNs)를 사용하여 forecasting을 위해 cross-dimension dependency를 명시적으로 포착합니다. 예를 들어, MTGNN은 temporal convolution 및 graph convolution layers를 사용하여 cross-time 및 cross-dimension dependency를 포착합니다. 이러한 neural models은 CNN 또는 RNN을 통해 cross-time dependency를 포착하지만, 이는 long-term dependency를 modeling하는 데 어려움이 있습니다.

Transformers for MTS Forecasting.

Transformers는 natural language processing (NLP), vision (CV) 및 speech processing에서 성공을 거두었습니다. 최근에는 MTS forecasting을 위해 많은 Transformer-based models이 제안되었으며 큰 잠재력을 보여주고 있습니다. LogTrans는 Transformer의 computation complexity를 에서 로 줄이는 LogSparse attention을 제안합니다. Informer는 KL divergence estimation을 통해 attention score의 sparsity를 활용하고 complexity를 달성하는 ProbSparse self-attention을 제안합니다. Autoformer는 Transformer에 Auto-Correlation mechanism을 갖춘 decomposition architecture를 도입하여 complexity를 달성합니다. Pyraformer는 다양한 resolutions에서 features를 요약하고 의 complexity로 다양한 범위의 temporal dependencies를 models하는 pyramidal attention module을 도입합니다. FEDformer는 time series가 frequency domain에서 sparse representation을 갖는다고 제안하고 complexity의 frequency enhanced Transformer를 개발합니다. Preformer는 embedded feature vector sequence를 segments로 나누고 forecasting을 위해 segment-wise correlation-based attention을 활용합니다. 이러한 models은 주로 cross-time dependency modeling의 complexity를 줄이는 데 중점을 두지만, MTS forecasting에 중요한 cross-dimension dependency는 생략합니다.

Vision Transformers.

Transformer는 초기에 NLP에서 sequence modeling을 위해 적용되었지만, 최근 연구에서는 images를 처리하기 위해 transformer를 CV tasks에 적용합니다. 이러한 연구들은 CV의 다양한 tasks에서 state-of-the-art performance를 달성하며 우리 연구에 영감을 주었습니다. ViT는 vision transformers의 선구자 중 하나입니다. ViT의 기본 idea는 image를 겹치지 않는 중간 크기의 patches로 분할한 다음, 이 patches를 Transformer에 input될 sequence로 재정렬하는 것입니다. images를 patches로 partitioning하는 idea는 MTS가 dimension-wise segments로 분할되는 우리의 DSW embedding에 영감을 주었습니다. Swin Transformer는 complexity를 줄이기 위해 window 내에서 local attention을 수행하고 image patches를 merging하여 hierarchical feature maps를 구축합니다. vision transformers에 대한 포괄적인 연구는 최근 survey를 참조할 수 있습니다.

정리노트: 2 RELATED WORKS (Crossformer 논문)

이 섹션은 Crossformer가 어떤 기존 연구들의 맥락 위에서 제안되었는지, 그리고 어떤 차별점을 가지는지를 이해하는 데 중요합니다.

1. Multivariate Time Series (MTS) Forecasting 연구 동향:

Statistical Models (예: VAR, VARMA): 전통적 접근법. 변수 간(cross-dimension) 및 시간적(cross-time) dependency를 linear하다고 가정하는 한계.
Neural Models: Deep learning 기반으로, 일반적으로 더 나은 performance.
- CNN/RNN 기반 (예: TCN, DeepAR, LSTnet):
  - MTS data를 vector sequence로 처리, temporal dependency 포착.
  - LSTnet: CNN으로 cross-dimension dependency, RNN으로 cross-time dependency 분리 포착 시도.
  - 한계: CNN/RNN은 long-term dependency modeling에 어려움.
- GNN 기반 (예: MTGNN):
  - **Graph neural networks (GNNs)**를 사용해 cross-dimension dependency를 명시적으로 modeling.
  - MTGNN: Temporal convolution과 graph convolution layers로 두 dependency 동시 처리.
- Crossformer와의 관계점: 기존 neural models들이 cross-dimension과 cross-time dependency를 다루려는 다양한 시도를 했음을 보여줌. Crossformer는 특히 Transformer 구조 내에서 이 두 가지를 효과적으로 통합하려는 목표.

2. Transformers for MTS Forecasting 연구 동향:

NLP, CV 등에서 성공한 Transformers를 MTS forecasting에 적용하려는 다수 연구 등장 (예: LogTrans, Informer, Autoformer, Pyraformer, FEDformer, Preformer).
주요 초점: Long-term temporal dependency를 잘 포착하기 위해 Transformer의 높은 computation complexity()를 낮추는 것 (, 등).
- LogTrans: LogSparse attention.
- Informer: ProbSparse self-attention.
- Autoformer: Auto-Correlation mechanism.
- Pyraformer: Pyramidal attention module.
- FEDformer: Frequency enhanced Transformer.
- Preformer: Segment-wise correlation-based attention.
핵심 한계점 (Crossformer의 등장 배경): 이들 모델은 cross-time dependency modeling의 효율성 향상에 주로 집중, MTS forecasting에 매우 중요한 cross-dimension dependency는 간과하거나 부적절하게 다룸.
- Crossformer와의 관계점: Crossformer는 기존 MTS Transformer들이 놓치고 있던 cross-dimension dependency의 명시적이고 효과적인 활용이라는 특정 '틈새'를 공략.

3. Vision Transformers (ViT) 연구 동향:

ViT (Vision Transformer): Image를 non-overlapping medium-sized patches로 분할하고, 이를 sequence로 만들어 Transformer에 input하는 idea 제시.
Swin Transformer: Window 기반 local attention, image patches merging을 통한 hierarchical feature maps 구축.
Crossformer와의 관계점: ViT의 image를 patches로 나누는 idea가 Crossformer의 Dimension-Segment-Wise (DSW) embedding (MTS를 dimension-wise segments로 분할) 설계에 직접적인 영감을 줌. 즉, 다른 domain에서 성공한 architecture idea를 MTS에 맞게 변형 적용.

결론적으로, RELATED WORKS는 Crossformer가 (1) 기존 MTS 모델들의 long-term dependency 및 GNN 외의 cross-dimension dependency 처리 방식의 한계, (2) 기존 MTS Transformer들의 cross-dimension dependency에 대한 무관심, (3) Vision Transformer의 성공적인 patching 아이디어를 종합적으로 고려하여 개발되었음을 시사합니다.

쉬운 설명: 2 RELATED WORKS (Crossformer 논문)

이 "RELATED WORKS" 섹션은 "우리 Crossformer 모델이 나오기 전에 다른 사람들은 비슷한 문제를 어떻게 풀려고 했을까요? 그리고 우리는 거기서 어떤 아이디어를 얻었을까요?"를 설명하는 부분이에요.

1. 여러 가지 시간에 따른 정보(MTS)를 예측하려는 노력들:

옛날 방식 (Statistical Models): 예전에는 수학 공식을 써서 예측했어요. "A가 변하면 B도 직선처럼 변할 거야" 같이 좀 단순하게 생각하는 경향이 있었죠. (cross-dimension, cross-time dependency를 linear하다고 가정)
요즘 AI 방식 (Neural Models): 인공지능(deep learning)을 쓰니 예측을 더 잘하게 됐어요.
- 어떤 AI(TCN, DeepAR)는 시간에 따른 각 정보의 변화(temporal dependency)를 살폈고,
- 다른 AI(LSTnet)는 정보들 사이의 관계(cross-dimension dependency)와 시간 변화를 따로 보려고 했어요.
- 또 다른 AI(GNNs, MTGNN)는 "정보 A와 정보 B는 서로 친구!"처럼 관계도를 그려서(graph) 예측에 활용하기도 했어요.
- 하지만 이런 AI들도 오랫동안의 기억(long-term dependency)을 다루는 데는 좀 약점이 있었어요.

2. 똑똑한 Transformer라는 AI를 시간 예측에 써보자! (Transformers for MTS Forecasting):

Transformer라는 AI는 원래 글(NLP)이나 그림(CV)을 이해하는 데 아주 뛰어났어요. 특히 긴 내용을 잘 기억해서, 시간 예측에도 써보려는 시도가 많았죠.
그래서 LogTrans, Informer, Autoformer 같은 여러 Transformer-based models이 나왔어요. 이 모델들은 주로 Transformer가 너무 계산을 많이 하지 않도록(의 complexity를 줄임) 해서 *시간에 따른 긴 변화 패턴(cross-time dependency)*을 더 잘 포착하는 데 집중했어요.
하지만 결정적인 문제! 이 모델들은 "온도가 시간에 따라 어떻게 변하나?" 같은 개별 정보의 시간 흐름에는 신경 썼지만, "온도, 습도, 바람이 서로 어떤 영향을 주고받을까?" 하는 *정보들 사이의 관계(cross-dimension dependency)*는 제대로 못 봤어요. Crossformer는 바로 이 부분을 파고든 거예요!

3. 그림을 이해하는 AI에게서 얻은 힌트! (Vision Transformers):

한편, 그림을 이해하는 AI 분야에서는 **ViT(Vision Transformer)**라는 모델이 인기를 끌었어요. ViT는 그림을 여러 조각(patches)으로 잘라서 각 조각을 순서대로 보는 방식으로 그림 전체를 이해했어요.
Crossformer 개발팀은 여기서 아이디어를 얻었어요! "그림을 조각내서 보듯이, 우리도 각 시간 정보(dimension)를 여러 구간(segments)으로 나눠서 보면 어떨까?" 이게 바로 Crossformer의 핵심 기술 중 하나인 DSW embedding의 시작이었답니다.

정리하면, "RELATED WORKS"는 Crossformer가 이전 연구들이 가진 아쉬운 점(특히, 정보들 사이의 관계를 잘 못 보는 점)을 개선하고, 다른 분야 AI의 좋은 아이디어(그림 조각내기)를 빌려와서 새롭게 만들어졌다는 배경 이야기를 들려주는 거예요!

3 METHODOLOGY

Multivariate time series forecasting에서는 과거 가 주어졌을 때 미래의 time series 값을 예측하는 것을 목표로 합니다. 여기서 , 는 각각 미래와 과거의 time steps 수입니다. 은 dimensions의 수입니다. 자연스러운 가정은 이러한 개의 series가 연관되어 있으며 (예: 날씨의 기후 features), 이는 forecasting 정확도를 향상시키는 데 도움이 된다는 것입니다. Cross-dimension dependency를 활용하기 위해, Section 3.1에서는 Dimension-Segment-Wise (DSW) embedding을 사용하여 MTS를 embed합니다. Section 3.2에서는 embedded 된 segments 간의 dependency를 효율적으로 포착하기 위해 Two-Stage Attention (TSA) layer를 제안합니다. Section 3.3에서는 DSW embedding과 TSA layer를 사용하여 final forecasting을 위해 다양한 scales의 정보를 활용하는 hierarchical encoder-decoder (HED)를 구성합니다.

3.1 DIMENSION-SEGMENT-WISE EMBEDDING

우리의 접근 방식에 대한 동기를 부여하기 위해, 먼저 MTS forecasting을 위한 이전 Transformer-based models의 embedding 방법들을 분석합니다. 기존 방법들은 동일한 time step의 data points를 하나의 vector로 embed합니다: , 여기서 , 이며, 는 step 에서 dimensions의 모든 data points를 나타냅니다. 이런 방식으로, input 는 개의 vectors 로 embedded 됩니다. 그런 다음 개의 vectors 간의 dependency가 forecasting을 위해 포착됩니다. 따라서 이전 Transformer-based models은 주로 cross-time dependency를 포착하는 반면, cross-dimension dependency는 embedding 동안 명시적으로 포착되지 않아 forecasting capability가 제한됩니다.

Transformer는 원래 NLP를 위해 개발되었으며, 여기서 각 embedded vector는 유익한 단어를 나타냅니다. MTS의 경우, 한 step의 단일 값만으로는 거의 정보를 제공하지 못합니다. 반면, 시간 영역에서 주변 값들과 함께 유익한 pattern을 형성합니다. 한 연구에서 MTS forecasting을 위한 original Transformer의 일반적인 attention score map을 보면 attention values가 segment를 이루는 경향이 있음을 알 수 있습니다. 즉, 가까운 data points가 유사한 attention weights를 가집니다.

위의 두 가지 사항에 근거하여, 우리는 embedded vector가 단일 step에서의 모든 dimensions의 값이 아니라 단일 dimension의 series segment를 나타내야 한다고 주장합니다. 이를 위해, 각 dimension의 points를 길이 의 segments로 나눈 다음 embed하는 Dimension-Segment-Wise (DSW) embedding을 제안합니다: (1) 여기서 는 길이 를 갖는 dimension 의 -번째 segment입니다. 편의상 가 로 나누어떨어진다고 가정합니다. 그런 다음 각 segment는 position embedding이 추가된 linear projection을 사용하여 vector로 embedded 됩니다: (2) 여기서 는 learnable projection matrix를 나타내고, 는 위치 에 대한 learnable position embedding을 나타냅니다. Embedding 후, vector array 를 얻으며, 여기서 각 는 univariate time series segment를 나타냅니다.

Segmentation이라는 idea는 다른 연구에서도 사용되었는데, 해당 연구는 locality를 강화하고 computation complexity를 줄이기 위해 embedded 된 vector sequence를 segments로 분할하여 Segment-Correlation을 계산합니다. 그러나 MTS forecasting을 위한 다른 Transformers와 마찬가지로 cross-dimension dependency를 명시적으로 포착하지는 않습니다.

3.2 TWO-STAGE ATTENTION LAYER

얻어진 array 에 대해, vision 분야의 ViT처럼 canonical Transformer에 input될 수 있도록 sequence로 flatten할 수 있습니다. 그러나 우리에게는 다음과 같은 특별한 고려 사항이 있습니다: 1) 높이와 너비의 axes가 서로 바뀔 수 있는 images와 달리, MTS의 time과 dimension axes는 다른 의미를 가지므로 다르게 처리되어야 합니다. 2) array에 직접 self-attention을 적용하면 의 complexity가 발생하여 큰 에 대해서는 감당할 수 없습니다. 따라서 vector array 간의 cross-time 및 cross-dimension dependency를 포착하기 위해 Two-Stage Attention (TSA) Layer를 제안합니다.

Cross-Time Stage TSA Layer의 input으로 인 array가 주어지며, 여기서 과 는 각각 segments와 dimensions의 수입니다. 여기서 는 DSW embedding 또는 하위 TSA layers의 output일 수 있습니다. 편의상, 다음에서는 를 time step 에서의 모든 dimensions의 vectors로, 를 dimension 에서의 모든 time steps의 vectors로 나타냅니다. Cross-time stage에서는 각 dimension에 직접 multi-head self-attention (MSA)을 적용합니다: (3) 여기서 이고 LayerNorm은 여러 연구에서 널리 채택된 layer normalization을 나타내며, MLP는 multi-layer (이 논문에서는 2개) feedforward network를, 는 가 queries, keys, values 역할을 하는 multi-head self-attention layer를 나타냅니다. 모든 dimensions ()는 동일한 MSA layer를 공유합니다. 은 MSA와 MLP의 output을 나타냅니다. Cross-time stage의 computation complexity는 입니다. 이 stage 후에는 동일한 dimension 내의 time segments 간의 dependency가 에 포착됩니다. 그런 다음 은 cross-dimension dependency를 포착하기 위해 Cross-Dimension Stage의 input이 됩니다.

Cross-Dimension Stage Cross-time stage에서 segments의 수 을 줄이기 위해 DSW Embedding에서 큰 를 사용할 수 있습니다. 반면 Cross-Dimension Stage에서는 dimensions를 partition할 수 없으며 직접 MSA를 적용하면 의 complexity가 발생하여 (큰 를 가진 datasets에는 감당할 수 없음) 대신 잠재적으로 큰 에 대해 router mechanism을 제안합니다. 각 time step 에 대해 작은 고정된 수 ()의 learnable vectors를 routers로 설정합니다. 이러한 routers는 먼저 MSA에서 routers를 query로, 모든 dimensions의 vectors를 key와 value로 사용하여 모든 dimensions로부터 messages를 aggregate합니다. 그런 다음 routers는 dimensions의 vectors를 query로, aggregated 된 messages를 key와 value로 사용하여 수신된 messages를 dimensions 간에 distribute합니다. 이런 방식으로 dimensions 간의 all-to-all connection이 구축됩니다: (4) 여기서 (는 상수)는 routers 역할을 하는 learnable vector array입니다. 는 모든 dimensions에서 aggregated 된 messages입니다. 은 router mechanism의 output을 나타냅니다. 모든 time steps ()는 동일한 를 공유합니다. 은 각각 skip connection과 MLP의 output을 나타냅니다. Router mechanism은 complexity를 에서 로 줄입니다.

식 (3)과 식 (4)를 더하여 두 stages를 다음과 같이 model합니다: (5) 여기서 는 각각 TSA layer의 input 및 output vector array를 나타냅니다. TSA layer의 전체 computation complexity는 입니다. Cross-Time 및 Cross-Dimension Stages 후에는 의 모든 두 segments (즉, )가 연결되므로 cross-time 및 cross-dimension dependencies가 모두 에 포착됩니다.

3.3 HIERARCHICAL ENCODER-DECODER

Hierarchical structures는 MTS forecasting을 위한 Transformers에서 다양한 scales의 information을 포착하기 위해 널리 사용됩니다. 이 섹션에서는 제안된 DSW embedding, TSA layer 및 segment merging을 사용하여 Hierarchical Encoder-Decoder (HED)를 구성합니다. 상위 layer는 forecasting을 위해 더 거친 scale의 information을 활용합니다. 다른 scales에서의 Forecasting values는 최종 결과를 산출하기 위해 합산됩니다.

Encoder Encoder의 각 layer에서 (첫 번째 layer 제외), time domain에서 인접한 두 개의 vectors가 coarser level의 representation을 얻기 위해 merged됩니다. 그런 다음 이 scale에서 dependency를 포착하기 위해 TSA layer가 applied됩니다. 이 process는 로 modeled됩니다: (6) 여기서 는 DSW embedding으로 얻은 array를 나타냅니다; 은 -번째 encoder layer의 output을 나타냅니다; 은 segment merging을 위한 learnable matrix를 나타냅니다; 은 concatenation operation을 나타냅니다; 은 layer 에서 각 dimension의 segments 수를 나타내며, 2로 나누어떨어지지 않으면 을 적절한 길이로 pad합니다; 은 -번째 layer에서 segment merging 후의 array를 나타냅니다. Encoder에 개의 layers가 있다고 가정하면, encoder의 개 outputs를 ()으로 나타냅니다. 각 encoder layer의 complexity는 입니다.

Decoder Encoder에 의해 output된 개의 feature arrays를 얻은 후, forecasting을 위해 decoder에서 개의 layers (0, 1, ..., N으로 색인됨)를 사용합니다. Layer 은 -번째 encoded array를 input으로 받아 layer 의 decoded array를 output합니다. 이 process는 로 요약됩니다: (7) 여기서 는 decoder를 위한 learnable position embedding을 나타냅니다. 은 TSA의 output입니다. MSA layer는 를 query로, 를 key와 value로 사용하여 encoder와 decoder 간의 connection을 구축합니다. MSA의 output은 로 표시됩니다. 은 각각 skip connection과 MLP의 output을 나타냅니다. Decoder output을 으로 나타냅니다. 각 decoder layer의 complexity는 입니다.

각 layer의 output에 Linear projection이 applied되어 해당 layer의 prediction을 산출합니다. Layer predictions는 final prediction을 만들기 위해 합산됩니다 (l = 0, ..., N에 대해): For : (8) 여기서 은 vector를 time series segment로 project하는 learnable matrix입니다. 는 prediction의 dimension 에서 -번째 segment를 나타냅니다. Layer 의 모든 segments는 layer prediction 를 얻기 위해 재정렬됩니다. 모든 layers의 Predictions는 final forecasting 을 얻기 위해 합산됩니다.

정리노트: 3 METHODOLOGY (Crossformer 논문)

이 섹션은 Crossformer 모델의 핵심 구성 요소와 작동 방식을 상세히 설명합니다. 목표는 multivariate time series (MTS) 예측 시, cross-dimension dependency를 명시적으로 활용하여 정확도를 높이는 것입니다.

핵심 아이디어: 기존 Transformer-based models이 주로 cross-time dependency에 집중하고 cross-dimension dependency를 간과한 점을 개선.

1. Dimension-Segment-Wise (DSW) Embedding:

동기:
- 기존 방식: 각 time step에서 모든 dimensions의 값()을 하나의 vector()로 embedding. 이는 cross-dimension 정보를 융합시켜 명시적 분리를 어렵게 함.
- MTS 특성: 단일 dimension 내의 연속된 segment가 단일 time step의 여러 dimension 값보다 유의미한 pattern을 가짐 (NLP의 단어와 유사).
방법:
1. 입력 MTS ()의 각 dimension ()별 series를 길이 의 segments ()로 분할.
2. 각 segment 를 linear projection () 후 learnable position embedding ()을 더해 vector 로 변환 (식 2).
3. 결과: time-segment index ()와 dimension index ()를 축으로 하는 vector array 생성. 이 구조는 time과 dimension 정보를 분리하여 보존.
차별점: 다른 segmentation 활용 모델(예: Preformer)과 달리, DSW는 embedding 단계부터 dimension 정보를 명시적으로 분리하여 representation을 생성.

2. Two-Stage Attention (TSA) Layer:

동기: DSW embedding으로 생성된 vector array (또는 이전 layer output ) 내의 dependency를 효율적으로 포착.
- 단순 flattening 후 표준 Transformer 적용 시 문제점: time 축과 dimension 축의 의미가 다름, 전체 self-attention의 높은 complexity ().
방법 (Input: ):
1. Cross-Time Stage:
  - 각 dimension 에 대해 독립적으로 time-axis를 따라 Multi-Head Self-Attention (MSA) 수행 ().
  - 모든 dimensions에서 MSA layer 파라미터 공유.
  - Complexity: .
2. Cross-Dimension Stage (Input: ):
  - 각 time-segment index 에 대해 dimension-axis를 따라 dependency 포착.
  - 직접 MSA는 큰 에 대해 complexity ()가 높음.
  - Router Mechanism 도입 (효율성 증대):
    - 소수의 learnable vectors ()를 routers ()로 사용.
    - Routers가 모든 dimensions의 정보()를 aggregate ().
    - 각 dimension의 vector가 aggregated된 router 정보를 참조하여 정보를 distribute ().
    - Complexity: .
TSA 전체: . Complexity: . Cross-time과 cross-dimension dependency 모두 포착.

3. Hierarchical Encoder-Decoder (HED):

동기: 다양한 scales의 정보를 활용하여 forecasting 성능 향상.
Encoder:
- DSW embedding 결과 를 첫 번째 layer 입력()으로 사용.
- 각 encoder layer :
  1. Segment Merging: 이전 layer output 의 time domain에서 인접 segments 2개를 병합 (예: ), 시간 해상도 감소 ().
  2. 병합된 에 TSA layer 적용 .
- 총 개의 다른 scale을 가진 feature arrays () 생성.
Decoder:
- 개의 decoder layers. 각 decoder layer 은 해당 scale의 encoder output 을 활용.
- 초기 입력은 learnable position embedding (for ) 또는 이전 decoder layer output .
- 각 decoder layer :
  1. Self-attention (TSA) on decoder's own sequence: .
  2. Cross-attention: (query)과 (key, value) 간의 MSA.
  3. MLP, LayerNorm.
Final Prediction:
- 각 decoder layer 의 output 로부터 linear projection ()을 통해 해당 scale의 예측값 생성.
- 모든 scales의 예측값들을 합산하여 최종 예측 도출 (식 8).

핵심 Contribution 요약:

DSW embedding: MTS의 dimension과 time 정보를 명시적으로 분리한 representation 생성.
TSA layer: representation에서 cross-time과 cross-dimension dependency를 router mechanism 등으로 효율적으로 포착.
HED: 다중 scale에서의 feature 학습 및 예측 통합.

쉬운 설명: 3 METHODOLOGY (Crossformer 논문)

이 "METHODOLOGY" 섹션에서는 Crossformer 모델이 실제로 어떻게 데이터를 처리하고 미래를 예측하는지 그 방법을 자세히 설명하고 있어요. 마치 요리 레시피와 같다고 생각할 수 있겠네요!

목표: 여러 가지 시간 변화 정보(MTS)를 가지고, 각 정보(dimension)들이 서로 어떻게 관련되어 있는지(cross-dimension dependency)를 잘 파악해서 미래 값을 더 정확하게 예측하기!

1. 재료 손질법: Dimension-Segment-Wise (DSW) Embedding

문제 인식: 기존의 인공지능 요리사(Transformer-based models)들은 모든 재료(dimensions)를 한 번에 섞어서(하나의 vector로 embedding) 시간 순서대로만 살폈어요. 이렇게 하면 각 재료 본연의 맛(dimension 정보)이 섞여버려서, 재료 간의 특별한 궁합(cross-dimension dependency)을 알기 어려웠죠.
Crossformer의 손질법:
1. 각각의 시간 정보를 가진 재료(dimension, 예: 온도 변화, 습도 변화)를 따로따로 가져와요.
2. 각 재료를 먹기 좋은 크기로 쓱쓱 잘라요(길이 의 segments로 분할). 예를 들어, 하루치 온도 변화를 1시간짜리 조각(segment)들로 나누는 거죠.
3. 이 조각(segment)들을 각각 특별한 양념(linear projection + position embedding)을 해서 맛있는 재료(vector )로 만들어요.
4. 결과: 이렇게 손질된 재료 조각들을 "재료 종류(dimension)"와 "시간 순서(time-segment)"에 따라 표(vector array ) 에 가지런히 정리해요. 이렇게 하면 각 재료의 특징과 시간 정보가 섞이지 않고 잘 보존된답니다!

2. 특별한 두 단계 요리법: Two-Stage Attention (TSA) Layer

목표: 위에서 정리한 재료 표() 를 보고, 재료들이 시간 흐름에 따라 어떻게 변하는지, 그리고 서로 다른 재료들이 어떻게 어울리는지를 효과적으로 파악하기!
요리 단계 (Input: - 재료 표):
1. 1단계 - 시간의 맛 살피기 (Cross-Time Stage):
  - 표에서 각 재료 줄(dimension)을 따로따로 살펴봐요. 예를 들어, "온도" 재료 줄에서 시간 조각들이 어떤 맛의 변화(temporal dependency)를 보이는지 주의 깊게(Multi-Head Self-Attention) 느껴요.
  - 모든 재료 줄에 대해 같은 방법으로 맛을 봐요.
2. 2단계 - 재료 간의 궁합 찾기 (Cross-Dimension Stage):
  - 이제 비슷한 시간대의 여러 재료 조각들을 함께 맛봐요. "이 시간대에는 온도, 습도, 바람 재료가 어떤 궁합을 이룰까?"
  - 재료 종류가 너무 많으면(large ) 한 번에 맛보기가 복잡하니, "맛 감별사(routers)" 몇 명을 두고 효율적으로 궁합을 찾아내요.
    - 감별사들이 먼저 모든 재료의 맛을 조금씩 보고 종합 의견을 만들어요.
    - 그다음 각 재료가 이 종합 의견을 참고해서 다른 재료들과의 조화를 찾아내요.
TSA 요리법의 장점: 계산도 너무 복잡하지 않게() 하면서, 시간의 흐름과 재료 간의 궁합을 모두 잘 파악할 수 있어요.

3. 코스 요리 만들기: Hierarchical Encoder-Decoder (HED)

목표: 다양한 관점(scales)에서 정보를 이해하고 예측해서, 더 깊이 있는 최종 요리(final forecasting) 만들기!
재료 이해 단계 (Encoder - 과거 정보 분석):
- 맨 처음엔 DSW로 손질한 재료 표()부터 시작해요.
- 여러 층(layer)을 거치면서 재료를 이해해요.
  - 각 층에서는 먼저 시간 조각(segments)들을 두 개씩 합쳐서(Segment Merging) 더 큰 덩어리로 만들어요. (예: 1시간짜리 조각들을 합쳐 2시간짜리 덩어리로). 이렇게 하면 더 넓은 시간 범위의 패턴을 볼 수 있죠.
  - 이 덩어리들에 대해 다시 "두 단계 요리법(TSA layer)"을 적용해서 시간 맛과 재료 궁합을 파악해요.
- 이렇게 여러 층을 거치면, 짧은 순간의 정보부터 긴 시간의 정보까지 다양한 크기의 특징들을 알게 돼요.
미래 요리 창작 단계 (Decoder - 미래 예측):
- 이제 과거 정보 분석을 통해 얻은 여러 크기의 특징들을 사용해서 미래 요리를 만들어요.
- 여기도 여러 층(layer)이 있고, 각 층은 비슷한 크기의 과거 정보(encoder output)를 참고해요.
- 각 층마다 "두 단계 요리법(TSA)"과 "과거 정보 참고하기(Cross-Attention)"를 통해 예측을 만들어요.
최종 플레이팅 (Final Prediction):
- 각 층에서 만든 여러 가지 크기의 예측들을 모두 합쳐서 가장 풍부하고 정확한 최종 미래 예측 요리를 완성해요!

이렇게 Crossformer는 재료(MTS 데이터)를 독특하게 손질하고(DSW embedding), 특별한 두 단계 요리법(TSA layer)으로 재료의 맛과 궁합을 파악한 다음, 여러 관점에서 정보를 이해하고 창작하는 코스 요리(HED)를 통해 미래를 예측한답니다!

각 dimension (속성)을 섞지 않고 독립적으로 다루면서,

각 dimension의 시간 series를 의미 있는 조각(segments)으로 나눈다./

DSW embedding (조각내기 및 표 만들기) TSA layer (조각들 간의 시간적 관계 및 속성 간 관계 파악) HED (종합적인 학습 및 미래 예측)

그래서 인코더 디코더 학습.. 흠흠ㅎ믏ㅁㄶㅁ느흐믛므흐ㅡㅎ므흐므릉나ㅓ르다릉나르

'논문리뷰' 카테고리의 다른 글

논문리뷰 : MoReVQA: Exploring Modular Reasoning Models for Video Question Answering (0)	2025.05.20
논문리뷰 : Koopa: Learning Non-stationary Time Series Dynamics with Koopman Predictors (1)	2025.05.17
OPENTHINKIMG: Learning to Think with Images via Visual Tool Reinforcement Learning (3)	2025.05.16
TimeDART: A Diffusion Autoregressive Transformer for Self-Supervised Time Series Representation (3)	2025.05.16
Abstracted Shapes as Tokens - A Generalizable and Interpretable Model for Time-series Classification (2)	2025.05.16

'논문리뷰' Related Articles

AI바라기의 인공지능

CROSSFORMER: TRANSFORMER UTILIZING CROSS DIMENSION DEPENDENCY FOR MULTIVARIATE TIME SERIES FORECASTING 본문

CROSSFORMER: TRANSFORMER UTILIZING CROSS DIMENSION DEPENDENCY FOR MULTIVARIATE TIME SERIES FORECASTING

Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series Forecasting 학습 노트

용어 설명 (Terminology)

Purpose of the Paper

Key Contributions & Novelty

Experimental Highlights

Limitations and Future Work

Overall Summary

쉬운 설명 (Easy Explanation)

정리노트: 1 INTRODUCTION (Crossformer 논문)

쉬운 설명: 1 INTRODUCTION (Crossformer 논문)

정리노트: 2 RELATED WORKS (Crossformer 논문)

쉬운 설명: 2 RELATED WORKS (Crossformer 논문)

정리노트: 3 METHODOLOGY (Crossformer 논문)

쉬운 설명: 3 METHODOLOGY (Crossformer 논문)

'논문리뷰' 카테고리의 다른 글

티스토리툴바