단백질 : 논문리뷰 : Accurate structure prediction of biomolecular interactions with AlphaFold 3

논문리뷰

단백질 : 논문리뷰 : Accurate structure prediction of biomolecular interactions with AlphaFold 3

AI바라기 2025. 2. 17. 12:24

Overall Summary (전반적인 요약):

AlphaFold 3 (AF3)는 unified deep-learning framework에서 광범위한 biomolecular systems의 structure를 정확하게 예측할 수 있는 능력을 보여줍니다. Diffusion-based architecture를 사용하고 MSA processing을 단순화함으로써, AF3는 specialized tools 및 previous versions에 비해 향상된 성능을 보여줍니다. 이러한 발전은 biological systems의 complex atomic interactions에 대한 더 나은 이해를 향한 중요한 진전을 나타내지만, stereochemistry 및 dynamics의 challenges는 future research를 위해 남아 있습니다.

쉬운 설명: AlphaFold 3는 마치 레고 블록처럼, 단백질, DNA, RNA, 작은 분자 등 다양한 생체 분자들이 어떻게 결합하고 상호작용하는지 3차원 구조로 정확하게 예측하는 인공지능 모델입니다. 기존 AlphaFold 2보다 더 다양한 분자들을 다룰 수 있고, '확산(diffusion)'이라는 새로운 방식을 도입하여 더 정확하고 자연스러운 구조를 만들어냅니다. 마치 안개가 걷히면서 점점 선명한 그림이 나타나는 것처럼, 무작위적인 상태에서 시작하여 점차 실제 분자 구조에 가까운 모습을 찾아가는 방식입니다.

AlphaFold 3 논문 학습 노트 (Study Notes)

Purpose of the Paper (연구 목적):

Existing limitations (기존 한계): 기존 AlphaFold 2 (AF2)는 proteins 및 their interactions 모델링에 혁명을 가져왔지만, ligands, ions, nucleic acids, modified residues를 포함하는 더 넓은 범위의 biomolecular complexes의 accurate structure prediction에는 한계가 있었습니다.
Novel approach (새로운 접근 방식): Substantially updated diffusion-based architecture를 갖춘 AlphaFold 3 (AF3) 모델을 제시합니다. Proteins, nucleic acids, small molecules, ions, modified residues를 포함하는 complexes의 joint structure prediction이 가능합니다.
Differentiation (차별점): Single unified deep-learning framework 내에서 biomolecular space 전반에 걸쳐 high-accuracy modeling이 가능하다는 점을 보여줍니다.

Key Contributions (주요 기여):

Contribution 1: AF3: Protein Data Bank (PDB)에 존재하는 거의 모든 molecular types를 포함하는 complexes의 high-accuracy prediction이 가능한 모델.
- Novelty (참신성): 더 일반적인 chemical structures를 수용하고 학습의 data efficiency를 향상시킵니다.
Contribution 2: AF2 architecture와 training procedure의 substantial evolution.
- Novelty (참신성): AF2 evoformer를 더 간단한 pairformer module로 교체하고, diffusion module을 사용하여 raw atom coordinates를 직접 예측합니다.
Contribution 3: Stereochemical losses와 bonding patterns의 special handling 대부분을 제거.
- Novelty (참신성): Arbitrary chemical components를 쉽게 수용합니다.

Experimental Highlights (주요 실험 결과):

Datasets: PoseBusters set, recent PDB evaluation set, CASP15 RNA.
Metrics: Percentage of pocket-aligned ligand root mean squared deviation (r.m.s.d.) < 2 Å, interface LDDT, LDDT, DockQ > 0.23.
Baselines: AutoDock Vina, RoseTTAFold All-Atom, RoseTTAFold2NA, Alchemy_RNA2, AlphaFold-Multimer v.2.3.
Key Results (핵심 결과):
- 특정 task에 특화된 강력한 methods보다 훨씬 더 높은 성능 (Fig. 1c and Extended Data Table 1).
- Protein structure 및 protein-protein interactions의 structure에서 더 높은 정확도.
- State-of-the-art docking tools에 비해 protein-ligand interactions에 대한 더 높은 정확도.
- Nucleic-acid-specific predictors에 비해 protein-nucleic acid interactions에 대한 훨씬 더 높은 정확도.
- AlphaFold-Multimer v.2.3에 비해 상당히 더 높은 antibody-antigen prediction accuracy.

Limitations and Future Work (한계 및 향후 연구):

Limitations (한계):
- Stereochemistry, hallucinations, dynamics, and accuracy for certain targets와 관련된 model limitations.
  - Chirality violation.
  - Disordered regions에서의 hallucinations.
  - Solution ensemble의 approximation을 생성할 수 없음.
- Computational cost.
Future Work (향후 연구):
- Stereochemistry 및 hallucinations의 challenges 해결.
- AF3를 사용한 multistate prediction을 지원하기 위해 MSA resampling과 같은 methods 탐색.
- 많은 수의 predictions를 생성하고 rank를 매기는 능력을 향상시켜 extra computational cost를 완화.

Abstract

AlphaFold 2의 등장은 protein 구조와 상호작용을 모델링하는 데 혁명을 일으켜 protein 모델링 및 설계 분야에서 광범위한 응용을 가능하게 했습니다. 여기서는 protein, nucleic acid, small molecule, ion 및 modified residue를 포함하는 복합체의 joint structure를 예측할 수 있는, 실질적으로 업데이트된 diffusion-based architecture를 갖춘 AlphaFold 3 model을 설명합니다. 새로운 AlphaFold model은 이전의 여러 전문 도구보다 훨씬 향상된 정확도를 보여줍니다. 즉, state-of-the-art docking tool과 비교했을 때 protein-ligand 상호작용에 대해 훨씬 더 높은 정확도, nucleic-acid-specific predictor와 비교했을 때 protein-nucleic acid 상호작용에 대해 훨씬 더 높은 정확도, AlphaFold-Multimer v.2.3과 비교했을 때 실질적으로 더 높은 antibody-antigen 예측 정확도를 제공합니다. 종합해 볼 때, 이러한 결과는 단일 unifed deep-learning framework 내에서 biomolecular 공간 전체에 걸쳐 고정확도 모델링이 가능하다는 것을 보여줍니다.

Introduction

정확한 biological complex model은 세포 기능을 이해하고 치료제 설계를 위해 매우 중요합니다. AlphaFold의 개발로 protein structure prediction 분야에서 엄청난 발전이 이루어졌으며, AlphaFold 2 (AF2)의 idea와 technique을 기반으로 하는 여러 후속 method가 등장하면서 이 분야는 크게 성장했습니다. AlphaFold가 공개된 직후, 간단한 input modification만으로도 놀라울 정도로 정확한 protein interaction prediction이 가능하다는 것이 밝혀졌고, protein interaction prediction을 위해 특별히 AF2를 training하면 매우 정확한 system을 얻을 수 있다는 것이 밝혀졌습니다.

이러한 성공은 deep-learning framework 내에서 ligand, ion, nucleic acid, modified residue를 포함한 훨씬 더 광범위한 biomolecule을 포함하는 complex의 structure를 정확하게 예측할 수 있는지에 대한 질문으로 이어집니다. 다양한 특정 interaction type에 대한 광범위한 predictor와 본 연구와 동시에 개발된 한 가지 generalist method가 개발되었지만, 이러한 deep-learning 시도의 정확도는 엇갈리고 종종 physics-inspired method보다 낮았습니다. 또한 이러한 method의 거의 대부분은 특정 interaction type에 특화되어 있으며, 여러 type의 entity를 포함하는 일반적인 biomolecular complex의 structure를 예측할 수 없습니다.

여기서는 Protein Data Bank (PDB)에 존재하는 거의 모든 molecular type을 포함하는 complex의 high-accuracy prediction이 가능한 model인 AlphaFold 3 (AF3)를 제시합니다 (Fig. 1a, b). 한 가지 category를 제외한 모든 category에서, protein structure와 protein-protein interaction의 structure에서 더 높은 accuracy를 포함하여, 주어진 task에 특화된 강력한 method보다 훨씬 더 높은 performance를 달성합니다 (Fig. 1c and Extended Data Table 1).

이는 더 일반적인 chemical structure를 수용하고 learning의 data efficiency를 향상시키기 위해 AF2 architecture와 training procedure를 크게 발전시킴으로써 달성됩니다 (Fig. 1d). 이 system은 AF2 evoformer를 더 간단한 pairformer module로 대체하여 multiple-sequence alignment (MSA) processing 양을 줄입니다 (Fig. 2a). 또한 raw atom coordinate를 diffusion module로 직접 예측하여 amino-acid-specific frame과 side-chain torsion angle에서 작동하는 AF2 structure module을 대체합니다(Fig. 2b). Diffusion process의 multiscale 특성(낮은 noise level은 network가 local structure를 개선하도록 유도)은 또한 stereochemical loss와 network에서 bonding pattern의 특별한 처리를 대부분 제거하여 임의의 chemical component를 쉽게 수용할 수 있게 합니다.

Introduction 정리 노트 (AI 연구자 대상)

핵심

문제 제기: 기존 AlphaFold2 (AF2) 및 관련 method들은 protein structure prediction에서 큰 성공을 거뒀지만, ligand, ion, nucleic acid, modified residue 등을 포함하는 더 넓은 범위의 biomolecule complex structure 예측에는 한계가 있었음.
기존 연구의 한계:
- Deep-learning 기반 predictor들은 특정 interaction type에 특화되어 general biomolecular complex structure 예측 불가능.
- Physics-inspired method보다 정확도가 낮은 경우가 많음.
AlphaFold3 (AF3) 제시:
- PDB에 있는 거의 모든 molecular type을 포함하는 complex의 high-accuracy prediction 가능.
- Protein structure 및 protein-protein interaction을 포함하여, 대부분의 category에서 기존의 specialized method보다 우수한 성능.
AF3 Architecture 및 Training 개선:
- AF2 evoformer를 더 간단한 pairformer module로 대체하여 MSA processing 감소.
- Diffusion module을 사용하여 raw atom coordinate를 직접 예측 (AF2 structure module 대체).
- Diffusion process의 multiscale 특성을 활용하여 stereochemical loss를 줄이고, arbitrary chemical component를 쉽게 처리.

주요 용어

Biomolecular complex: Protein, nucleic acid, ligand, ion 등 다양한 생체 분자가 결합된 복합체.
Docking tool: Ligand와 protein 간의 결합 위치 및 구조를 예측하는 도구.
Nucleic-acid-specific predictor: Nucleic acid (DNA, RNA)와 관련된 상호작용을 예측하는 도구.
Antibody-antigen: 항체-항원. 면역 반응에서 중요한 역할을 하는 단백질 복합체.
Multiple-sequence alignment (MSA): 여러 개의 생물학적 서열 (sequence)을 정렬하여 유사성 및 진화적 관계를 파악하는 방법.
Pairformer: AF3에서 MSA processing을 단순화하기 위해 사용되는 module.
Diffusion module: AF3에서 atom coordinate를 직접 예측하기 위해 사용되는 module.

쉬운 설명 :

Introduction 섹션 쉽게 설명

이 논문은 "AlphaFold3 (AF3)"라는 새로운 AI 모델을 소개합니다. 기존의 AlphaFold2는 단백질 구조 예측에 매우 뛰어났지만, 단백질뿐만 아니라 다른 생체 분자들(DNA, RNA, 작은 분자 등)이 섞여 있는 복잡한 구조를 예측하는 데는 어려움이 있었습니다.

AF3는 이러한 문제를 해결하기 위해 만들어졌습니다. 마치 레고 블록처럼 다양한 종류의 생체 분자들이 어떻게 결합하는지를 훨씬 더 정확하게 예측할 수 있습니다. 이를 위해 AF3는 다음과 같은 새로운 기술들을 사용합니다.

간단해진 정보 처리: 기존보다 더 간단한 방식으로 여러 서열 정보를 처리하여 계산량을 줄입니다.
직접적인 원자 예측: 원자의 위치를 직접 예측하는 새로운 방식을 사용하여 더 정확한 구조를 만듭니다.
확산(Diffusion) 모델: 마치 그림을 그리듯이, 처음에는 흐릿한 형태에서 시작하여 점점 더 선명하게 만드는 방식으로 구조를 예측합니다.

이러한 기술 덕분에 AF3는 이전의 어떤 방법보다 다양한 생체 분자 복합체의 구조를 정확하게 예측할 수 있게 되었습니다. 이는 세포의 작동 방식을 이해하고 새로운 약물을 개발하는 데 큰 도움이 될 수 있습니다.

Network architecture and training

AF3의 전반적인 구조는 (Fig. 1d and Supplementary Methods 3) chemical complex의 pairwise representation을 발전시키는 큰 trunk와, explicit atomic position을 생성하기 위해 pairwise representation을 사용하는 structure module로 구성된 AF2의 구조를 따르지만, 각 주요 구성 요소에 큰 차이점이 있습니다. 이러한 modification은 과도한 special casing 없이 광범위한 chemical entity를 수용해야 할 필요성과 다양한 modification을 적용한 AF2 performance 관찰 결과에 의해 주도되었습니다. Trunk 내에서, MSA processing은 상당히 de-emphasized되어 훨씬 더 작고 간단한 MSA embedding block을 사용합니다 (Supplementary Methods 3.3).

AF2의 original evoformer와 비교하여, block 수는 4개로 줄었고, MSA representation processing은 저렴한 pair-weighted averaging을 사용하며, pair representation만 이후 processing step에 사용됩니다. 'Pairformer' (Fig. 2a and Supplementary Methods 3.6)는 AF2의 evoformer를 대체하는 dominant processing block입니다. Pair representation과 single representation에서만 작동하며, MSA representation은 유지되지 않고 모든 정보는 pair representation을 통해 전달됩니다. Pair processing과 block 수 (48)는 AF2에서 크게 변경되지 않았습니다. 결과로 생성된 pair 및 single representation은 input representation과 함께 AF2의 structure module을 대체하는 새로운 diffusion module (Fig. 2b)로 전달됩니다.

Diffusion module (Fig. 2b and Supplementary Methods 3.7)은 rotational frame이나 equivariant processing 없이 raw atom coordinate와 coarse abstract token representation에서 직접 작동합니다. 우리는 AF2에서 structure module의 complexity 대부분을 제거해도 prediction accuracy에 미치는 영향이 크지 않다는 것을 관찰했으며, backbone frame과 side-chain torsion representation을 유지하는 것은 general molecular graph에 상당한 complexity를 추가합니다. 마찬가지로 AF2는 resulting structure의 chemical plausibility를 강제하기 위해 training 중에 신중하게 조정된 stereochemical violation penalty가 필요했습니다. 우리는 비교적 standard diffusion approach를 사용하는데, 여기서 diffusion model은 'noised' atomic coordinate를 수신한 다음 true coordinate를 예측하도록 trained 됩니다. 이 task는 network가 다양한 length scale에서 protein structure를 학습하도록 요구하며, small noise에서의 denoising task는 매우 local stereochemistry를 이해하는 것을 강조하고 high noise에서의 denoising task는 system의 large-scale structure를 강조합니다. Inference 시에는 random noise가 sampling 된 다음 recurrently denoised 되어 final structure를 생성합니다. 중요한 것은 이것이 answer의 distribution을 생성하는 generative training procedure라는 것입니다. 즉, network가 위치에 대해 불확실한 경우에도 각 answer에 대해 local structure (예 : side-chain bond geometry)가 명확하게 정의됩니다. 이러한 이유로, 우리는 residue의 torsion-based parametrization과 structure에 대한 violation loss를 모두 피하면서 general ligand의 full complexity를 처리 할 수 있습니다. 최근의 일부 연구와 유사하게, 우리는 architecture에 molecule의 global rotation 및 translation에 대한 invariance 또는 equivariance가 필요하지 않다는 것을 발견했으며, 따라서 machine learning architecture를 단순화하기 위해 이를 생략합니다.

Generative diffusion approach를 사용하는 데에는 해결해야 할 몇 가지 기술적인 문제가 있습니다. 가장 큰 문제는 generative model이 hallucination에 취약하다는 것입니다. 이로 인해 model은 unstructured region에서도 그럴듯해 보이는 structure를 만들어낼 수 있습니다. 이 효과를 상쇄하기 위해 AlphaFold-Multimer (v.2.3)가 예측 한 structure로 training data를 보강하는 cross-distillation method를 사용합니다. 이러한 structure에서 unstructured region은 일반적으로 compact structure 대신 긴 extended loop으로 represented 되며, 이를 통해 AF3가 이 동작을 모방하도록 'training'합니다. 이 cross-distillation은 AF3의 hallucination 동작을 크게 줄였습니다 (CAID 236 benchmark set에 대한 disorder prediction 결과는 Extended Data Fig. 1 참조).

우리는 또한 final structure에서 atom-level 및 pairwise error를 예측하는 confidence measure를 개발했습니다. AF2에서는 training 중에 structure module output의 error를 직접 regressing하여 이를 수행했습니다. 그러나 이 procedure는 diffusion training에는 적용 할 수 없습니다. full-structure generation 대신 diffusion의 single step만 trained 되기 때문입니다 (Fig. 2c). 이를 해결하기 위해 training 중에 full-structure prediction generation을 위한 diffusion 'rollout' procedure를 개발했습니다 (normal보다 큰 step size 사용; Fig. 2c (mini-rollout)). 그런 다음 이 predicted structure를 사용하여 symmetric ground-truth chain과 ligand를 permute하고, confidence head를 training하기 위한 performance metric을 계산합니다. Confidence head는 pairwise representation을 사용하여 AF2에서와 같이 modified local distance difference test (pLDDT) 및 predicted aligned error (PAE) matrix와 distance error matrix (PDE)를 예측합니다. PDE는 predicted structure의 distance matrix와 true structure의 distance matrix 간의 error입니다 (자세한 내용은 Supplementary Methods 4.3에 제공됨).

Figure 2d는 initial training 동안 model이 local structure를 예측하는 방법을 빠르게 학습하는 반면 (모든 intrachain metric은 빠르게 상승하여 처음 20,000 training step 내에 maximum performance의 97%에 도달), global constellation을 학습하는 데는 상당히 더 오래 걸린다는 것을 보여줍니다 (interface metric은 천천히 상승하고 protein-protein interface LDDT는 60,000 step 이후에 97% bar를 통과). AF3 개발 과정에서, 우리는 일부 model ability가 비교적 일찍 정점에 도달하고 감소하기 시작하는 반면 (이 capability에 대한 training sample 수가 제한적이기 때문에 overfitting 때문일 가능성이 높음), 다른 ability는 여전히 undertrained 상태임을 관찰했습니다. 우리는 해당 training set에 대한 sampling probability를 늘리거나 줄이고 (Supplementary Methods 2.5.1), 위의 모든 metric과 몇 가지 additional metric의 weighted average를 사용하여 best model checkpoint를 선택하는 early stopping을 수행하여 이 문제를 해결했습니다 (Supplementary Table 7). 더 큰 crop size를 사용한 fine-tuning stage는 모든 metric에서 model을 개선하며, 특히 protein-protein interface에서 높은 uplift를 보입니다 (Extended Data Fig. 2).

Network architecture and training 정리 노트 (AI 연구자 대상)

핵심

AF2 Architecture 계승 및 발전:
- 전반적인 구조는 AF2와 유사: Pairwise representation을 발전시키는 trunk + Atomic position을 생성하는 structure module.
- 각 구성 요소에 큰 변화를 주어 다양한 chemical entity 수용 및 성능 향상.
Pairformer 도입:
- AF2의 Evoformer를 대체하는 핵심 processing block.
- MSA processing을 de-emphasize (더 작고 간단한 MSA embedding block 사용).
- Pair representation과 single representation에서만 작동, MSA representation은 사용 안 함.
- Pair processing 및 block 수 (48)는 AF2와 거의 동일.
Diffusion Module 도입:
- AF2의 Structure module 대체.
- Raw atom coordinate 및 coarse abstract token representation에서 직접 작동 (rotational frame, equivariant processing 불필요).
- Standard diffusion approach 사용: 'Noised' coordinate를 받아 true coordinate 예측.
- Generative training procedure: Answer distribution 생성 (local structure를 명확하게 정의).
- Torsion-based parametrization 및 violation loss 없이 general ligand 처리.
- Global rotation 및 translation에 대한 invariance/equivariance 불필요 (machine learning architecture 단순화).
Hallucination 문제 해결:
- Cross-distillation method 사용: AlphaFold-Multimer (v.2.3) 예측 structure로 training data 보강.
- Unstructured region을 compact structure 대신 extended loop으로 표현하도록 유도.
Confidence Measure 개발:
- Atom-level 및 pairwise error 예측.
- Diffusion 'rollout' procedure (training 중 full-structure prediction generation) 사용.
- pLDDT, PAE, PDE 예측 (pairwise representation 사용).
Training 전략:
- Initial training: Local structure 빠르게 학습, global constellation은 더 느리게 학습.
- Sampling probability 조정 및 early stopping (weighted average of metrics)으로 overfitting 방지.
- Fine-tuning (larger crop size): 모든 metric 개선, 특히 protein-protein interface에서 큰 효과.

주요 용어

Special casing: 특정한 경우를 별도로 처리하는 방식.
Equivariant processing: 입력 데이터의 변환(예: 회전, 이동)에 따라 출력도 동일하게 변환되는 처리 방식.
Stereochemical violation: 분자 구조가 화학적으로 불가능한 형태를 가지는 경우.
Hallucination: Generative model이 실제 데이터에는 없는 가짜 데이터를 생성하는 현상.
Cross-distillation: 다른 model (여기서는 AlphaFold-Multimer)의 예측 결과를 사용하여 training data를 보강하는 방법.
Rollout: Diffusion model에서 여러 단계를 거쳐 최종 structure를 생성하는 과정.

쉬운 설명 :

Network architecture and training 섹션 쉽게 설명

이 섹션에서는 AlphaFold3 (AF3) 모델의 내부 구조와 학습 방법에 대해 설명합니다. AF3는 이전 버전인 AlphaFold2 (AF2)의 기본 구조를 유지하면서도 몇 가지 중요한 변화를 주었습니다.

Pairformer: AF2에서 복잡했던 정보 처리 방식을 더 간단하게 만들었습니다. 여러 개의 서열 정보를 묶어서 처리하는 대신, 짝을 지어 정보를 처리하는 방식을 사용하여 계산량을 줄였습니다.
Diffusion Module: AF2에서는 원자의 위치를 간접적으로 예측했지만, AF3에서는 "확산(diffusion)" 모델을 사용하여 원자의 위치를 직접 예측합니다. 마치 안개가 낀 사진에서 시작하여 점점 더 선명하게 만드는 것처럼, 처음에는 대략적인 위치에서 시작하여 점차 정확한 위치를 찾아갑니다.
Hallucination 방지: Diffusion model은 때때로 실제로는 존재하지 않는 구조를 만들어내는 문제가 있습니다. 이를 해결하기 위해, AF3는 다른 모델(AlphaFold-Multimer)이 예측한 구조를 학습 데이터에 추가하여 이러한 문제를 줄였습니다.
Confidence 예측: AF3는 자신의 예측이 얼마나 정확한지를 나타내는 "confidence" 점수를 함께 제공합니다. 이를 통해 사용자는 예측 결과를 더 신뢰할 수 있게 됩니다.
학습 과정: AF3는 처음에는 분자의 작은 부분(local structure)을 빠르게 학습하고, 그 후에 전체적인 구조(global constellation)를 천천히 학습합니다. 학습 과정에서 발생할 수 있는 문제(overfitting)를 방지하기 위해 다양한 기술을 사용합니다.

이러한 기술 덕분에 AF3는 다양한 종류의 생체 분자 복합체를 정확하게 예측할 수 있으며, 이전 모델보다 더 빠르고 효율적으로 작동합니다.

Triangle update using outgoing edges

Pair representation의 차원: (n, n, c)

(i, j) 한 칸은 c 차원의 feature vector (c=128)

a: (i, j) 위치에 있는 Pair representation의 feature vector. 128차원 (채널 수 c = 128).
b_k: (i, k) 위치에 있는 Pair representation의 feature vector. 역시 128차원. (k는 i를 제외한 모든 노드)

Triangle Multiplication (Outgoing Edges) 연산 과정:

Linear Projection:
- a = Linear( (i, j)의 feature vector ) -> 128차원
- b_k = Linear( (i, k)의 feature vector ) -> 128차원 (k는 i를 제외한 모든 노드)
- 여기서 Linear는 각각 다른 가중치 행렬을 곱하는 연산.
Outer Product:
- a ⊗ b_k (a와 b_k의 외적)을 계산.
- 128차원 vector와 128차원 vector의 외적이므로, 결과는 128x128 크기의 행렬(matrix)이 됩니다.
Aggregation:
- 모든 k에 대한 외적 결과 (128x128 행렬들)를 합산(summation).
- 여전히 128x128 크기의 행렬.
Linear Transformation (가중합):
- 합산된 128x128 행렬에 가중치 행렬(weight matrix)을 곱하고 편향(bias)을 더하는 linear transformation을 적용.
- 최종 결과는 다시 128차원 벡터가 됩니다. (출력 채널 수가 128로 설정되어 있기 때문).
update:
- linear transformaiton 결과(128)를 가지고 (i,j)를 업데이트