목록전체 글 (327)
AI바라기의 인공지능
쉬운 설명:이 논문은 3D 단백질 구조를 마치 **'단백질 맞춤형 바코드(discrete tokens)'**로 변환하는 기술(FoldToken2)을 제안합니다. 이 바코드는 단백질을 어떻게 돌려보아도 항상 동일하게 유지되며(invariant), 원래 3D 구조 정보를 거의 손실 없이 담고 있어 다시 원래 모습으로 복원(recoverable)할 수 있습니다. FoldToken2는 이전 버전(FoldToken1)보다 훨씬 더 똑똑한 '번역기'(encoder/decoder)와 '바코드 생성 규칙'(quantizer)을 사용하여, 단일 단백질뿐 아니라 여러 단백질이 뭉친 복합체(multi-chain)에 대해서도 정확한 바코드를 빠르고 효율적으로 만들어냅니다. 이렇게 만들어진 바코드는 컴퓨터가 이해하기 쉬운 언어..
쉬운 설명:이 논문(ProSST)은 단백질을 이해할 때 아미노산 서열(sequence)만 보는 것의 한계를 넘어서, 3D 구조(structure) 정보까지 함께 활용하는 똑똑한 방법을 제안합니다.구조를 '쉬운 딱지'로 만들기 (Structure Quantization): 단백질 각 부분(residue) 주변의 복잡한 3D 모양을 GVP라는 도구로 분석해서, 미리 정해둔 몇 가지 '모양 유형' (structure codebook, K개) 중 가장 비슷한 것의 번호(token)를 붙여줍니다. 마치 복잡한 레고 조각에 '모서리 블록', '평면 블록' 같은 간단한 딱지를 붙이는 것과 같습니다. Foldseek보다 주변 블록까지 더 자세히 보고 딱지를 붙입니다.서열과 '모양 딱지' 관계 따로 보기 (Disenta..
쉬운 설명:이 논문은 단백질의 서열(글자)과 3D 구조(모양) 정보를 하나로 합쳐 '단백질 언어'라는 새로운 **discrete code (디지털 부호)**를 만드는 FoldTokenizer를 제안합니다. 마치 영어 단어가 의미를 나타내듯, 이 FoldToken 하나하나가 서열과 구조 정보를 함께 담고 있습니다. 핵심 기술인 SoftCVQ는 이 코드를 만들 때, (1) 구조 정보를 최대한 잘 복원하면서도 (SoftVQ 장점: soft global querying), (2) 생성 모델(FoldGPT)이 이 코드를 쉽게 배우고 생성할 수 있도록 (LFQ/SoftGVQ 장점: binary ID 사용) 균형을 맞춘 똑똑한 양자화 (quantization) 방법입니다. 이렇게 만들어진 '단백질 언어' 덕분에, C..
쉬운 설명LSD는 단백질 구조를 한 번에 다 만들려고 하지 않고, 먼저 **LDM으로 단백질의 대략적인 '뼈대 설계도'(contact map)**를 그린 다음, 이 설계도를 바탕으로 SDM이 '실제 원자 위치'(atomic coordinates)를 정교하게 조립하는 2단계 방식을 사용합니다. 이렇게 단계를 나누니 복잡하고 다양한 단백질 데이터(AFDB)에서도 잘 학습하고, 특히 '설계도'를 그리는 단계에서 "더 안정적일 것 같은(low PAE) 설계도"나 "더 흥미로운(high LRC) 설계도"가 되도록 **방향을 유도(guidance)**할 수 있게 됩니다. LSD (Latent and Structure Diffusion) 논문 학습 노트Purpose of the Paper기존 연구 한계 극복:Str..
쉬운 설명:ProtComposer는 단백질 구조를 디자인할 때, 레고 블록(ellipsoid)으로 대략적인 스케치를 먼저 하고, 그 스케치에 맞춰 세부 구조를 채워 넣는 방식과 유사합니다. 각 레고 블록은 특정 모양(helix/sheet)과 크기, 위치를 가지며, 이를 조절하여 원하는 단백질 구조를 만들거나 기존 구조를 수정할 수 있습니다. 특히, 흔하지 않은 레고 블록 조합(statistical model)을 사용함으로써 더 새롭고 다양한 단백질 구조 생성을 가능하게 합니다.ProtComposer: Compositional Protein Structure Generation with 3D Ellipsoids 학습 노트Purpose of the Paper:기존 연구의 한계 극복: 기존 Machine Le..
쉬운 설명:기존 방식은 원자 하나하나를 놓으려다 보니, 특히 반지(ring) 같은 복잡한 부분을 이상하게 만들거나 큰 분자를 잘 못 만들었습니다.이 논문 (HierDiff)은 **레고 블록(fragment)**처럼 분자를 조각내서, 먼저 큰 블록들의 대략적인 위치와 종류를 정하고 (Coarse-grained Diffusion), 그 다음 각 블록을 세밀하게 다듬고 서로 연결하는 방식 (Fine-grained Generation + Iterative Refinement)을 사용합니다.이렇게 하면 레고 블록 자체는 이미 모양이 잡혀있어(valid local structures) 이상한 구조가 덜 생기고, 큰 구조물도 더 안정적으로 만들 수 있습니다. 특히, **연결 부분을 반복해서 수정하는 과정(Iterat..
쉬운 설명:이 논문은 3D 분자를 레고 블록처럼 조립하는 새로운 방법을 제안합니다. 기존 방식은 아주 작은 원자(atom) 단위로 하나씩 붙여나가서 모양(특히 반지 모양 같은 복잡한 부분)이 쉽게 망가졌습니다. HierDiff는 먼저 큼직한 블록(fragment) 들의 대략적인 위치와 모양을 diffusion이라는 방법으로 정합니다(coarse-grained). 그런 다음, 이 큼직한 블록들을 더 정교하게 다듬고(fine-grained) 서로 어색하지 않게 잘 연결하는 과정을 거칩니다. 이때 Iterative Refinement라는 특별한 단계를 두어 블록들이 서로 부딪히거나 이상하게 연결되지 않도록 계속 수정합니다. 이렇게 하면 처음부터 작은 원자 하나하나 신경 쓰는 것보다 훨씬 안정적이고 제대로 된 ..
Overall SummaryVision-R1은 human preference data나 별도의 reward model 없이 LVLM의 object localization 능력을 향상시키는 새로운 vision-guided reinforcement learning 방법입니다.핵심은 curated instruction data를 활용하고, bounding box 정확도 등 시각적 기준에 기반한 criterion-driven reward와 동적 학습 기준을 적용하는 progressive rule refinement 전략입니다.실험 결과, 기존 SOTA 모델 대비 현저한 localization 성능 향상과 우수한 일반화 성능을 달성했으며, general QA 능력은 유지했습니다.이 연구는 LVLM alignmen..
MLLM 기반 Visual Grounding을 위한 Visual Position Prompt 학습 노트연구 목적 (Purpose of the Paper)문제점: Multimodal Large Language Models (MLLMs)는 다양한 이미지 관련 task에서 뛰어난 성능을 보이지만, 정밀한 공간 추론 및 visual grounding에는 어려움을 겪음. 이는 명시적인 공간 참조가 부족하고, 미세한 공간 정보보다 전역적인 context를 우선시하기 때문.목표: 명시적인 위치 참조를 제공하여 MLLMs의 visual grounding 능력을 향상시키고, 텍스트 설명과 이미지 위치 간의 정확한 연관성을 가능하게 함.기존 연구와의 차별성: 더 큰 datasets이나 추가적인 decoders를 사용하는 ..
논문 학습 노트: Through the Magnifying Glass: Adaptive Perception Magnification for Hallucination-Free VLM DecodingPurpose of the Paper기존 vision-language models (VLMs)는 visual hallucination (visual input에 기반하지 않은 부정확한 응답 생성) 문제를 겪음.기존의 hallucination 완화 방법들은 language reasoning 능력을 저하시키는 trade-off가 존재.본 연구는 language reasoning 능력을 보존하면서 visual perception을 향상시켜 hallucination을 줄이는 새로운 visual decoding 방법인 P..
