AI바라기의 인공지능
VLM : 빠른 논문 리뷰 : COLORBENCH: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness 본문
논문리뷰
VLM : 빠른 논문 리뷰 : COLORBENCH: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness
AI바라기 2025. 12. 19. 17:07용어 설명 (Terminology)
- VLMs (Vision-Language Models): 이미지와 텍스트를 모두 이해하고 처리할 수 있는 인공지능 모델 (예: GPT-4o, Gemini, LLaVA).
- Color Perception: 입력된 이미지에서 색상을 정확하게 감지하고 해석하는 기초적인 시각 능력.
- Color Reasoning: 색상 정보를 단서로 삼아 사전 지식과 결합하여 논리적인 결론을 도출하는 능력 (예: 색상 비교, 색상 기반 물체 카운팅).
- Color Robustness: 이미지의 색상이 변경(recoloring)되었을 때도 모델이 일관된 정답을 내놓을 수 있는지 평가하는 척도.
- HSV Color Space: 색상(Hue), 채도(Saturation), 명도(Value)로 구성된 색 공간. 이 논문에서는 Robustness 평가를 위해 Hue 값을 조정하여 이미지를 변형함.
- Chain-of-Thought (CoT): 모델이 답변을 도출하기 전에 단계별 추론 과정을 생성하도록 유도하는 프롬프팅 기법.
- Grounded SAM: 이미지 내의 특정 객체를 텍스트 프롬프트 기반으로 분할(segmentation)하는 모델. Robustness 데이터 생성 시 특정 영역만 색을 바꾸기 위해 사용됨.
- Ishihara Test: 색각 이상(color blindness)을 테스트하기 위해 점묘화 속에 숫자나 모양을 숨겨놓은 테스트.
Purpose of the Paper
- 기존 연구의 한계: 기존 VLM 벤치마크들은 객체 인식, OCR, 공간적 관계 파악 등에 집중하느라 '색상(Color)' 이라는 핵심 시각적 특징을 부차적인 요소로 취급함. 색상 관련 질문이 있더라도 단순한 인식(naming)에 그치며, 색상을 활용한 복잡한 추론이나 색상 변화에 대한 견고성(Robustness)을 체계적으로 평가하지 못함.
- 문제 정의: VLMs가 인간처럼 색상을 직관적으로 인지하고, 색상을 단서로 추론하며, 색상 변화에 흔들리지 않는지 불분명함. 특히 현재 VLMs가 색상을 시각적 신호(visual signal)로 실제로 보는지, 아니면 언어적 상관관계(textual correlation, 예: 바나나는 노랗다)에 의존하는지 규명할 필요가 있음.
- 연구 목표: 색상 이해 능력(Perception, Reasoning, Robustness)을 3가지 핵심 차원에서 종합적으로 평가하는 최초의 벤치마크 COLORBENCH를 제안하여 현재 VLMs의 한계를 드러내고 개선 방향을 제시함.
Key Contributions
- COLORBENCH 벤치마크 구축:
- 3 Core Dimensions & 11 Tasks:
- Perception: Color Recognition, Color Extraction, Object Recognition.
- Reasoning: Color Proportion, Comparison, Color Counting, Object Counting, Illusion(착시), Mimicry(보호색), Blindness(색각 테스트).
- Robustness: 색상 변화에 대한 일관성 평가.
- 총 1,448개의 인스턴스와 5,814개의 Image-text 질문으로 구성됨.
- 3 Core Dimensions & 11 Tasks:
- 정교한 데이터 생성 파이프라인:
- 단순한 이미지 수집을 넘어, Grounded SAM을 활용해 이미지의 특정 영역(Target Segment, Largest Segment) 또는 전체(Entire Image)의 Hue(색상) 값을 회전(90°, 180°, 270°)시켜 체계적인 Color Robustness 테스트셋을 구축함.
- 대규모 모델 평가 및 분석:
- 32개의 state-of-the-art VLMs (0.5B ~ 78B 파라미터, Open-source 및 Proprietary 포함)를 평가하여 Scaling law와 Vision Encoder의 영향을 분석함.
- 새로운 발견 (Novel Findings):
- VLMs의 색상 이해 능력은 여전히 인간 수준(Human-level)에 크게 미치지 못함.
- CoT (Chain-of-Thought) 가 시각 중심 작업(vision-centric tasks)인 색상 문제에서도 정확도와 Robustness를 향상시킨다는 점을 입증함.
- 하지만 Color Illusion(착시) 및 Mimicry(보호색) 작업에서는 색상 단서가 오히려 모델을 방해하며, 흑백 이미지(grayscale)로 변환했을 때 성능이 오르는 역설적인 현상을 발견함.
Experimental Highlights
- 실험 설정:
- Models: GPT-4o, Gemini-2-flash, Claude 등의 상용 모델과 LLaVA, InternVL, Qwen-VL 등 다양한 크기의 오픈소스 모델 32종.
- Evaluation Metric: Accuracy (객관식) 및 Robustness Score (색상 변형 후에도 정답 유지 비율).
- 주요 결과 (Key Results):
- Scaling Law의 유효성: 모델 크기가 클수록 성능이 향상되지만, 이는 주로 LLM(Language Model) 파트의 크기에 비례함. 현재 대부분의 VLMs가 CLIP/SigLIP 기반의 비슷한 Vision Encoder (300M~400M)를 사용하고 있어 Vision Encoder 확장에 따른 이득은 정체되어 있음.
- 인간 vs VLM 격차: 인간은 대부분의 태스크에서 90% 이상의 정확도를 보인 반면, 최고의 모델(Gemini-2 + CoT)조차 종합 정확도 59.6%에 불과함.
- CoT의 효과와 한계:
- Color Extraction: CoT 사용 시 성능이 급격히 향상됨 (직관적 추출보다 단계적 추론이 유효).
- Color Illusion: CoT가 오히려 성능을 떨어뜨림. 모델이 착시를 유발하는 배경이나 환경에 과도하게 집중(overthinking)하게 만듦.
- Color Blindness Task 실패: 대부분의 VLMs가 색맹 테스트(Ishihara test)에서 매우 낮은 성능을 보임. 인간은 직관적으로(bottom-up) 숫자를 보지만, VLM은 점들이 숫자를 형성한다는 것을 먼저 추론해야 하는 과정에서 실패함.
- Grayscale 실험: Color Illusion과 Mimicry 태스크에서 컬러 이미지를 흑백으로 바꾸자 성능이 향상됨. 이는 모델이 색상 정보에 의해 오도(mislead)되고 있음을 증명함.
Limitations and Future Work
- Limitations:
- 데이터 규모 및 다양성: 고품질 주석을 위해 전문가의 수동 검증(Manual collection/annotation)에 의존했기 때문에 데이터셋의 크기가 상대적으로 작고 카테고리 범위가 제한적임.
- Vision Encoder 분석의 한계: 현재 SOTA VLMs들이 사용하는 Vision Encoder의 종류가 매우 한정적(대부분 CLIP 계열)이어서, 다양한 Vision Encoder 아키텍처가 색상 이해에 미치는 영향을 완벽하게 분리해내기 어려움.
- Future Work:
- 자동화된 데이터 파이프라인: 신뢰할 수 있는 자동 데이터 수집 방법을 개발하여 대규모 데이터셋으로 확장.
- 복합적 속성 연구: 색상과 텍스처(texture), 모양(shape), 공간적 관계(spatial relationships)가 복합적으로 상호작용하는 더 복잡한 태스크 개발.
- Vision Encoder의 역할 규명: 서로 다른 Vision Backbone을 사용하는 모델들을 비교하여 시각 정보 처리 경로를 심층 분석.
Overall Summary
이 논문은 VLMs의 색상 이해 능력을 Perception, Reasoning, Robustness의 세 가지 차원에서 평가하는 최초의 포괄적 벤치마크인 COLORBENCH를 소개합니다. 32개의 최신 모델을 평가한 결과, VLMs는 여전히 인간 수준에 크게 뒤쳐져 있으며, 특히 색상 기반 추론과 착시 현상 해결에 취약함을 밝혀냈습니다. 연구진은 LLM의 추론 능력(CoT) 이 색상 문제 해결에 도움을 줄 수 있지만, 근본적인 시각적 인식의 한계를 극복하기 위해서는 Vision Encoder의 발전과 색상에 특화된 학습이 필수적임을 시사합니다.
쉬운 설명 (Easy Explanation)
- 핵심 아이디어:
지금까지의 AI(VLM) 테스트는 "이 사진에 사과가 있니?" 정도만 물어봤다면, 이 논문은 "이 사과가 정확히 무슨 색이니?", "색깔 때문에 잘 안 보이는 벌레가 몇 마리니?", "이 그림에서 빨간색이 차지하는 비율은 몇 %니?" 와 같이 '색깔' 을 정말 제대로 이해하고 있는지 집요하게 물어보는 시험지(COLORBENCH)를 만든 것입니다. - 재미있는 발견:
- "생각하고 답해봐(CoT)" 라고 시키면, 시력(Vision Encoder)이 좋아지는 건 아닌데도 색깔 문제를 더 잘 맞힙니다. 추론을 통해 부족한 시각 정보를 보완하기 때문입니다.
- 하지만 착시 현상 그림에서는 오히려 생각을 많이 하다가 엉뚱한 답을 내놓기도 합니다.
- 색맹 테스트 그림을 보여주면 AI들은 거의 다 틀립니다. 점들이 모여서 숫자가 된다는 걸 한눈에 알아보지 못하기 때문입니다.
- 결론적으로 AI는 아직 인간처럼 "색깔을 본다"기보다는 "색깔 데이터를 읽는" 수준에 가깝습니다.
더보기
1. "흑백 사진이 더 낫다?" (The Grayscale Paradox)
이게 가장 충격적이고 재밌는 발견입니다.
- 발견: Color Illusion(착시) 이나 Mimicry(보호색) 문제에서, 컬러 이미지를 흑백(Grayscale) 으로 바꿔서 보여줬더니 오히려 정답률이 올라가는 현상이 발생했습니다.
- 의미: 모델이 색상 정보를 활용하는 게 아니라, 색상 정보 때문에 오히려 방해(Mislead) 를 받고 있다는 뜻입니다.
- 가져갈 점: VLM을 실무에 쓸 때, 색상이 중요한 복잡한 환경(예: 위장된 물체 찾기)에서는 오히려 색상을 제거(Desaturation)하거나 단순화해서 입력하는 것이 성능을 높일 수 있는 팁이 될 수 있습니다.
2. AI는 '색맹 테스트'를 통과하지 못한다 (Architecture Flaw)
- 발견: 우리에게 익숙한 Ishihara Test(색각 검사, 점들이 모여 숫자 보이는 것) 에서 AI 모델들이 거의 전멸했습니다.
- 의미: 인간은 점들의 색깔 차이를 통해 전체적인 형태(숫자)를 "한 번에(Gestalt)" 인지하지만, VLM은 픽셀이나 패치 단위로 분석한 뒤 이를 다시 합치는 방식(Bottom-up)이라 '전역적인 패턴(Global Pattern)'을 형성하는 데 매우 취약합니다.
- 가져갈 점: 현재의 Vision Encoder(주로 CLIP 계열)가 '색상으로 구성된 형태' 를 인지하는 데 구조적인 한계가 있음을 명심해야 합니다.
3. "생각(CoT)"하면 시력이 좋아진다? (Reasoning boosts Perception)
- 발견: 원래 Color Extraction(색상 코드 추출) 같은 문제는 눈(Vision Encoder)이 좋아야 하는 '감각'의 영역입니다. 그런데 모델에게 Chain-of-Thought(단계별 추론) 를 시켰더니 이 감각 영역의 점수가 대폭 상승했습니다.
- 의미: 모델의 Vision Encoder가 색상을 제대로 못 봐도, LLM이 논리적으로 추론하면서 부정확한 시각 정보를 보정해 줄 수 있다는 것입니다.
- 가져갈 점: 색상이나 미세한 시각적 특징을 뽑아내야 할 때, 단순히 "이거 무슨 색이야?"라고 묻지 말고, "이미지를 분석하고, 주변 색과 비교해서, 최종적으로 HEX 코드를 알려줘" 라는 식으로 추론 과정을 강제하는 프롬프팅이 시각 인식 정확도를 높여줍니다.
4. "색만 바꿨는데 바보가 된다" (Robustness Failure)
- 발견: 사과는 그대로 두고 사과 색만 '파란색'으로 바꾸는 식으로 조작했더니(Recoloring), 모델들이 사과를 못 알아보거나 엉뚱한 답을 내놓습니다.
- 의미: AI는 사과의 '모양'을 보는 게 아니라 "사과는 빨갛다"라는 텍스트의 편향(Bias) 에 의존해서 답을 맞히고 있었던 경우가 많다는 것입니다.
- 가져갈 점: VLM을 평가하거나 학습시킬 때, "모양은 그대로 두고 색상만 비현실적으로 바꾼 데이터(Counter-intuitive examples)" 를 반드시 포함해야 모델이 "텍스트 편향"이 아닌 "진짜 시각 정보"를 학습했는지 검증할 수 있습니다.
한 줄 요약 (Takeaway)
이 논문은 단순히 "AI가 색을 잘 아나?"를 묻는 게 아니라, "AI가 언어적 편견(사과는 빨강)에 기대지 않고, 진짜 시각 정보(파란 사과)를 보고 판단할 수 있는가?" 를 검증하는 방법론을 제시했으며, CoT 프롬프팅이 시각적 결함을 보완하는 강력한 도구임을 입증한 자료입니다.