AI바라기의 인공지능
world model : 논문리뷰 : Beyond the Beep: Scalable Collision Anticipation and Real-Time Explainability with BADAS-2.0 본문
world model : 논문리뷰 : Beyond the Beep: Scalable Collision Anticipation and Real-Time Explainability with BADAS-2.0
AI바라기 2026. 4. 17. 15:37용어 설명
- Ego-centric collision anticipation: 단순히 블랙박스 영상에서 '사고가 났는지'를 판별하는 일반적인 accident detection과 달리, **'카메라가 장착된 해당 차량(ego-vehicle)이 충돌에 휘말릴 것인가'**를 미리 예측하는 훨씬 더 어렵고 실용적인 task입니다.
- Active mining oracle: 수백만 개의 라벨링되지 않은 주행 영상(unlabeled drives) 중, 기존 모델(BADAS-1.0)을 필터(oracle)로 사용하여 위험도가 높고 학습에 유용한 영상만을 자동으로 찾아내는 기법입니다.
- Domain-Specific SSL Pre-Training: 모델을 지도 학습(supervised learning)하기 전에, 블랙박스 주행 영상(domain)만을 대량으로 사용하여 마스킹된 비디오 영역의 시공간적 특징을 예측(V-JEPA2 스타일)하도록 자가지도학습(Self-Supervised Learning)을 수행하는 단계입니다.
- Knowledge Distillation (KD) to Edge: 무거운 대형 모델(Teacher, ViT-L)의 지식(정답뿐만 아니라 예측의 불확실성 등)을 가볍고 빠른 소형 모델(Student, ViT-B/S)로 전달하여, 성능 저하 없이 엣지 디바이스(차량 내 탑재 기기)에서 실시간으로 돌아가게 만드는 기술입니다.
- Early Warning Recall (EWR): 전체 실제 충돌 사건 중, 모델이 '충돌이 발생하기 전'에 미리 경고를 발생시킨 비율을 의미합니다. (높을수록 좋음)
- Mean Time to Alert (MTTA): 모델이 경고를 발생시킨 사건들에 한해, 충돌 시점 대비 '얼마나 일찍' 경고를 주었는지 나타내는 평균 여유 시간입니다.
- Pointing Game Accuracy (PGA): 모델이 추출한 Attention heatmap의 최고 활성화 픽셀이 실제 사람이 어노테이션한 위험 객체의 Bounding box 안에 정확히 들어가는지를 평가하는 지표입니다.
Purpose of the Paper
이 논문은 기존 SOTA 모델이었던 BADAS-1.0의 세 가지 치명적인 한계점을 극복하기 위해 작성되었습니다.
- 데이터 부족으로 인한 취약성: 기존 40k 규모의 데이터셋은 야생동물 출몰, 악천후 등 희귀한 Long-tail 시나리오에 취약했습니다.
- 실시간 배포 불가능: 추론에 창(window)당 2.5초가 걸려 차량 내 엣지 디바이스(on-device) 탑재가 불가능했습니다.
- 설명 가능성(Explainability) 부재: 왜 경고가 울렸는지, 어떤 객체 때문인지 설명 없이 단순한 위험 수치(scalar risk score, Beep 소리)만 제공했습니다.
이 연구는 **'모델 기반 데이터 스케일링', '도메인 특화 SSL과 지식 증류를 통한 경량화', 'VLM을 결합한 실시간 시각적/언어적 설명 생성'**이라는 3축(axes) 접근 방식을 통해, 단순히 정확도를 높이는 것을 넘어 실제 차량 환경에서 '실시간으로 작동하며 이유까지 설명하는' 자율주행 안전 시스템을 구축하는 데 초점을 맞추었습니다.
Key Contributions
- Intelligent data mining at scale (자체 모델을 활용한 데이터 무한 확장 루프)
- 기존 BADAS-1.0 모델을 Active mining oracle로 사용하여 수백만 개의 미분류 영상 중 고위험 영상을 추출하고, 공간정보 플랫폼(Nexar Atlas)을 결합해 희귀 시나리오를 타겟 수집했습니다.
- Novelty: 값비싼 인간의 무작위 라벨링 대신, 배포된 모델 자체가 가장 저렴하고 효율적인 어노테이터(데이터 수집기) 역할을 수행하여 178.5k 비디오(2M clips)로 훈련 코퍼스를 5배 확장하는 자가 개선 루프를 증명했습니다.
- Domain-Specific SSL 기반 Knowledge Distillation (엣지 디바이스용 초경량 SOTA 달성)
- 2.25M개의 라벨링 없는 블랙박스 영상으로 ViT-S/B 백본을 먼저 SSL Pre-training 한 후, ViT-L(Teacher)의 지식을 증류(KD)하여 BADAS-2.0-Flash 및 Flash-Lite 버전을 개발했습니다.
- Novelty: 비디오 기반 충돌 예측에서는 단순한 아키텍처 축소가 통하지 않습니다. 도메인 특화 SSL 없이는 소형 모델이 수렴조차 하지 못한다는 것을 밝혀내고, SSL+KD 조합을 통해 성능 손실 없이 추론 속도를 7~12배 단축하는 돌파구를 제시했습니다.
- BADAS-Reason: Visual and Textual Explainability (이유를 설명하는 VLM의 결합)
- 추가 모듈 학습 없이(Training-free) 후기 인코더 레이어에서 Attention heatmap을 추출해 위험 요소를 시각화하고, 이를 바탕으로 Qwen3-VL-4B 모델을 QLoRA로 파인튜닝하여 위험 요인과 운전자 행동 지침을 JSON 형태로 출력하도록 했습니다.
- Novelty: 단순한 스칼라 확률값을 넘어, 모델의 내부 Attention 상태를 VLM과 직접 연결하여 "우측에서 보행자가 진입 중. 즉시 브레이크를 밟으세요"와 같이 인과관계가 명확하고 실행 가능한 자연어 설명을 실시간으로 생성합니다.
Experimental Highlights
- 압도적인 False Positive(오경보) 감소와 SOTA 달성:
- Kaggle 벤치마크에서 기존 BADAS-1.0 대비 mAP를 0.925에서 0.940으로 향상시키면서도, FPR(오경보율)을 10.9%에서 4.6%로 58%나 급감시켰습니다. (Hard-negative 데이터 대량 추가의 결과)
- 새로운 10-Group Long-tail Benchmark 성능 증명:
- 교차로, 야생동물, 안개 등 888개의 검증된 희귀 클립으로 구성된 벤치마크에서 BADAS-2.0이 모든 그룹의 F1 Score 1위를 기록했습니다. (Cosmos, Gemini 등 거대 VLM을 Fine-tuning 한 것보다 영상의 동역학을 학습한 V-JEPA2 기반 BADAS가 성능이 훨씬 뛰어남을 증명)
- 도메인 특화 SSL과 KD의 극적인 효과 (Ablation Study):
- 소형 모델(ViT-S)에 무작위 초기화 시 AP는 0.693에 불과하나, SSL 사전 학습만으로 AP 0.974로 치솟았습니다. 여기에 Teacher의 KD를 더하면 FPR이 20.6%에서 9.1%로 절반으로 감소하며 Teacher의 '보정된 불확실성'이 완벽히 전이됨을 확인했습니다.
- 실시간 Edge Inference Latency 한계 돌파:
- BADAS-1.0은 2500ms가 걸렸으나, 최적화 및 경량화(Flash-Lite 22M)를 거쳐 Nvidia Jetson Thor 엣지 플랫폼에서 **2.8ms만에 추론을 완료(893배 속도 향상)**하여 실시간 예산(125ms)을 완벽히 충족했습니다.
Limitations and Future Work
- Limitation 1: Animal EWR (동물 충돌 조기 경고의 한계)
- 가장 큰 모델조차 야생동물 그룹의 EWR이 78.9%에 머물렀습니다. 이는 모델의 용량 문제가 아니라, 동물이 경고 시간(warning time)이 거의 0에 가까운 상태로 갑자기 튀어나오는 '시나리오의 기하학적 한계' 때문입니다.
- Future Work 1: Semantic spatial grounding (의미론적 공간 접지)
- 현재의 Patch 단위 사후(post-hoc) Heatmap 대신, 충돌 예측과 픽셀 단위 Segmentation을 동시에 학습(Joint training)하는 방향을 제시합니다. 이를 통해 활성화 맵이 아닌 명확한 '객체 클래스와 범위'를 추출하여 자율주행 Planning 모듈에 더 정확하게 전달할 수 있습니다.
- Future Work 2: Trajectory-conditioned risk (궤적 기반 위험 예측)
- 현재는 '충돌 확률'만 출력하지만, 향후에는 위험을 회피할 수 있는 궤적(브레이크 프로필, 스티어링 보정, 차선 변경 등)을 함께 추론하여 단순 경고(Alert)를 넘어 직접 행동 가능(Actionable)한 시스템으로 발전시켜야 합니다.
- Future Work 3: Intrinsic reasoning from model representations (내재적 추론)
- 현재의 BADAS-Reason은 Heatmap 이미지를 외부 VLM에 먹여 텍스트를 뽑아냅니다(모달리티 갭 발생). 향후에는 Heatmap을 거치지 않고 인코더의 Latent representations에서 직접 텍스트 추론을 뽑아내어 예측 인과성을 더 단단하게 결합할 계획입니다.
Overall Summary
이 논문은 기존 충돌 예측 시스템의 한계였던 희귀 상황에 대한 데이터 부족 현상을 자체 배포된 모델을 통한 Active Mining으로 해결하고, 엣지 배포가 불가능했던 무거운 아키텍처를 도메인 특화 자가지도학습(SSL)과 지식 증류(KD)를 통해 실시간 처리가 가능한 초경량 SOTA 모델로 탈바꿈시켰습니다. 더 나아가, 블랙박스 모델의 한계를 넘어 VLM을 결합해 운전자에게 위험 객체를 시각적으로 짚어주고 대처 방법까지 자연어로 즉각 제시하는 혁신적인 파이프라인(BADAS-Reason)을 완성했습니다. 이 연구는 단순히 실험실 수준의 모델이 아니라, 실제 야생의 도로 환경과 엣지 하드웨어의 제약 속에서 어떻게 데이터를 확장하고, 모델을 압축하며, 설명 가능한 자율주행 안전 시스템을 상용화 수준으로 구축할 수 있는지에 대한 실증적인 청사진을 제시했다는 점에서 매우 큰 의의가 있습니다.
쉬운 설명
기존 충돌 경고 시스템(BADAS-1.0)은 조수석에 앉아 있다가 사고가 날 것 같으면 무작정 "어어! 위험해!"라고 비명(Beep)만 지르는 초보 운전자와 같았습니다. 반응 속도도 느리고(Latency 2.5초), 왜 소리를 지르는지 이유도 말해주지 않아서 운전자가 당황하기 일쑤였습니다.
이번에 개발된 BADAS-2.0은 엄청난 실전 경험(수백만 개의 블랙박스 영상으로 자가 학습)을 쌓은 베테랑 주행 강사와 같습니다.
- 엣지 디바이스에서 눈 깜짝할 새(2.8ms) 위험을 감지하고,
- 단순히 소리만 지르는 것이 아니라 스크린에 위험한 곳을 정확히 동그라미 치며(Heatmap),
- "오른쪽에서 자전거가 튀어나오고 있으니 당장 브레이크를 밟으세요!"라고 구체적인 이유와 대처법을 말로 설명(VLM)해줍니다.
즉, "언제(When)" 경고할지만 알던 기계를, "왜(Why)" 경고하는지 알고 "어떻게(How)" 행동해야 하는지 알려주는 실시간 가이드로 진화시킨 논문입니다.
데이터셋 파이프 라인은 다음과 같습니다.


1. 왼쪽 그래프: 벤치마크 그룹별 롱테일 F1 점수 (Long-Tail F1 by Benchmark Group)
- 동물(Animal), 자전거 탑승자(Cyclist), 안개(Fog), 보행자(Pedestrian), 눈(Snow) 등 10개의 다양한 롱테일(희귀 및 위험) 주행 시나리오 그룹에 대한 각 모델의 성능(F1 점수)을 방사형 막대 그래프로 나타냅니다.
- 각 모델 계열은 색상별로 구분되어 있습니다. 여기서 보라색 막대로 표시된 BADAS-2.0 제품군이 모든 시나리오 원의 가장 바깥쪽까지 뻗어 있습니다. 이는 BADAS-2.0이 다른 비교 모델들을 제치고 모든 부문에서 압도적인 1위 성능을 기록하고 있음을 보여줍니다.
2. 오른쪽 그래프: 모델 크기 대비 정확도 (Accuracy vs. Scale)
- 가로축은 모델의 파라미터 크기(Model Size)를, 세로축은 롱테일 평균 정밀도(Long-Tail AP)를 나타내는 산점도입니다.
- 보라색으로 표시된 BADAS-2.0 제품군이 그래프의 왼쪽 최상단에 위치하며 점선으로 된 '효율성 한계선(efficient frontier)'을 그리고 있습니다. 이는 모델 크기는 가장 작으면서도 정확도는 가장 높다는 이상적인 상태를 의미합니다.
- 특히 이미지 하단 캡션의 설명처럼, 가장 작은 모델인 BADAS-2.0-Flash-Lite는 22 M(2천2백만) 개의 파라미터만으로 약 0.98의 매우 높은 정확도를 달성했습니다.
- 이는 우측의 초록색 점인 Cosmos-BADAS 모델(2 B 파라미터, 정확도 0.941)과 비교했을 때, 파라미터 수는 91배 더 적음에도 불구하고 오히려 더 우수한 성능을 낸다는 것을 시각적으로 증명합니다.
- 반면 Qwen, Gemini 등 거대 비전-언어 모델(VLM) 기반의 다른 아키텍처들은 모델 크기가 무거움에도 불구하고 성능은 상대적으로 낮아 그래프의 우측 하단 쪽에 분포하고 있습니다.
결론적으로 이 이미지는 BADAS-2.0이 예기치 못한 희귀 주행 상황(롱테일)에서 가장 뛰어난 성능을 발휘할 뿐만 아니라, 실제 기기에 탑재(Edge 배포)할 수 있을 정도로 놀랍게 가볍고 효율적인 모델이라는 논문의 핵심 주장을 강력하게 뒷받침하는 자료입니다.
Abstract
우리는 대규모 ego-relevant 블랙박스 데이터에 대한 V-JEPA2의 fine-tuning이 학계의 baselines와 ADAS 시스템 모두를 압도적으로 능가한다는 것을 입증한 BADAS-1.0을 기반으로 하는, 우리의 충돌 예측 시스템 2세대인 BADAS-2.0을 제시합니다. BADAS-2.0은 세 가지 일관된 축을 따라 state-of-the-art를 발전시킵니다.
(i) Long-tail benchmark and accuracy
우리는 희귀하고 안전에 중요한 주행 시나리오를 대상으로 하는 새로운 10개 그룹의 long-tail benchmark를 소개합니다. 이는 과소 대표되는 충돌 유형에 대한 model 견고성을 평가하기 위한 주요 테스트베드입니다. 이를 채우기 위해, 우리는 배포된 active oracle로 기능하는 BADAS-1.0이 수백만 개의 unlabeled 주행을 지속적으로 스코어링하여 annotation을 위한 고위험 및 유익한 후보를 찾아내는 파이프라인을 도입합니다. 희귀한 long-tail 시나리오의 표적 수집을 위한 Nexar의 지형 공간 Atlas 플랫폼과 결합된 이 전략은 training corpus를 40k에서 178,500개의 labeled videos(약 2M clips)로 확장하여 모든 benchmark 하위 그룹에서 일관된 state-of-the-art 성과를 달성하며, 가장 어려운 long-tail 범주에서 가장 두드러진 개선을 이룹니다.
(ii) Knowledge distillation to edge
2.25M개의 unlabeled 주행 비디오에 대한 도메인 특화 self-supervised pre-training은 BADAS-2.0-Flash(86M) 및 BADAS-2.0-Flash-Lite(22M)로의 효과적인 distillation을 가능하게 합니다. 이는 거의 동등한 accuracy를 유지하면서 7~12배의 runtime speedup을 제공하여 edge 배포를 위한 실시간 충돌 예측을 실용적으로 만듭니다.
(iii) Explainability
BADAS-2.0은 각 prediction을 유도하는 장면 요소의 위치를 파악하는 실시간 객체 중심 attention heatmaps를 생성합니다. BADAS-Reason은 이를 language 영역으로 확장합니다: 이는 마지막 비디오 프레임과 해당 heatmap을 함께 처리하고, 감지된 위험을 피하기 위해 구조화된 텍스트 reasoning과 함께 필요한 운전자 조치를 generation하는 fine-tuned vision-language model입니다.
Inference 코드와 평가 benchmarks는 공개적으로 사용할 수 있습니다.
1 Introduction
Ego-centric collision anticipation — 촬영 중인 차량이 충돌에 연루될지 여부를 예측하는 것 — 은 일반적인 accident detection보다 뚜렷하게 더 어려운 작업입니다. BADAS-1.0은 이러한 차이를 확립했습니다. ego-relevant 이벤트를 분리하기 위해 공개 benchmarks(DAD, DADA-2000, DoTA)를 다시 annotation 했으며, 40k 개의 ego-centric 블랙박스 clips에 대해 V-JEPA2를 fine-tuning 하는 것이 RNN- 및 transformer-based accident detectors와 비상업적 전방 충돌 경고 시스템 모두를 능가한다는 것을 입증했습니다. 이 결과 이면의 핵심적인 통찰력은 V-JEPA2의 masked spatiotemporal prediction objective가 충돌에 선행하는 motion patterns를 포착하면서 펼쳐지는 장면의 dynamics를 represent 하는 방법을 학습하는 반면, 이전 방법론들은 ego-centric 블랙박스 distribution으로 transfer가 잘 되지 않는 appearance-based features나 semantic priors에 의존한다는 것입니다.
BADAS-2.0은 BADAS-1.0의 세 가지 미해결 제약 조건을 해결합니다. training corpus(40k clips)에 희귀한 long-tail 시나리오가 부족하여 performance가 취약해졌고, inference cost(2.5 s/window)로 인해 on-device 배포가 불가능했으며, scalar risk score는 어떤 객체가 alert를 유발했는지에 대한 explanation을 제공하지 못했습니다.
우리는 지능적으로 더 많은 데이터를 수집하고, 더 강력한 model을 train 하고, edge latency 수준으로 distill 하며, heatmaps 및 VLM fine-tuning을 통해 explainability를 추가하는 통합적인 과정을 통해 이 세 가지를 모두 해결합니다. 각 단계는 이전 단계를 기반으로 구축됩니다. dataset은 human-in-the-loop(HITL) annotation 과정과 함께 BADAS-1.0을 oracle로 사용하여 조립되며, distilled models는 수백만 개의 unlabeled 주행 비디오에서 pre-trained 된 SSL weights에서 시작하고, VLM pipeline은 BADAS attention mechanism에 의해 선택된 frames에서 trained 됩니다.
Contributions
- Intelligent data mining at scale (Sec. 3). 우리는 수백만 개의 unlabeled Nexar 주행 데이터에 대해 BADAS-1.0을 active mining oracle로 사용하며, 희귀 시나리오에 대해 Nexar Atlas를 통한 표적 지형 공간 queries로 이를 보완합니다. training corpus는 178,500개의 labeled videos(약 $2\text{M}$개의 windowed training clips)로 $5\times$ 확장되었으며, 동물, 자전거 탑승자, 안개, 인프라, 교차로, 오토바이 운전자, 추월/앞지르기, 보행자, 비, 눈에 걸쳐 수동으로 검증된 888개의 clips로 구성된 새로운 10개 그룹의 long-tail benchmark를 포함합니다.
- Improved accuracy across all benchmarks (Sec. 4). BADAS-2.0(ViT-L, 300M)은 Kaggle mAP가 $0.925 \rightarrow 0.940$으로 향상된 것을 포함하여 모든 benchmark에서 BADAS-1.0보다 일관되게 개선되었으며, 모든 long-tail 시나리오 그룹에서 이득을 얻었습니다.
- Knowledge distillation to edge models (Sec. 5). 우리는 2.25M개의 unlabeled 주행 비디오에 대한 도메인 특화 SSL pre-training이 어떠한 distillation 이전에도 ViT-S를 거의 무작위 수준에서 실제 서비스 가능 수준으로 변환한다는 것을 입증합니다. ViT-L teacher로부터의 후속 KD는 BADAS-2.0-Flash(86M, 4.8 ms) 및 BADAS-2.0-Flash-Lite(22M, 2.8 ms)를 생성하며, 둘 다 테스트된 모든 platforms에서 실시간 예산(real-time budget) 내에 있습니다.
- BADAS-Reason: Visual and Textual Explainability (Sec. 6). BADAS-Reason은 두 갈래의 explainability layer로 BADAS를 확장합니다. visual 측면에서는 각 alert를 유발한 객체와 영역을 강조하기 위해 inference time에 attention maps가 추출됩니다. textual 측면에서는 권장되는 운전자 조치와 alert 이면에 있는 model의 reasoning을 각각 명시하는 수동으로 annotated 된 설명과 쌍을 이루는 최고 위험 frames의 큐레이션 된 dataset에 대해 QLoRA를 통해 Qwen3-VL-4B를 fine-tune 합니다. 그 결과 생성된 model은 perplexity를 87% 감소시키고 zero-shot baseline에 비해 행동 일치 accuracy에서 $3.6\times$ 향상을 달성합니다.
1 Introduction 요약 노트 (AI 연구자 대상)
핵심 배경
- V-JEPA2 기반의 BADAS-1.0은 단순 appearance-based가 아닌 masked spatiotemporal prediction을 통해 충돌 직전의 motion patterns(dynamics)를 학습하여 ego-centric 충돌 예측에서 높은 성능을 입증함.
해결하고자 하는 기존 한계 (BADAS-1.0의 제약)
- Data 부족: 40k clips 학습으로 인해 희귀한 long-tail 시나리오에서 performance 취약.
- High Latency: Window 당 2.5초의 inference cost로 인해 on-device 배포 불가.
- Black-box 형태: 단순 risk score(스칼라 값)만 반환하여 어떤 객체가 alert를 유발했는지 explainability 부족.
주요 기여 및 해결 방안 (BADAS-2.0 Contributions)
- Intelligent data mining at scale (데이터 파이프라인 고도화)
- 기존 BADAS-1.0을 active mining oracle로 활용 + Nexar Atlas 지형 공간 쿼리 결합.
- Training corpus를 기존 대비 5배인 178,500개의 비디오(약 2M clips)로 확장.
- 10개 그룹(동물, 자전거, 안개 등)으로 구성된 새로운 long-tail benchmark 신규 구축(888개 clip).
- Improved Accuracy (정확도 향상)
- ViT-L(300M) 기반으로 학습하여 Kaggle mAP를 0.925에서 0.940으로 개선 및 모든 long-tail 영역에서 일관된 성능 향상.
- Knowledge Distillation to Edge (경량화 및 실시간 최적화)
- 2.25M개의 unlabeled 주행 영상으로 도메인 특화 SSL pre-training 진행 (초기 ViT-S 성능 극대화).
- ViT-L teacher로부터 KD를 적용하여 edge 배포용 초경량 실시간 모델 개발.
- 결과: Flash(86M, 4.8 ms) 및 Flash-Lite(22M, 2.8 ms).
- BADAS-Reason (Visual & Textual Explainability 도입)
- Visual: Inference time에 attention maps를 추출하여 alert를 유발한 객체/영역 시각화.
- Textual: Qwen3-VL-4B를 최고 위험 프레임 데이터셋에 대해 QLoRA로 fine-tuning 진행.
- 결과: Zero-shot baseline 대비 Perplexity 87% 감소, action-match accuracy 3.6배 향상.
쉬운 설명 :
기존의 1.0 버전 모델은 차량 블랙박스 영상에서 "충돌할 것 같다"는 위험을 아주 잘 예측했습니다. 하지만 3가지 큰 문제가 있었습니다. 1) 비나 눈이 오거나 동물이 튀어나오는 등 '드문 상황'에 대한 데이터가 부족해서 예측이 불안정했고, 2) 모델이 너무 무거워서 실제 자동차 기기에서 실시간으로 돌리기엔 속도가 너무 느렸으며, 3) 단순히 "위험도 90점!"이라고만 알려주고 '왜' 위험한지는 설명해주지 못했습니다.
이번 2.0 버전은 이 문제들을 완벽하게 해결한 업그레이드 버전입니다.
- 데이터 수집: 똑똑해진 1.0 버전을 자동 탐지기로 써서, 수백만 개의 영상 중 정말 위험하고 희귀한 상황들만 쏙쏙 골라내어 학습 데이터를 5배나 늘렸습니다.
- 가벼워진 모델: 아무리 똑똑해도 실제 차에 못 달면 소용이 없겠죠? 모델을 아주 작고 가볍게 압축(Distillation)해서 성능은 유지하면서 자동차 내부 기기(Edge)에서도 아주 빠르게 실시간으로 작동하도록 만들었습니다.
- 친절한 설명: 이제는 위험할 때 "화면 오른쪽의 자전거 탑승자 때문에 브레이크를 밟아야 합니다"라고 화면에 색칠(Attention Map)도 해주고, 글로도 직접 이유를 설명(VLM)해 줍니다.
2 Related Work
Collision anticipation. 기존 방법론들은 RNN-based adaptive loss functions부터 spatial-temporal attention transformers 및 agent relationships를 모델링하는 graph networks에 이르기까지 다양합니다. BADAS-1.0은 주요 병목 현상이 architecture가 아니라, 일반적인 사고 영상보다는 ego-relevant events를 맞추는 data alignment라는 것을 보여주었습니다.
Active learning and model-assisted mining. annotation을 위해 unlabeled data의 우선순위를 지정하기 위해 model scores를 사용하는 Self-training pipelines는 image classification 영역에서 잘 확립되어 있습니다. 우리는 이를 충돌 예측에 적용합니다: BADAS-1.0의 risk scores는 사람의 검토를 위해 고위험 clips를 찾아내어, 전수 조사 없이도 corpus를 확장(scaling)합니다.
Knowledge distillation for video. Feature- 및 response-based distillation은 잘 확립되어 있습니다. video의 경우, V-JEPA 스타일의 masked prediction을 통한 domain-specific SSL pre-training이 필수 전제 조건입니다: V-JEPA2는 ViT-L scale로만 공개되었으며, 손 제스처 기반 대안 모델들과의 domain gap은 supervised fine-tuning만으로 극복하기에는 너무 큽니다.
VLMs for driving. Large VLMs는 주행 영역에 점점 더 많이 적용되고 있습니다. BADAS-Reason은 BADAS attention outputs를 처리하는 explanation generator로서 fine-tuned VLM을 사용하여, 실시간 속도로 natural-language reasoning을 추가합니다.
3 BADAS-2.0 Dataset
3.1 Intelligent Data Collection
BADAS-1.0은 $\approx 40\text{k}$ clips로 trained 되었습니다. 이것의 주요 약점은 long-tail coverage였습니다: 동물 출몰, 야간 교차로, 악천후가 과소 대표되어 이러한 그룹에서 취약한 recall로 이어졌습니다. BADAS-2.0은 BADAS-1.0이 trained 된 후 실행된 두 가지 전략을 통해 178,500개의 labeled videos를 수집합니다.
Active mining with BADAS-1.0 (Oracle + HITL). 우리는 수백만 개의 unlabeled Nexar 주행 데이터에 대해 BADAS-1.0을 실행합니다; risk threshold를 초과하는 clips는 사람의 검토를 위해 노출됩니다. 전문 annotators는 각 label을 독립적으로 확인하거나 거부합니다 — oracle은 순전히 retrieval filter 역할을 하며, training에 들어가는 모든 clip은 인간이 검증한(human-verified) 과정을 거칩니다.
3.2 Annotation and Labeling
전문 annotators는 7가지 유형의 ontology(충돌, 근접 충돌, 급제동, 정상 주행, 교차로, 추월/앞지르기, 기타)를 적용하여 방향, 제3자 개입 여부 및 event timestamps를 기록했습니다.
3.3 Dataset Statistics
Table 1은 세 번의 data generations를 요약합니다.
3.4 Long-Tail Evaluation Benchmark
우리는 동물, 보행자, 교차로, 추월/앞지르기, 자전거 탑승자, 안개, 인프라, 오토바이 운전자, 비, 눈을 포함하여 수동으로 검증된 9초 분량의 888개 clips로 구성된 10개 그룹의 long-tail benchmark를 소개합니다. 각 clip은 annotated event를 $t=6\text{ s}$에 배치하여 3초의 event 이후 영상을 남기는 표준화된 segment입니다. 모든 clip은 포함되기 전에 사람 annotators에 의해 5가지 quality criteria에 대해 독립적으로 검토되었습니다.
3 BADAS-2.0 Dataset 요약 노트 (AI 연구자 대상)
데이터 수집 전략: Active Mining Oracle + HITL
- BADAS-1.0의 한계 해결: 기존 모델이 동물 출몰, 야간, 악천후 등 희귀 시나리오에서 낮은 Recall을 보였던 점을 개선하기 위해 데이터 수집 방식을 고도화함.
- Oracle 기반 필터링: 수백만 개의 unlabeled 주행 영상에 BADAS-1.0을 구동하여 특정 risk threshold를 넘는 고위험 clip만 추출.
- 효율적인 Scaling: 무작위 전수 조사가 아닌, 모델이 '어렵다'고 판단한 후보군을 전문 annotators가 검증하는 Human-In-The-Loop(HITL) 방식을 채택하여 178,500개의 labeled videos 확보.
Annotation 및 온톨로지
- 7-type Ontology: 단순 충돌 여부를 넘어 Collision, Near-collision, Hard brake, Normal driving, Intersection, Passing, Other 등 구체적인 주행 상황 분류.
- 풍부한 Metadata: 충돌 방향, 제3자(타 차량/보행자 등) 개입 여부, 정확한 이벤트 발생 시점(timestamps)을 포함.
Long-Tail Evaluation Benchmark (핵심 차별점)
- 벤치마크 구성: 동물, 보행자, 안개, 오토바이 등 10개 하위 그룹으로 구성된 888개의 수동 검증된 clips.
- 표준화된 세그먼트: 각 clip은 총 9 s 분량으로, 주된 이벤트가 $t = 6$ s 지점에서 발생하도록 설계됨. (이벤트 전 6 s의 context와 이벤트 후 3 s의 경과를 포함)
- 품질 관리: 포함 전 5가지 품질 기준(quality criteria)에 따라 독립적인 검토 과정을 거쳐 평가 데이터의 신뢰성을 확보함.
쉬운 설명 :
이 섹션은 단순히 데이터를 많이 모았다는 내용이 아니라, **"얼마나 똑똑하게 어려운 데이터를 골라냈는가"**에 대한 이야기입니다.
- 자석으로 바늘 찾기 (Active Mining): 수백만 개의 평범한 주행 영상 중에서 '사고가 날 뻔한' 희귀한 장면을 사람이 일일이 찾는 건 불가능에 가깝습니다. 그래서 기존 모델(1.0)을 정찰병으로 보내서 "이거 좀 위험해 보이는데?"라고 골라온 영상들만 사람이 직접 확인해서 학습 데이터로 만들었습니다. 덕분에 데이터 양이 5배나 늘어났습니다.
- 진짜 어려운 문제집 만들기 (Long-Tail Benchmark): 시험을 잘 보려면 어려운 문제를 풀어봐야겠죠? 연구팀은 동물이 튀어나오거나, 안개가 심한 날 등 모델이 틀리기 쉬운 10가지 상황을 따로 모아 888개의 '심화 문제집'을 만들었습니다.
- 시험 시간의 표준화: 모든 영상은 9초 길이로 똑같고, 사고 장면은 항상 6초 지점에 나오도록 정렬했습니다. 이렇게 하면 모델이 상황을 충분히 지켜보다가 정확히 예측하는지 공정하게 평가할 수 있습니다.
4 Improved Core Model
4.1 Architecture
BADAS-2.0은 V-JEPA2 ViT-L backbone (300M parameters, $D=1024$, 24 transformer layers)을 $256 \times 256$ resolution 및 8 fps의 16-frame clips에서 end-to-end로 fine-tuning합니다. Spatial patch tokens는 frames 전반에 걸쳐 mean-pooled 되어 컴팩트한 clip-level representation을 생성합니다. Future-prediction branch는 backbone의 추정된 장면 representation을 1 s 앞서 생성하고 이를 current-clip features와 concatenates 하여, prediction head가 현재의 증거와 가까운 미래의 dynamics 모두에 접근할 수 있게 합니다. 3층 구조의 GELU MLP (hidden dim 768, dropout 0.1)가 이 결합된 vector를 collision probability로 매핑합니다.
BADAS-1.0 대비 학습 변경 사항은 다음과 같습니다: (i) 메모리 효율적인 full fine-tuning을 위한 gradient checkpointing; (ii) 채굴된 corpus 내 약 $\approx 88%$의 negative 유병률에 대응하기 위한 2:1 negative-to-positive oversampling ratio; (iii) label smoothing, gradient clipping, mixed-precision training을 포함한 cosine learning-rate annealing. 확장된 dataset은 희귀 시나리오 학습을 위해 4.5배 더 많은 labeled windows를 제공합니다.
4.2 Main Results
Table 2는 Nexar Kaggle competition (1,344 clips, 비디오당 단일 window)에 대한 결과를 보고합니다. 모든 지표가 BADAS-1.0보다 향상되었습니다: Kaggle mAP는 0.925에서 0.940으로 상승했으며, 특히 BADAS-2.0-Flash 변체는 가장 높은 mAP(0.941)를 달성했습니다.
4 Improved Core Model 요약 노트 (AI 연구자 대상)
모델 아키텍처 핵심: Future-Prediction Branch
- Backbone: V-JEPA2 ViT-L (300M parameters, $D=1024$, 24 layers)을 활용한 End-to-end Fine-tuning.
- 시공간 표상 최적화: 16-frame 입력값의 Spatial patch tokens를 mean-pooling 하여 압축된 representation 생성.
- 예측 기전: 단순히 현재만 보는 것이 아니라, 1 s 뒤의 장면 representation을 추정하는 별도의 branch를 운영. 현재의 features와 미래 예측 features를 concatenate 하여 prediction head에 전달함으로써 '현재 상황'과 '직후의 역동성'을 동시에 고려하도록 설계.
- Classifier: 3층 구조의 GELU MLP를 통해 최종 collision probability 산출.
학습 전략 (Training Recipe)
- Imbalance 해소: 채굴된 데이터의 88%가 사고가 없는 negative 데이터인 점을 극복하기 위해 2:1 (Negative:Positive) oversampling ratio를 적용.
- 효율적 학습: Gradient checkpointing을 도입하여 ViT-L 수준의 대형 모델을 메모리 효율적으로 full fine-tuning 함.
- 안정화 기법: Mixed-precision training, Label smoothing, Gradient clipping 및 Cosine LR annealing 적용.
주요 성과
- Kaggle mAP: 기존 0.925에서 0.940으로 성능 향상.
- 경량 모델의 반전: 특히 BADAS-2.0-Flash 모델이 0.941로 가장 높은 mAP를 기록하며 효율성과 성능을 동시에 잡음.
쉬운 설명 :
이번 2.0 모델의 가장 큰 특징은 **"1초 뒤를 내다보는 능력"**을 갖췄다는 점입니다.
- 미래 예측 뇌 구조: 우리가 운전할 때 현재 상황만 보는 게 아니라 "저 차가 1초 뒤엔 내 앞으로 끼어들겠구나"라고 앞날을 예상하듯, 모델 안에 **'1초 후 장면 예측기'**를 넣었습니다. 지금 눈앞의 상황과 모델이 예상한 1초 뒤 상황을 합쳐서 판단하기 때문에 충돌을 훨씬 더 정확하게 맞출 수 있습니다.
- 편식 없는 학습: 실제 길거리 영상은 사고가 안 나는 평범한 장면이 90% 가까이 됩니다. 모델이 평범한 상황에만 익숙해지지 않도록, 일부러 사고가 날 뻔한 '위험한 장면'들을 더 자주 보여주는 특수 훈련법(2:1 비율 학습)을 사용했습니다.
- 성능 향상: 이런 똑똑한 설계 덕분에 이전 버전보다 훨씬 높은 정확도를 보여주었으며, 특히 실시간 구동을 위해 가볍게 만든 모델도 기대 이상의 엄청난 성적을 냈습니다.
5 Knowledge Distillation to Edge Models
5.1 The Domain Gap Problem
Meta는 V-JEPA2를 ViT-L scale로만 출시했으며, 더 작은 V-JEPA2 checkpoints는 공개적으로 제공되지 않습니다. 무작위로 초기화된 ViT-S 또는 ViT-B를 BADAS supervision signal로 직접 training 하는 것은 실패합니다: 강력한 video prior 없이는 backbone이 신뢰할 수 있는 조기 경고 동작으로 수렴하지 않기 때문입니다. 우리의 SSL ablation(Table 3)은 이러한 격차를 정밀하게 수치화합니다.
5.2 Domain-Specific SSL Pre-Training
어떠한 supervised training을 진행하기 전에, 우리는 V-JEPA 스타일의 masked feature prediction을 사용하여 2.25M개의 unlabeled Nexar 블랙박스 비디오(약 5M clips)로 ViT-B 및 ViT-S backbone을 pre-train 합니다. SSL objective는 가시적인 context로부터 masked video regions의 추상적인 spatiotemporal representations를 예측하도록 backbone을 학습시키며, positional embeddings, motion representations, 그리고 attention patterns를 블랙박스 distribution에 적응시킵니다. 이 단계에서는 labeled data를 전혀 도입하지 않고 오직 가공되지 않은 video stream만 사용합니다.
5.3 Two-Phase Knowledge Distillation
SSL pre-training 이후, 우리는 다음과 같은 복합 loss를 통해 고정된 BADAS-2.0 ViT-L teacher로부터 도메인에 적응된 student로 distill 합니다:
여기서 $L_{\text{KD}}$는 온도 $\tau = 4.0$에서의 student와 teacher의 soft probability distributions 사이의 KL divergence이며, $L_{\text{feat}}$는 중간 feature representations (4개의 선택된 layers)를 일치시킵니다. Loss weights는 $\alpha_{\text{hard}} = 0.3$, $\alpha_{\text{logit}} = 0.6$, $\alpha_{\text{feat}} = 0.1$입니다.
학습은 4,000 steps(실제 batch 512, 8개의 GPUs)에 걸쳐 두 단계로 진행됩니다: Phase 1 (0~3,000 steps)에서는 전체 복합 loss로 학습하여 student가 경계선 사례에 대한 teacher의 보정된 불확실성을 흡수하게 합니다; Phase 2 (3,000~4,000 steps)에서는 teacher를 제외하고 오직 hard ground-truth BCE로만 학습하여 배포를 위한 probability 출력을 날카롭게 다듬습니다.
5.4 SSL Pre-Training Ablation
Table 3은 10개 그룹의 long-tail benchmark에서 평가된 ViT-S에 대한 각 단계의 기여도를 분리하여 보여줍니다. Figure 2는 3단계 진행 과정을 시각화합니다. SSL pre-training 단독으로도 무작위 초기화 대비 +28.1 pp AP를 제공하며, 이는 지배적인 효과를 가집니다. 그 위에 distillation을 추가하면 +1.0 pp AP가 더해지며, 더 중요한 것은 teacher의 보정된 불확실성이 student에게 전달됨에 따라 FPR이 20.6%에서 9.1%로 절반으로 줄어든다는 점입니다.
5.5 EWR and MTTA Dynamics Across Model Sizes
두 가지 상호 보완적인 지표가 각 모델 변체의 시간적 행동을 포착합니다. Early Warning Recall(EWR)은 모델이 이벤트 발생 전에 감지하는 비율을 측정하며, 다음과 같은 명확한 capacity 순서를 따릅니다: BADAS-2.0 (91.3%) > BADAS-2.0-Flash (89.9%) > BADAS-2.0-Flash-Lite (85.5%). 더 큰 모델은 짧은 시각적 증거만 제공되는 미묘하고 뒤늦게 전개되는 충돌을 포함하여 더 많은 비율의 이벤트를 감지합니다; capacity가 제한된 모델은 더 강력한 근접 신호(proximate cues)를 필요로 하며 이러한 어려운 케이스들을 완전히 놓칩니다.
Mean Time to Alert(MTTA)는 감지된 이벤트들 사이의 평균 리드 타임을 측정하며, 반대 순서를 보입니다: BADAS-2.0-Flash-Lite (1.46 s) > BADAS-2.0-Flash (1.42 s) > BADAS-2.0 (1.31 s). 이는 선택 효과(selection effect)입니다: 작은 모델은 명확하고 시각적으로 뚜렷한 이벤트(더 긴 시간에 걸쳐 발생하는 경향이 있는)에 대해서만 경고를 보내는 반면, BADAS-2.0은 경고 시간이 거의 없는 어려운 후기 발생 이벤트까지 잡아내어 감지된 사례들 중 평균 리드 타임을 낮추기 때문입니다. 실질적인 함의는 BADAS-2.0이 가장 광범위한 충돌 dynamics에 대해 가장 많은 총 조기 경고를 제공한다는 것입니다.
5 Knowledge Distillation to Edge Models 요약 노트 (AI 연구자 대상)
핵심 문제: V-JEPA2의 거대한 몸집과 Domain Gap
- Meta가 공개한 V-JEPA2는 ViT-L 크기뿐이며, 소형 모델(ViT-S/B)을 블랙박스 데이터로 처음부터 학습시키면 강력한 video prior가 없어 수렴에 실패함. 즉, 단순한 지도 학습만으로는 실시간 배포용 소형 모델을 만들 수 없음.
해결책 1: Domain-Specific SSL Pre-training (기초 체력 쌓기)
- Unlabeled Data 활용: 2.25M 개의 무작위 블랙박스 영상(약 5M clips)을 활용.
- V-JEPA 스타일 학습: 마스킹된 영역의 시공간적 표현을 예측하는 Self-supervised 방식을 통해, 모델이 블랙박스 특유의 시점, 움직임, attention 패턴을 스스로 익히게 함.
- 효과: 이 과정만으로도 무작위 초기화 대비 AP가 28.1pp 상승하는 결정적 기여를 함.
해결책 2: Two-Phase Knowledge Distillation (정교한 튜닝)
- Teacher: 고정된 BADAS-2.0 ViT-L.
- Composite Loss ($L$):(여기서 $\alpha_{\text{hard}} = 0.3$, $\alpha_{\text{logit}} = 0.6$, $\alpha_{\text{feat}} = 0.1$, 온도 $\tau = 4.0$)
-
$$L = \alpha_{\text{hard}} L_{\text{BCE}} + \alpha_{\text{logit}} L_{\text{KD}} + \alpha_{\text{feat}} L_{\text{feat}}$$
- 2단계 전략:
- Phase 1: 복합 손실 함수를 사용해 Teacher 모델의 '불확실성(calibrated uncertainty)'까지 흡수. 결과적으로 FPR(오탐률)을 20.6%에서 9.1%로 절반 이상 감소시킴.
- Phase 2: Teacher를 떼고 Hard GT로만 학습하여 실전 배포를 위해 출력을 날카롭게 다듬음.
모델 성능 역설 (EWR vs MTTA)
- Early Warning Recall (EWR): 모델이 클수록 높음 (91.3% vs 85.5%). 큰 모델일수록 아주 미세한 전조 증상도 잡아내기 때문.
- Mean Time to Alert (MTTA): 오히려 소형 모델이 더 긴 리드 타임을 가짐 (1.46 s vs 1.31 s).
- 이유(Selection Effect): 소형 모델은 '누가 봐도 확실하고 천천히 일어나는 사건'만 잡아내기 때문에 평균치는 길어 보임. 반면 대형 모델은 '깜빡할 새 일어나는 어려운 사고'까지 다 잡아내다 보니 평균 리드 타임이 깎이는 것임. 즉, 실제 안전에는 대형 모델(BADAS-2.0)이 가장 효과적임.
쉬운 설명 :
이 섹션은 **"어떻게 하면 똑똑한 거인(거대 모델)의 지식을 아주 작고 빠른 아이(경량 모델)에게 효율적으로 물려줄 것인가"**를 다룹니다.
- 눈부터 뜨게 하기 (SSL): 아무것도 모르는 작은 모델에게 바로 "사고를 맞춰봐"라고 하면 못 합니다. 그래서 일단 수백만 개의 일반 주행 영상을 보여주며 "영상의 다음 장면이 어떻게 될지 맞춰봐"라고 스스로 공부하게 했습니다. 이 과정만으로도 실력이 엄청나게 쌓였습니다.
- 스승님의 노하우 전수 (KD): 그다음, 성능 좋은 거대 모델 스승님 옆에 붙여서 학습시켰습니다. 단순히 "정답이 뭐야?"만 묻는 게 아니라, 스승님이 "이건 좀 헷갈리는데?"라고 느끼는 미묘한 판단 기준까지 배우게 했습니다. 덕분에 실수로 잘못 알람을 울리는 비율(오탐률)이 절반으로 뚝 떨어졌습니다.
- 성적표의 함정 (MTTA): 재미있는 건, 아주 작은 모델이 사고를 더 빨리 예고하는 것처럼 보일 때가 있다는 것입니다. 하지만 이건 작은 모델이 '아주 쉽고 뻔한 사고'만 겨우 맞추기 때문에 점수가 높게 나오는 착시일 뿐입니다. 진짜 실력자인 큰 모델은 남들이 다 놓치는 '순식간에 벌어지는 사고'까지 다 잡아내기 때문에 실제로는 훨씬 더 안전합니다.
결론적으로, 이 연구팀은 **"먼저 스스로 세상을 보게 하고(SSL), 스승의 판단력을 빌려와(KD), 작지만 강력한 모델을 완성"**했습니다.
BADAS는 차의 충돌을 예측하기만 했고 너무 느렸음.
그래서 그것을 개선하고자 더 빠르게 예측하고, 이유와 행동지시까지 추가시킴
데이터 셋도 아무거나 쓰면 정상적인게 많아서
기존 모델이 계산한 위험도가 높은 데이터만을 사용함.
그리고 하드 네거티브를 확보함. 모델이 위험하다고 했지만 사고가 나지 않은 경우
그리고 희귀 케이스도 쿼리로 표적 수집 해서 불균형을 강제로 메움
이 후 인간이 최종 검토
이제 학습 단계
사전 학습된 V-JEPA2 ViT-L 백본을 사용
256x256 해상도의 16프레임(8 fps) 비디오 클립을 임베딩
future-prediction branch에 넣어서 1초 뒤의 상황이 어떻게 되어있을지 계산해서 출력
그래서 컨캣해서 사용 후 mlp 에 넣어서 최종 충돌 확률 계산
최종 정답과 비교 후 loss 로 줌
미래 예측에 대한 loss는 없음 오로지 사고만
근데 너무 커서 소형모델로 다시 학습해야함.
일단 시각 능력을 키워야하니까. 가려놓고 가려진 부분들만 피쳐로 뽑음
그걸 맞추게 학습시킴 .
그 후 대형모델에서 디스틸
그 후 설명은 qwen3가 대신 해줌.
qwen 파인튜닝해서.
