AI바라기의 인공지능
U-net : 논문 리뷰 : nnU-Net Revisited: A Call for Rigorous Validation in 3D Medical Image Segmentation 본문
U-net : 논문 리뷰 : nnU-Net Revisited: A Call for Rigorous Validation in 3D Medical Image Segmentation
AI바라기 2026. 1. 15. 19:28용어 설명 (Terminology)
- nnU-Net: 2018년 제안된 프레임워크로, 데이터셋의 특성에 맞춰 U-Net의 전처리(preprocessing), 학습 설정(training schedule), 후처리 등을 자동으로 구성(self-configuring)해주는 방식. 아키텍처 자체보다는 **설정(configuration)**의 중요성을 강조함.
- Confounding Performance Boosters: 논문에서 비판하는 핵심 요소. 제안하는 모델의 성능 향상이 실제 아키텍처의 혁신 때문이 아니라, 베이스라인에는 적용하지 않은 부가적인 테크닉(Data augmentation, Ensembling, Pre-training, 더 큰 VRAM 사용 등) 덕분에 발생한 착시 현상을 의미함.
- Inter/Intra-method SD Ratio: 이 논문에서 제안한 Dataset Suitability 지표. 같은 모델을 여러 번 돌렸을 때의 편차(Intra) 대비 서로 다른 모델 간의 성능 차이(Inter) 비율. 이 비율이 높아야 모델 간 우열을 가리기 적합한 데이터셋임.
- Auto3DSeg: NVIDIA MONAI 생태계의 경쟁 프레임워크. nnU-Net과 유사하게 자동 구성을 지원한다고 주장하나, 본 논문의 벤치마크에서는 nnU-Net에 비해 성능이 떨어지는 것으로 나타남.
- Mamba / U-Mamba: 최근 NLP와 Vision에서 주목받는 SSM(State Space Model) 기반 아키텍처. 의료 영상에서도 CNN보다 우월하다고 주장되었으나, 이 논문에서 그 효과가 반박됨.
Purpose of the Paper
- 기존 연구의 한계 지적: Transformer나 Mamba와 같은 최신 아키텍처들이 CNN 기반의 U-Net보다 우수하다는 주장들이 쏟아지고 있으나, 저자들은 이것이 불공정한 비교(unfair comparison) 와 부실한 검증(rigorous validation 부재) 에 기인한다고 의심함.
- 검증의 불공정성 폭로: 많은 논문들이 베이스라인(U-Net)을 최적화하지 않거나(poorly configured), 제안 모델에만 고성능 하드웨어나 추가 데이터를 사용하여 성능을 부풀리고 있음을 지적함.
- 목표: 모든 방법론을 표준화된 환경(nnU-Net framework, 동일한 compute budget) 에서 공정하게 비교하여, 아키텍처의 유행(hype)이 아닌 실질적인 state-of-the-art(SOTA) 가 무엇인지 규명하고자 함.
Key Contributions
- Identification of Validation Pitfalls: 현재 Medical Image Segmentation 연구들에 만연한 4가지 주요 함정을 체계적으로 정리함.
- P1: 혁신이라 주장하는 부분과 confounding performance boosters (예: ResNet encoder 추가, 더 많은 epoch)를 결합하여 성능 향상의 원인을 흐림.
- P2: 베이스라인(U-Net)을 부실하게 설정하여 제안 모델을 돋보이게 함.
- P3: 변별력이 떨어지는 데이터셋(BTCV, BraTS)만 사용하여 일반화된 성능 향상인 것처럼 포장함.
- P4: 일관성 없는 결과 보고 (체리피킹, 비표준화된 split 사용).
- Standardized Baselines Release: 최신 하드웨어(VRAM 8GB~80GB)에 맞춰 자동 조절되는 nnU-Net ResEnc (Residual Encoder U-Net) 프리셋(M, L, XL)을 공개하여 향후 연구의 강력한 베이스라인을 제공함.
- Dataset Suitability Analysis: 모든 데이터셋이 벤치마킹에 적합한 것은 아님을 밝힘. Signal-to-Noise Ratio 개념을 도입해 KiTS, AMOS, ACDC가 모델 비교에 적합하며, BTCV, BraTS는 부적합함을 입증함.
- Debunking Architectural Hype: Transformer(SwinUNETR, nnFormer 등)와 Mamba(U-Mamba) 모델들이 공정한 조건에서는 CNN 기반 모델(nnU-Net, MedNeXt) 보다 성능이 낮거나 같음을 증명함.
Experimental Highlights
- Benchmark Setup:
- Framework: 대부분의 모델을 nnU-Net 프레임워크 내에 구현하여 전처리/후처리 파이프라인을 통일함.
- Compute: 모든 모델을 NVIDIA A100 40GB 단일 GPU 환경, 동일한 VRAM budget으로 제한하여 하드웨어 빨을 배제함.
- Training: Pre-training 없이 Scratch부터 학습 (공정한 아키텍처 비교를 위해).
- Key Results:
- CNN Supremacy: nnU-Net ResEnc XL과 MedNeXt가 대부분의 데이터셋에서 Top Performance를 기록함. 2018년에 나온 오리지널 nnU-Net조차 최신 Transformer 모델들을 압도하거나 대등함.
- Mamba Effect is Zero: 화제가 된 U-Mamba를 분석한 결과, 성능 향상은 Mamba layer 때문이 아니라 같이 사용된 ResNet-based Encoder 때문이었음. Mamba layer를 제거한 "No-Mamba Base" 모델이 U-Mamba와 성능 차이가 없음을 밝혀냄.
- Auto3DSeg Underperformance: MONAI의 Auto3DSeg 프레임워크는 동일한 모델(SwinUNETR)을 사용하더라도 nnU-Net 프레임워크보다 낮은 성능을 보임.
- Scaling matters: 데이터셋이 크고 복잡할수록(AMOS, KiTS), 모델의 크기(Model Capacity)를 키우는 것이 아키텍처를 바꾸는 것보다 성능 향상에 더 효과적임.
Limitations and Future Work
- Limitations:
- Training from Scratch: 본 연구는 Pre-training의 효과를 배제하고 Scratch 학습만 다룸. (단, STU-Net 실험을 통해 Transfer learning의 가능성은 일부 언급).
- Limited Task: 3D Medical Image Segmentation에만 집중되었으며, 다른 도메인(2D, Classification 등)으로의 확장은 다루지 않음.
- Future Work:
- Call for Standardization: 새로운 아키텍처를 제안할 때는 반드시 nnU-Net과 같은 고도화된 프레임워크 내에서 구현하여, 파이프라인의 차이가 아닌 아키텍처 본연의 성능을 입증해야 함.
- Dataset Diversity: 연구자들은 통계적 변별력이 높은 데이터셋(KiTS, AMOS 등)을 우선적으로 사용하여 검증해야 함.
Overall Summary
이 논문은 Medical Image Segmentation 분야에서 "새로운 아키텍처(Transformer, Mamba)가 무조건 좋다"는 맹목적인 믿음을 실증적으로 반박한 연구입니다. 저자들은 현재의 SOTA 주장들이 대부분 부실한 베이스라인 설정과 불공정한 비교 조건에서 비롯되었음을 밝혀내고, 공정한 벤치마크를 통해 잘 설정된 CNN(nnU-Net, ResNet variants)이 여전히 최신 아키텍처를 능가함을 증명했습니다. 이 연구는 무분별한 아키텍처 유행을 쫓기보다 엄밀한 검증 방법론(Rigorous Validation) 과 표준화된 베이스라인 준수가 분야의 실질적인 발전을 위해 필수적임을 시사합니다.
쉬운 설명
- 상황: 최근 의료 AI 연구에서 "Transformer나 Mamba 같은 최신 기술을 썼더니 성능이 엄청 좋아졌다!"라는 논문들이 쏟아져 나왔습니다.
- 논문의 주장: nnU-Net 만든 사람들이 보니 뭔가 이상합니다. "너네 달리기 시합할 때, 최신 모델(Transformer)에는 최상급 러닝화를 신기고, 옛날 모델(U-Net)에는 맨발로 뛰게 한 거 아니야?" 라고 의심한 거죠.
- 검증 결과: 실제로 공평하게 둘 다 똑같은 '최상급 러닝화(nnU-Net 프레임워크)'를 신기고, 똑같은 트랙(데이터셋)에서 달리게 해봤습니다.
- 결론: 놀랍게도 2018년에 나온 옛날 모델(U-Net)이나 그 개량형(CNN)들이 최신 유행하는 모델들보다 더 빠르거나 비슷했습니다. 특히 최신 유행 기술인 Mamba는 성능 향상에 기여한 게 거의 없었고, 사실상 기본 뼈대(Encoder)를 튼튼하게 만든 게 비결이었습니다. 즉, **"최신 유행 모델이 무조건 좋은 게 아니라, 기본 모델을 얼마나 잘 세팅하느냐가 훨씬 중요하다"**는 것을 증명했습니다.
Abstract
nnU-Net의 공개는 3D medical image segmentation에서 paradigm shift를 나타냈으며, 적절하게 구성된 U-Net architecture가 여전히 state-of-the-art 결과를 달성할 수 있음을 입증했습니다. 그럼에도 불구하고, novel architectures에 대한 추구와, U-Net baseline보다 우수한 성능을 보인다는 각각의 주장은 계속되었습니다.
본 연구에서, 우리는 이러한 최근의 주장들 중 다수가 inadequate baselines의 사용, insufficient datasets, 그리고 간과된 computational resources와 같은 일반적인 validation shortcomings에 대해 면밀히 조사했을 때 타당성을 잃는다는 것을 입증합니다.
이러한 pitfalls를 꼼꼼하게 피함으로써, 우리는 CNN-based, Transformer-based, 그리고 Mamba-based approaches를 포함한 현재의 segmentation methods에 대해 철저하고 포괄적인 benchmarking을 수행합니다.
현재의 믿음과는 대조적으로, 우리는 state-of-the-art performance를 위한 비결이 1) ResNet 및 ConvNeXt variants를 포함한 CNN-based U-Net models를 채택하는 것, 2) nnU-Net framework를 사용하는 것, 그리고 3) models를 modern hardware resources에 맞게 scaling하는 것임을 발견했습니다.
이러한 결과는 이 분야에서 novel architectures에 대한 지속적인 innovation bias가 있음을 나타내며, scientific progress를 추구함에 있어 더 엄격한 validation standards의 필요성을 강조합니다.
Keywords
Medical Image Segmentation, Validation, Benchmark
1 Introduction
Medical image segmentation은 여전히 매우 활발한 research 영역으로 남아 있으며, 이는 2023년에만 20,000회 이상의 인용을 받은 U-Net architecture에 의해 입증되었습니다. 2018년 nnU-Net의 도입은 중요한 순간이었으며, architecture 자체를 수정하는 것보다 architecture의 신중한 implementation 및 configuration이 state-of-the-art 결과를 달성하는 데 더 중요하다는 점을 강조했습니다. 그럼에도 불구하고, Transformers 및 Mamba와 같은 더 넓은 computer vision domain에서의 innovative architectures에 대한 매력은 지속되고 있습니다. 이러한 cutting-edge designs를 medical imaging domain에 적용한 adaptations가 등장했으며, 기존의 CNN-based U-Net보다 performance가 우수하다는 주장이 제기되었습니다.
본 논문에서, 우리는 이러한 주장들을 비판적으로 조사하고 medical domain으로의 new methods에 대한 현재의 급격한 채택이 엄격한 validation의 부재를 수반한다는 것을 발견했습니다. 결과적으로, 우리는 comprehensive benchmark에서 체계적으로 테스트했을 때 methodological superiority에 대한 최근의 많은 주장들이 성립하지 않음을 관찰했습니다. 이러한 경향은 상당한 우려를 낳으며, medical image segmentation 분야에서 novel architectures에 대한 attention bias가 만연해 있음을 시사합니다. 이러한 bias를 극복하고 분야를 의미 있는 methodological progress로 다시 이끌기 위해, 우리는 엄격한 validation practices를 강조하는 체계적인 변화를 요구합니다.
우리의 연구는 다음과 같은 contributions를 제공합니다:
- 우리는 이 분야의 validation pitfalls를 체계적으로 식별하고 이를 피하는 방법에 대한 recommendations를 제공합니다.
- 우리는 prevalent segmentation methods의 performance를 면밀히 조사하기 위해 철저한 validation protocol 하에 large-scale benchmark를 수행합니다.
- 이 분석을 바탕으로, 우리는 적절한 benchmarking datasets 세트뿐만 아니라 medical image segmentation을 위한 핵심적인 methodological components를 식별합니다.
- 우리는 https://github.com/MIC-DKFZ/nnUNet 에서 3D medical segmentation을 위한 업데이트된 standardized baselines 시리즈를 공개합니다. 이것들은 nnU-Net framework 내의 residual encoder U-Net을 기반으로 하며 다양한 hardware capabilities ("M", "L", "XL")를 수용하도록 조정되었습니다.
1 Introduction 핵심 요약 노트
[Current Trend & Problem Identification]
- Context: nnU-Net(2018)이 architecture 자체의 수정보다 implementation 및 configuration이 더 중요하다는 것을 입증했음에도 불구하고, 여전히 Transformer나 Mamba 같은 novel architectures를 medical domain에 적용하려는 시도가 지속됨.
- The Issue: 이러한 cutting-edge designs가 기존 CNN-based U-Net보다 performance가 우수하다는 주장이 많으나, 이는 stringent validation이 결여된 결과임.
- Critical Finding: Comprehensive benchmark를 통해 체계적으로 검증한 결과, 최신 방법론들의 superiority 주장은 성립하지 않음. 현재 medical image segmentation 분야는 novel architectures에 대한 심각한 attention bias에 빠져 있음.
[Proposed Solutions & Contributions]
- Validation Pitfalls Analysis: 분야 내 만연한 잘못된 검증 방식(pitfalls)을 식별하고 해결책을 제시.
- Large-scale Benchmark: 철저한 validation protocol 하에 prevalent segmentation methods를 재검증.
- Updated Standardized Baselines:
- Architecture: nnU-Net framework 내의 residual encoder U-Net 기반.
- Scalability: Hardware capabilities에 맞춰 **"M", "L", "XL"**로 scaling 된 모델들을 공개 (Github 링크 포함).
쉬운 설명 :
"요즘 AI 연구 트렌드를 보면, 다들 Transformer니 Mamba니 하는 최신 유행 architecture를 가져와서 '우리가 기존 U-Net보다 더 좋다!'라고 자랑합니다. 하지만 이 논문 저자들이 뜯어보니, 그건 검증(validation)을 제대로 안 해서 생긴 착시 현상이었습니다.
저자들이 아주 엄격한 기준으로 다시 테스트해보니, '튜닝 잘 된 구관(U-Net)'이 명관이었습니다. 연구자들이 너무 '새로운 구조'에만 집착(bias)해서 정작 중요한 검증을 놓치고 있다는 거죠.
그래서 이 논문은 이렇게 말합니다: '이상한 검증 방식으로 뻥튀기된 성능 믿지 말고, 우리가 제대로 검증하는 법 알려줄게. 그리고 컴퓨터 사양(M, L, XL)에 맞춰서 진짜 성능 좋은 기본 U-Net 모델도 새로 다 깎아서 배포해 줄 테니 이거 써.'"
2 Validation Pitfalls
다음에서, 우리는 현재 관행에서 지배적인 validation pitfalls 모음과 이를 피하는 방법에 대한 recommendations를 함께 제시합니다. Section 4에서, 우리는 이러한 pitfalls가 어떻게 methodological superiority에 대한 근거 없는 주장으로 이어지는지를 경험적으로 입증함으로써 이 이니셔티브의 결정적인 필요성을 강조합니다.
2.1 Baseline-related Pitfalls
Existing work와의 공정하고 포괄적인 비교를 제공하는 것은 scientific progress에 필수적입니다. 현재, 우리는 유의미한 비교를 보장하는 데 있어 엄격함이 부족함을 관찰합니다.
P1: Coupling the claimed innovation with confounding performance boosters: Method의 performance를 인위적으로 향상시켜, 주장된 innovation의 실제 영향을 모호하게 만드는 여러 가지 방법이 있습니다. 한 가지 예는 baseline이 vanilla CNN encoder를 사용하는 반면 주장된 innovation을 encoder의 residual connections와 결합하는 것입니다. 또 다른 예는 baselines에서는 사용되지 않은 additional training data와 주장된 innovation을 결합하는 것입니다. 만약 additional data의 사용이 투명하게 밝혀지지 않는다면 이는 더욱 치명적입니다. 관련 pitfall은 baselines는 scratch로부터 train하는 반면, 주장된 innovation을 self-supervised pretraining과 결합하는 것입니다. 세 번째 예는 주장된 innovation을 더 큰 hardware capabilities와 결합하는 것, 즉 동일한 compute budget (VRAM usage 및 training time)으로 scaled 되지 않은 baselines와 비교하는 것입니다. 마지막으로, 때때로 주장된 innovations는 해당 method가 20-fold ensembling과 결합된 leaderboard results에만 전적으로 기초하는 반면, 다른 leaderboard 항목들은 그러한 비용이 많이 드는 performance boosters를 사용하지 않는 경우입니다.
Recommendation (R1): Meaningful validation은 제안된 method가 혼란을 주는 performance boosters와 결합되지 않은 baselines와의 공정한 비교를 보장함으로써 주장된 innovation의 효과를 완전히 격리합니다.
P2: Lack of well-configured and standardized baselines: nnU-Net은 적절한 method configuration이 종종 architecture 자체보다 performance에 더 큰 영향을 미친다는 것을 입증했습니다. 이는 불완전하게 구성된 baseline (즉, 불투명하고 잠재적으로 수준 이하의 hyperparameter optimization을 가진 수동으로 구성된 U-Net)과의 비교에 근거할 경우 methodological superiority에 대한 주장이 오해를 불러일으킬 수 있음을 시사합니다. nnU-Net과 같은 일부 methods는 new datasets에 대해 자동화되고, high-quality이며, 따라서 standardized configuration을 제공함으로써 "faulty baseline" 문제를 해결합니다. 그럼에도 불구하고, 많은 연구들은 입증된 high-quality configuration을 갖춘 그러한 standardized baseline에 대한 benchmarking 없이 계속해서 methodological superiority를 주장합니다. nnU-Net과 같은 auto-configuration frameworks를 넘어, existing methods를 baselines로 포함할 때 high-quality configuration을 보장하는 것은 거의 불가능한데, 왜냐하면 일반적으로 new tasks에 대한 adaptation 지침이 제공되지 않기 때문입니다. 모든 methods에 동일한 hyperparameter tuning budget이 할당된다 하더라도, 이러한 manual adjustments의 필요성은 오류가 발생하기 쉬운 과정이며 궁극적으로 결과의 관련성을 감소시킵니다.
Recommendation (R2): Baselines의 high-quality configuration 보장에 대한 요구를 넘어, 이 분야의 장기적인 standardization은 newly proposed methods가 adaptation instructions를 갖추거나, 이상적으로는 그들의 capabilities를 상속받기 위해 auto-configuration frameworks 내에 신중하게 통합될 때만 달성될 수 있습니다.
2.2 Dataset-related Pitfalls
P3: Insufficient quantity and suitability of datasets: nnU-Net 연구는 1) biomedical datasets의 방대한 다양성과 2) 일반적인 methodological advancements에 대해 주장할 때 충분한 수와 다양성의 datasets에 대해 테스트할 필요성을 입증하는 실험들을 포함합니다. 그러나, 우수한 segmentation performance를 주장하는 최근 연구들에서 사용된 datasets의 중앙값은 3개입니다. 그 숫자 자체는 별것 아닌 것처럼 보일 수 있지만, popular datasets의 다양한 benchmarking suitability를 고려할 때 우려가 됩니다. 예를 들어, 우리가 Section 4에서 경험적으로 분석하듯이, BTCV와 BraTS라는 두 datasets는 각각의 clinical task를 해결하는 데 유용한 환경이기는 하지만, 일반적인 methodological advancements를 평가하기 위한 신뢰할 수 있는 토대를 제공하지는 않습니다. 이는 높은 statistical variance (BTCV)와 낮은 systematic variance (BraTS) 때문입니다. 그럼에도 불구하고, 수많은 연구들이 benchmark의 최소 50%가 BTCV 또는 BraTS로 구성되어 있음에도 불구하고 methodological superiority를 주장합니다.
Recommendation (R3): Meaningful validation은 사용된 datasets가 주장된 methodological advancement를 측정하기 위한 적절한 근거가 될 것을 요구합니다. 이는 Section 4의 우리 연구에서 평가된 바와 같이, 개별 datasets의 benchmarking suitability뿐만 아니라 충분한 dataset quantity 및 diversity를 포함할 수 있습니다.
P4: Inconsistent reporting practices: Public leaderboard submissions의 Standardization은 제한적입니다. 예를 들어 ensembling, test time augmentations 및 post-processing techniques에 대해 다양한 전략을 허용합니다. 제안된 method가 모든 부가적인 기능들(bells and whistles)을 갖추었을 때 state-of-the-art를 넘어설 수 있음을 보여줘야 하는 필요성에는 완벽하게 부합하지만, 그러한 non-standardized settings는 의미 있는 methodological conclusions를 도출하는 능력을 약화시킵니다. 결과적으로, 연구자들은 baselines에 대한 통제된 비교를 위해 종종 custom train/test splits에 의존하지만, 이것들은 일반적으로 상당한 result instability를 도입하고 사소한 performance gains의 중요성에 의문을 제기하는 작은 test sets를 포함합니다. 게다가, 정당한 이유 없이 datasets의 특정 classes에 대해서만 선택적인 결과를 보고하는 관행은 result integrity를 더욱 훼손합니다.
Recommendation (R4): 순환하는 validation set을 사용하는 5-fold cross-validation은 reliability를 향상시키며 종종 실용적인 해결책을 나타냅니다. 그러나, development 및 validation을 위해 동일한 dataset(s)를 사용하는 것은 암묵적인 overfitting 및 generalizability 부족의 위험을 내포합니다. 따라서, 이상적으로는, baselines에 대한 cross-validation을 위해 development datasets 풀(pool)과 독립적인 test datasets 풀을 구별하는 것이 method performance에 대한 더 신뢰할 수 있는 평가를 제공할 것입니다.
2 Validation Pitfalls 핵심 요약 노트
[Baseline-related Pitfalls (비교 대상의 문제)]
- P1: 부당한 성능 부스팅 (Unfair Boosting)
- 문제: 자신의 모델에는 성능 향상 요소(Residual connections, Extra data, Pre-training, 고사양 Hardware, Ensembling 등)를 적용하고, Baseline에는 적용하지 않는 불공정한 비교.
- 해결(R1): 오직 제안하는 'Innovation'의 효과만 측정되도록 외부 요인을 동일하게 통제해야 함.
- P2: 최적화되지 않은 Baseline (Weak Baseline)
- 문제: Baseline(주로 U-Net)을 대충 튜닝하거나, 설정이 불투명한 상태로 비교하여 자신의 모델이 우월하다고 주장. 기존 nnU-Net처럼 자동화된 최적 설정을 제공하지 않으면 공정한 비교가 사실상 불가능함.
- 해결(R2): 새로운 방법론 제안 시 Adaptation instructions를 제공하거나, Auto-configuration framework(예: nnU-Net) 내에 통합하여 누구나 공정하게 성능을 재현할 수 있게 해야 함.
[Dataset-related Pitfalls (데이터셋의 문제)]
- P3: 데이터셋의 수량 및 적합성 부족 (Bad Data Choice)
- 문제: 보통 3개 정도의 적은 데이터셋만 사용함. 특히 BTCV(높은 통계적 분산)나 BraTS(낮은 체계적 분산)처럼 방법론의 우수성을 검증하기에 부적합한 데이터셋이 벤치마크의 절반 이상을 차지하는 경우가 많음.
- 해결(R3): 충분한 수와 다양성을 갖춘 데이터셋을 사용하고, 해당 데이터셋이 방법론 검증에 적합한지(Benchmarking suitability) 따져봐야 함.
- P4: 일관성 없는 보고 관행 (Reporting Issues)
- 문제: Leaderboard용 트릭(Ensembling, TTA 등)을 섞거나, 임의의 Split(작은 Test set)을 사용하여 결과가 불안정함. 특정 Class의 결과만 골라서 보고(Cherry-picking)하는 행위.
- 해결(R4): 최소한 5-fold cross-validation을 사용하라. 이상적으로는 Development set과 Test set의 풀(pool)을 완전히 분리하여 Generalizability를 검증해야 함.
쉬운 설명 :
"이 섹션은 AI 연구자들이 논문을 쓸 때 흔히 저지르는 '반칙' 4가지를 고발하고 있습니다.
- 장비빨 세우기 (P1): 내 모델은 풀옵션(추가 데이터, 고사양 GPU, 앙상블)으로 돌리고, 비교 대상(Baseline)은 기본 옵션으로 돌려서 이겼다고 자랑하지 마세요.
- 약한 상대 고르기 (P2): 비교 대상인 U-Net을 대충 세팅해서 성능을 떨어뜨려 놓은 뒤, 내 모델이 더 좋다고 하지 마세요. 상대방도 최상의 컨디션(nnU-Net 최적 설정)일 때 싸워야 진짜 승부입니다.
- 쉬운 문제만 풀기 (P3): 고작 데이터셋 3개 써놓고 일반화됐다고 하지 마세요. 특히 BTCV(운빨이 심함)나 BraTS(변별력 낮음) 같은 데이터셋으로만 검증하면 통계적으로 의미가 없습니다.
- 점수 조작하기 (P4): 유리한 결과만 쏙 빼서 보여주거나(Cherry-picking), 테스트 데이터를 내 맘대로 조금만 잘라서 점수 뻥튀기하지 마세요. 5번 교차 검증(5-fold CV)이라도 해서 정정당당하게 점수를 내야 합니다."
3 Systematic 3D Medical Segmentation Benchmark
이러한 pitfalls와 recommendations를 고려하여, 우리는 체계적이고 포괄적인 benchmark를 기반으로 최근 제안된 methods를 다시 검토합니다.
3.1 Compared Methods
우리는 methods를 CNN-based, Transformer-based, 그리고 Mamba-based로 분류합니다.
CNN-based: 우리는 vanilla U-Net을 사용하는 nnU-Net의 original configuration뿐만 아니라 encoder에 residual connections를 사용하는 variant ("nnU-Net ResEnc")를 포함하는데, 이는 2019년부터 공식 repository의 일부였습니다. 향후 불공등한 hardware settings의 benchmarking을 피한다는 취지에서(P1 참조), 우리는 다양한 VRAM budgets ("M", "L", "XL")를 목표로 하기 위해 batch 및 patch sizes에 대한 nnU-Net의 기존 automatic adaptation을 사용하는 새로운 nnU-Net ResEnc presets를 도입합니다. 우리는 또한 ConvNeXt blocks를 사용하는 transformer-inspired CNN-modification인 MedNeXt (우리는 kernel sizes "k3"와 upkernel "k5"를 가진 size "L"을 테스트함), 그리고 "S"(mall), "B"(ase), "L"(arge), "H"(uge)라는 이름으로 parameter counts가 증가하는 scaled up U-Nets 시리즈인 STU-Net을 포함합니다.
Transformer-based: 우리는 SwinUNETR의 original version뿐만 아니라 version 2, nnFormer, 그리고 convolutional 및 transformer modules를 결합한 hybrid architecture인 CoTr을 테스트합니다.
Mamba-based: 우리는 U-Net encoder ("U-Mamba Enc") 또는 bottleneck ("U-Mamba Bot")에만 독점적으로 Mamba-layers를 채택한 최근 제안된 U-Mamba model을 테스트합니다. 우리는 또한 mamba layers를 끄고 동일한 설정을 사용하는, 원래 publication에서 누락된 ablation ("No-Mamba Base")을 포함합니다.
앞서 언급한 모든 methods는 원래 nnU-Net framework에서 구현되었으나, SwinUNETR(V1+V2)은 불완전한 configuration instructions (P2)으로 인해 우리가 nnU-Net framework에 통합했습니다.
Framework comparison: 최근 methods를 비교하는 것 외에도, 우리는 nnU-Net을 최근의 대안적인 framework인 Auto3DSeg (Version 1.3.0)와 벤치마킹합니다. Auto3DSeg는 MONAI eco-system의 일부이며 최근 KiTS2023과 같은 몇몇 매우 경쟁적인 challenges에서 우승함으로써 MICCAI 2023에서 화제를 불러일으켰고, 이를 통해 nnU-Net과 동일한 auto-configuration functionality를 약속하는 대안으로 자리 잡았습니다. 이 framework는 세 가지 주요 architectures ("SegResNet", "DiNTS", "SwinUNETR")를 통해 테스트됩니다.
R1과 R2의 정신에 입각하여, 우리는 1) 가능한 경우 methods의 self-configuration abilities를 사용하거나, 2) 여러 configurations가 제공된 경우 각각의 dataset에 가장 가까운 configuration을 선택하거나, 3) 대안이 제공되지 않은 경우 default configuration을 사용하거나, 4) 필요한 경우 convergence가 달성될 때까지 learning rate를 줄이는 방식으로 hyperparameter configuration을 위한 standardized scheme을 채택합니다. 모든 models는 scratch로부터 train됩니다. 유일한 예외는 Auto3DSeg framework 내의 SwinUNETR입니다. 자동으로 pre-trained weights를 로드하는 그것의 default를 변경하는 것은 우리의 hyperparameter configuration scheme과 모순되었을 것입니다. 우리는 또한 40GB VRAM을 가진 단일 NVIDIA A100에서 모든 trainings를 실행함으로써 모든 methods에 걸쳐 동등한 maximum VRAM budget을 적용했습니다. 이 budget은 우리 benchmark에서 가장 큰 STU-Net variant ("H")를 제외합니다.
3.2 Utilized Datasets
우리의 benchmark는 6개의 datasets를 활용합니다: BTCV, ACDC, LiTS, BraTS2021, KiTS2023, 그리고 AMOS2022 (post challenge Task 2). 우리는 인기(popularity)를 기준으로 datasets를 선택했으며, 이를 통해 R3를 따르고 method benchmarking에 대한 적합성(suitability)과 관련하여 prevalent datasets를 평가할 수 있게 했습니다. 효과적인 benchmarking dataset은 methodological differences의 일관된 신호(signals)를 측정할 수 있어야 한다는 점을 감안하여, 우리는 적합성에 대한 두 가지 요구 사항을 도출합니다:
- 동일한 method로부터 5개의 folds에 걸친 DSC Scores의 낮은 standard deviation (SD) (intra-method SD), 이는 statistical stability와 높은 signal-to-noise ratio를 나타냅니다.
- 서로 다른 methods 간의 높은 SD (inter-method SD), 이는 methodological differences의 의미 있는 신호들을 나타냅니다. 즉, performance가 각각의 task에서 너무 빨리 saturate되지 않음을 의미합니다.
우리의 최종 suitability score는 inter-method 대 intra-method SD의 비율(ratio)입니다.
R4에 따라, 우리는 5-fold cross-validation을 사용하여 결과를 보고하며, nnU-Net에 의해 생성된 splits를 채택하고 이를 모든 methods에 걸쳐 일관되게 적용합니다. 우리는 본 연구에서 새로운 methods를 개발하지 않으므로, development 대 test dataset pools를 구별하는 것을 삼가합니다. 우리는 **Average Dice Similarity Coefficients (DSC)**를 기본 metric으로, **Normalized Surface Dice (NSD)**를 보조 metric으로 하여 결과를 보고합니다. 두 metrics 모두에 대해, problem-specific metric nuances를 파고들지 않고 generalist segmentation capabilities를 평가하기 위해, 결과는 각 dataset의 모든 classes 및 5개의 folds에 걸쳐 평균화됩니다. Hierarchical evaluation regions를 특징으로 하는 datasets (BraTS2021, KiTS2023)의 경우, 우리는 겹치지 않는 classes 대신 이러한 regions에 대해 metrics를 계산합니다.
3 Systematic 3D Medical Segmentation Benchmark 핵심 요약 노트
[3.1 Compared Methods & Standardization Strategy]
- Architecture Categorization:
- CNN-based: nnU-Net (Vanilla), nnU-Net ResEnc (Residual Encoder variant), MedNeXt, STU-Net.
- New Contribution: **"nnU-Net ResEnc" presets (M, L, XL)**를 도입하여 Hardware budget에 따른 공정한 비교 기준 마련.
- Transformer-based: SwinUNETR (V1, V2), nnFormer, CoTr.
- Mamba-based: U-Mamba (Enc, Bot).
- Critical Ablation: "No-Mamba Base" 추가 (Mamba layer만 제거하고 동일 설정 유지)하여 Mamba의 실질적 기여도 검증.
- CNN-based: nnU-Net (Vanilla), nnU-Net ResEnc (Residual Encoder variant), MedNeXt, STU-Net.
- Implementation & Framework:
- 대부분 nnU-Net framework 내에서 구현.
- SwinUNETR은 configuration instructions 불완전(P2)으로 인해 저자들이 직접 nnU-Net으로 이식.
- Framework Battle: nnU-Net vs Auto3DSeg (MONAI 1.3.0, 최근 KiTS2023 우승 등 부상하는 대안) 비교 수행.
- Hyperparameter & Hardware Standardization:
- Configuration Scheme: Self-config(1순위) -> Closest config -> Default -> LR decay 순으로 표준화.
- Scratch Training: 모든 모델은 from scratch 학습 (Auto3DSeg의 SwinUNETR 제외 - default가 pre-trained load).
- Compute Budget: **Single NVIDIA A100 (40GB VRAM)**으로 통일. (이로 인해 STU-Net "H" 모델은 제외됨).
[3.2 Utilized Datasets & Suitability Assessment]
- Datasets: BTCV, ACDC, LiTS, BraTS2021, KiTS2023, AMOS2022 (총 6개, Popularity 기반 선정).
- Methodological Suitability Metric (Novelty): 단순 성능 측정이 아니라 Dataset 자체가 벤치마킹에 적합한지 평가하는 지표 제안.
- Intra-method SD: 동일 모델 5-fold 편차 (낮을수록 좋음, Statistical stability).
- Inter-method SD: 모델 간 편차 (높을수록 좋음, Method 간 변별력).
- Final Score: Ratio of Inter-method / Intra-method SD.
- Evaluation Protocol:
- 5-fold Cross-validation: nnU-Net split을 모든 모델에 일관되게 적용.
- Metrics: Average DSC (Primary), NSD (Secondary).
쉬운 설명 :
"이 섹션은 저자들이 논문 검증을 위해 **'진짜 공정한 올림픽 경기장'**을 어떻게 만들었는지 설명합니다.
- 선수 입장 (Models):
- 구관이 명관 CNN (기본 U-Net부터 덩치 키운 버전까지).
- 요즘 핫한 Transformer.
- 최신 유행 Mamba.
- 특이점: 특히 Mamba 모델의 경우, 'Mamba 레이어만 쏙 뺀 버전(No-Mamba)'을 따로 만들어서, 진짜 Mamba 덕분에 잘한 건지 아니면 그냥 구조가 좋았던 건지 팩트 체크를 준비했습니다.
- 새로운 기준: 컴퓨터 사양에 따라 체급을 나눈 nnU-Net (M, L, XL) 버전을 새로 만들어 배포했습니다.
- 경기 규칙 (Rules):
- 장비 통일: 모두 똑같은 그래픽카드(A100 40GB) 하나만 써서 돌림. (장비빨 금지)
- 설정 통일: 튜닝도 최대한 자동화되거나 공정한 룰에 따름.
- 프레임워크 대결: 챔피언 nnU-Net과 도전자 **Auto3DSeg(MONAI)**도 맞붙여 봄.
- 시험지 검증 (Datasets):
- 시험 문제(데이터셋) 6개를 골랐는데, 그냥 푼 게 아니라 **'이 문제가 변별력이 있나?'**를 따져봤습니다.
- 같은 모델이 풀 때마다 점수가 들쭉날쭉하면 안 되고(안정성), 잘하는 모델과 못하는 모델의 점수 차이는 확실해야(변별력) 좋은 데이터셋이라고 정의했습니다."
4 Results and Discussion
KiTS, AMOS, 그리고 ACDC는 3D segmentation methods를 benchmarking하기에 가장 적합한 datasets입니다. Fig. 1은 우리 benchmark에 기초한 dataset analysis의 결과를 보여줍니다 (상세 결과는 Appendix Table 3 참조). 우리는 KiTS, AMOS, ACDC가 낮은 statistical noise (intra-method SD)를 보이는 동시에 높은 inter-method SD로 나타나듯 methods 간을 효과적으로 구별한다는 것을 발견했습니다. 셋 중에서 KiTS는 압도적으로 가장 높은 inter-method SD를 특징으로 하며, 이는 task에서의 가장 낮은 performance saturation을 나타냅니다. 반대로, BraTS21의 점수는 saturated 상태이며 methods 간 및 내부 모두에서 최소한의 변화만 있습니다. BTCV는 1 미만의 SD ratio를 보이는데, 이는 statistical noise가 methods 간의 performance differences의 signal을 초과할 수 있음을 나타냅니다. LiTS는 benchmarking suitability 측면에서 중간 지점을 나타냅니다. 요약하자면, ACDC, AMOS, KiTS는 benchmarking을 위한 가장 적합한 datasets로 권장될 수 있으며, BraTS, LiTS, BTCV는 이 목적에 덜 적합한 것으로 관찰됩니다.
CNN-based U-Nets yield best performance.
Table 1은 우리의 실험 결과를 보여줍니다 (NSD로 측정된 결과는 Appendix Table 4 참조). nnU-Net에서 구현된 CNN-based U-Nets는 6개 datasets 모두에서 일관되게 강력한 performance를 제공합니다. Original nnU-Net 외에도, 여기에는 STUNet, ResEnc M/L/XL, MedNeXt 및 No-Mamba base가 포함됩니다. MedNeXt는 KiTS를 제외한 모든 datasets에서 best performance로 일관되게 돋보이지만, benchmarking suitability가 높은 datasets에서는 그 격차가 더 작습니다. 게다가, MedNeXt의 performance gains는 증가된 training time (특히 k5)이라는 상당한 비용을 수반합니다. Appendix Table 5의 추가 실험들은 MedNeXt의 이점 중 일부가 target spacing selection으로 설명될 수 있으며 따라서 전적으로 superior architecture와 연관된 것은 아님을 나타냅니다. STUNet이 주로 transfer learning에 초점을 맞춰 소개되었음을 감안하여, 우리는 Appendix Table 5에서 Totalsegmentator dataset에 대한 pre-training의 효과를 분석했습니다.
중요하게도, 관찰된 CNNs의 우수성은 제한된 크기의 benchmarks에서 methods를 scratch로부터 training하는 현재의 실험 설정과 결부되어 있습니다. 다른 imaging domains에서 관찰된 Transformers의 이점이 medical imaging에서는 아직 실현되지 않았지만, 더 큰 규모의 training data가 이용 가능해지고 transfer learning techniques가 향상됨에 따라 미래에는 성공 가능성이 있을 수 있습니다. 이전의 주장들과는 대조적으로, Transformer-based architectures (SwinUNETR, nnFormer, CoTr)는 CNNs의 performance에 필적하지 못합니다. 여기에는 Transformer-based architectures보다 훨씬 이전에 공개된 original nnU-Net의 performance에 미치지 못하는 것도 포함됩니다. CoTr은 Transformer 카테고리에서 가장 좋은 결과를 보여주는데, 이전 문헌은 이를 convolutional components와 연관 지었습니다. U-Mamba는 처음에 segmentation tasks 전반에 걸쳐 잘 수행되는 것처럼 보이지만, 이전에 누락된 baseline인 "No-Mamba Base"와의 비교는 mamba layers가 실제로는 performance에 아무런 영향을 미치지 않으며, 대신 원래 보고된 gains가 method를 residual U-Net과 결합했기 때문임을 밝혀냅니다 (P1 참조). Auto3DSeg에 구현된 methods 중에서 SegResNet이 best performance를 보인다는 사실은 관찰된 CNNs의 우수성이 단지 nnU-Net에 의해 도입된 bias가 아님을 강조합니다.
nnU-Net is the state-of-the-art segmentation framework.
우리는 Auto3DSeg에 포함된 세 가지 methods 중 어느 것도 original nnU-Net baseline ("org.") performance에 도달하지 못함을 발견했으며, 이는 근본적인 Auto3DSeg framework로 인한 상당한 불리함을 나타냅니다. 이러한 부정적인 격차는 nnU-Net baseline의 현저히 낮은 VRAM usage와 training time에도 불구하고 발생합니다. 동일한 method (SwinUNETR)로 두 frameworks를 비교할 때, nnU-Net은 6개 datasets 중 5개에서 승리합니다. 공식 Auto3DSeg tutorial을 따라 우리는 configuration의 manual changes 및 computing budget을 더욱 증가시켜 결과를 개선했지만, competitive performance에 도달하는 데 실패했습니다 (Appendix Table 2 참조). 종합하면, Auto3DSeg는 최근 challenge 우승들에서 입증된 것처럼 state-of-the-art results를 산출하도록 밀어붙일 수 있지만, 그것의 out-of-the-box capabilities는 nnU-Net에 미치지 못합니다.
Scaling models is important especially on larger datasets
우리는 두 가지 methods: nnU-Net Resenc M/L/XL과 STU-Net S/B/L을 기반으로 model scaling의 효과를 테스트했습니다. 우리는 더 도전적인 tasks인 AMOS와 KiTS에서 compute budget이 증가함에 따라 performance의 상당한 boost가 관찰됨을 발견했습니다. 예상대로, "더 쉬운" tasks인 BTCV와 BraTS는 model scaling으로 인한 performance gains의 잠재력이 더 적습니다. 이러한 발견들은 의미 있는 method comparison을 위한 size-awareness와 dataset-awareness의 중요성을 강조합니다. 예를 들어, 크고 새로운 segmentation model의 우수성에 대한 증거는 훨씬 더 작은 original nnU-Net과의 비교에 근거해서는 안 됩니다.
4 Results and Discussion 핵심 요약 노트
[Dataset Analysis: 벤치마크로서의 자격 검증]
- Best Datasets (Recommended): KiTS, AMOS, ACDC
- 이유: Low statistical noise (Intra-method SD가 낮음) + High differentiation (Inter-method SD가 높음).
- 특징: KiTS가 가장 높은 변별력을 보여주며, 성능이 아직 saturation되지 않음.
- Worst Datasets (Not Recommended): BraTS, BTCV
- BraTS: 이미 성능이 saturated되어 모델 간 차이가 거의 없음 (변별력 상실).
- BTCV: Statistical noise가 모델 간 성능 차이보다 커서 신뢰할 수 없음 (SD ratio < 1).
[Architecture Wars: CNN vs Transformers vs Mamba]
- Winner: CNN-based U-Nets
- nnU-Net (Original & ResEnc), STU-Net, MedNeXt 등이 일관되게 최상위 성능 기록.
- MedNeXt가 가장 높으나 Training time 비용이 크고, 아키텍처뿐만 아니라 target spacing selection 덕분이기도 함.
- The Reality of Transformers:
- SwinUNETR, nnFormer, CoTr 모두 Original nnU-Net 성능조차 넘지 못함.
- 현재의 Training from scratch on limited data 환경에서는 Transformer의 이점이 발현되지 않음.
- The "Mamba" Debunking (Critical Finding):
- U-Mamba가 성능이 좋아 보였으나, 저자들이 수행한 "No-Mamba Base" (Mamba layer 제거, 나머지 동일) 실험 결과 성능 차이가 없었음.
- 결론: Mamba layer의 효과가 아니라, Residual U-Net 구조와 결합했기 때문에 성능이 좋았던 것임 (Pitfall P1의 전형적인 사례).
[Framework Comparison: nnU-Net vs Auto3DSeg]
- nnU-Net Dominance: Auto3DSeg (MONAI) 프레임워크 내 모델들은 Original nnU-Net 성능에 도달하지 못함.
- Efficiency: nnU-Net이 VRAM usage와 training time이 더 적으면서도 성능은 더 우수함.
- Direct Comparison: 동일한 SwinUNETR 모델로 비교해도 nnU-Net 프레임워크가 6개 중 5개 데이터셋에서 승리.
[Impact of Scaling]
- Task Dependency: AMOS, KiTS 같은 어려운 Task에서는 Compute budget (Model scaling)을 늘릴수록 성능이 크게 향상됨. 반면 BTCV, BraTS 같은 쉬운 Task에서는 효과 미미.
- Implication: 거대 모델의 성능을 논할 때 작은 Original nnU-Net과 비교하는 것은 불공정함 (Size-awareness 필요).
쉬운 설명 :
"이 섹션은 저자들이 실험 결과를 통해 기존의 '거품'들을 터뜨리고 '팩트 폭격'을 하는 구간입니다.
- 데이터셋 구조조정: '앞으로 성능 검증할 거면 KiTS, AMOS, ACDC 쓰세요. BraTS는 너무 쉬워서 다들 만점이라 변별력 없고, BTCV는 그냥 운빨(노이즈)이 너무 심해서 못 씁니다.'
- Mamba의 배신: '요즘 핫한 Mamba 모델이 성능 좋다고 해서 저희가 뜯어봤는데요, Mamba 레이어를 싹 빼버려도 성능이 똑같았습니다. Mamba 덕분이 아니라 그냥 뼈대(Res-UNet)가 좋았던 겁니다. 속지 마세요.'
- 결국은 구관이 명관: 'Transformer니 뭐니 해도, 데이터 제한된 의료 영상에서는 그냥 **잘 깎은 CNN(U-Net)**이 제일 잘합니다. Transformer 모델들은 옛날에 나온 기본 nnU-Net 하나도 못 이겼습니다.'
- 프레임워크의 왕: 'MONAI의 Auto3DSeg가 뜬다고 해서 붙어봤는데, nnU-Net이 더 가볍고 빠르고 성능도 좋습니다. 그냥 nnU-Net 쓰세요.'
- 체급 존중: '어려운 문제(데이터셋) 풀 때는 덩치(모델 크기) 키우는 게 효과가 확실합니다. 그러니 제발 대형 모델 만들어놓고 소형 모델이랑 싸워서 이겼다고 자랑하지 맙시다.'"
최신 모델쓰는 것도 좋지만 검증을 잘 하고 쓰자.
별점 2.5점 / 5점
현 논문 생태계의 거품을 시원하게 터뜨리며 검증의 중요성을 알린 건 인정하지만, 냉정하게 뜯어보면 저자들이 기술적으로 새로 만든 건(Novelty) 아무것도 없는 '내부 고발' 성격의 보고서,
심지어 CNN 기반의 튜닝 방식을 트랜스포머나, 맘바에 적용하고 에폭도 같게하는 등 편파적인 튜닝 방식이 의심됨.
