AI바라기의 인공지능

dataset : 논문리뷰 : EgoTV: Egocentric Task Verification from Natural Language Task Descriptions 본문

논문리뷰

dataset : 논문리뷰 : EgoTV: Egocentric Task Verification from Natural Language Task Descriptions

AI바라기 2025. 1. 3. 17:49

EgoTV 논문 정리 노트

Purpose of the Paper

기존의 vision-language models은 일상적인 작업을 이해하는 데 한계가 있었습니다. 특히, 자연어로 주어지는 복잡한 multi-step tasks를 이해하고, 이를 egocentric 비디오에서 검증하는 데 어려움을 겪었습니다. 이러한 한계를 극복하고자, 본 논문은 자연어 task descriptions를 기반으로 egocentric 비디오에서 task 수행 여부를 검증하는 새로운 benchmark인 Egocentric Task Verification (EgoTV)를 제안합니다. EgoTV는 기존 datasets에서 부족했던 causal, temporal, compositional reasoning 능력을 중점적으로 평가하며, real-world 시나리오를 반영한 복잡한 task와 추상적인 task descriptions를 포함하여 egocentric agents 개발에 필요한 실질적인 평가 기준을 제공합니다.

Key Contributions

  1. EgoTV Benchmark 및 Dataset 제안: Egocentric agents가 일상 tasks를 자연어로 이해하고 수행 여부를 검증하도록 하는 benchmark와 synthetic dataset을 제안합니다.
    • Multi-step tasks: 여러 sub-tasks로 구성되며, sub-task 간의 순서 제약 조건, 상태 변화, 객체 상호 작용 등을 포함합니다.
    • Abstracted task descriptions: task 수행 방법에 대한 구체적인 정보가 생략된, 추상적인 descriptions를 포함합니다.
    • 다양한 Generalization 평가: unseen visual contexts, compositions of steps, tasks 등 다양한 측면에서의 generalization 능력을 평가합니다.
    • AI2-THOR [29] simulator를 활용하여 photo-realism과 task diversity를 확보하면서도, fine-grained control을 통해 task reasoning models을 정밀하게 평가할 수 있습니다.
  2. Neuro-Symbolic Grounding (NSG) Approach 제안: Compositional reasoning과 unseen tasks generalization에 강점을 가진 새로운 접근 방식입니다.
    • Order-aware visual grounding: task의 순서 정보를 고려하여 visual grounding을 수행합니다.
    • Symbolic representations: task의 compositional 및 temporal structure를 포착하여 unseen tasks로의 generalization을 가능하게 합니다.
  3. Real-world Dataset (CTV) 구축: CrossTask [82] instructional video dataset을 기반으로 real-world task verification dataset을 구축하여, real-world 성능 평가를 가능하게 합니다.
  4. EgoTV 및 CTV dataset, NSG model을 open-source로 공개: egocentric assistive agents에 대한 연구 활성화에 기여합니다.

Novelty

  1. Egocentric Task Verification이라는 새로운 Task 정의: 기존의 video understanding 연구들이 activity recognition, human-object interaction, object state change 등에 집중했던 반면, EgoTV는 자연어로 주어지는 multi-step task의 수행 여부를 egocentric 비디오에서 검증하는 새로운 task를 제시합니다.
  2. Neuro-Symbolic Grounding (NSG) Approach: 기존의 vision-language models이 어려움을 겪었던 compositional reasoning과 order sensitivity 문제를 해결하기 위해 symbolic representations를 활용하는 새로운 접근 방식을 제안합니다.
  3. Abstracted Task Descriptions: 기존 datasets에서는 찾아보기 어려웠던 추상적인 task descriptions를 포함하여, real-world assistive agents 개발에 필요한 실질적인 평가 기준을 제공합니다.

Experimental Highlights

  1. State-of-the-art vision-language models과의 비교: NSG는 EgoTV benchmark에서 기존의 state-of-the-art models (CLIP4Clip [39], CLIP Hitchhiker [3], CoCa [76], VideoCLIP [36], MIL-NCE [44], VIOLIN [38]) 대비 우수한 성능을 보였습니다. 특히, compositional generalization (33.8% 우위)과 abstractly described task verification (32.8% 우위)에서 큰 성능 향상을 보였습니다.
  2. Real-world Dataset (CTV)에서의 성능 검증: NSG는 real-world dataset인 CTV에서도 state-of-the-art models 대비 우수한 task verification 성능을 보였습니다.
  3. Ablation Studies: NSG의 각 구성 요소 (query types, window size 등)의 효과를 검증하고, 성능에 미치는 영향을 분석했습니다.
  4. Qualitative Analysis: NSG가 task-relevant entities를 explicit supervision 없이 localize 할 수 있음을 confusion matrix를 통해 시각적으로 보여주었습니다.

Limitations

  1. Simultaneous Actions: 현재 NSG는 "냉장고 문을 닫으면서 사과를 집는" 것과 같은 동시 actions를 고려하지 않습니다.
  2. Equal-length Video Segments: sub-tasks의 duration이 매우 다양할 경우, equal-length video segments 가정이 적합하지 않을 수 있습니다.
  3. Full Task Execution Video: NSG는 전체 task graph를 비디오와 align 하기 때문에, 전체 task execution video가 필요합니다.

Future Work

  1. Simultaneous Actions 처리: Multiple simultaneous actions를 고려하도록 NSG를 확장할 수 있습니다.
  2. Variable-length Video Segments: sub-tasks의 duration variation을 고려한 video segmentation 방법을 연구할 수 있습니다.
  3. Online Task Verification: Partial video alignment를 통해 online task verification을 수행하도록 NSG를 개선할 수 있습니다.
  4. More Diverse Free-form Language Descriptions: dataset에 crowdsourcing 등을 통해 수집한 다양하고 자유로운 형태의 language descriptions를 추가할 수 있습니다.
  5. Cyclic Graphs: unstacking an arbitrary number of dishes, searching for an ingredient 와 같이, desired state에 도달할 때까지 action sequences를 반복해야 하는 tasks를 cyclic graphs로 확장할 수 있습니다.

 

 

 

 

 

 

 

 

 

 

 

 

Abstract

 

자연어로 지정된 일상적인 작업을 이해할 수 있는 1인칭 에이전트(egocentric agents)를 향한 진전을 가능하게 하기 위해, 우리는 Egocentric Task Verification (EgoTV)라는 벤치마크와 합성 dataset을 제안합니다. EgoTV의 목표는 이러한 작업에 대한 자연어 설명을 기반으로 1인칭 시점 비디오에서 작업의 실행을 확인하는 것입니다. EgoTV는 다단계 작업에 대한 비디오와 해당 작업 설명 쌍을 포함합니다. 이러한 작업에는 여러 하위 작업 분해, 상태 변경, 객체 상호 작용 및 하위 작업 순서 제약 조건이 포함됩니다. 또한 EgoTV는 작업 수행 방법에 대한 부분적인 세부 정보만 포함하는 추상화된 작업 설명도 제공합니다. 결과적으로 EgoTV는 기존 dataset에는 없는 비디오 및 language modalities의 인과적, 시간적, 구성적 reasoning을 요구합니다. 우리는 또한 기존의 vision-language models이 EgoTV의 작업 확인에 필요한 이러한 모든 전반적인 reasoning에 어려움을 겪는다는 것을 발견했습니다. EgoTV의 필요성에 영감을 받아, 우리는 작업의 구성적 및 시간적 구조를 포착하기 위해 symbolic representations을 활용하는 새로운 Neuro-Symbolic Grounding (NSG) 접근 방식을 제안합니다. 우리는 EgoTV dataset과 CrossTask에서 파생된 실제 dataset(CTV)에서 작업 추적 및 검증에 대한 NSG의 기능을 보여줍니다. 우리는 1인칭 보조 에이전트에 대한 향후 연구를 위해 EgoTV 및 CTV dataset과 NSG model을 open-source합니다.

 

핵심 문제:

  • 자연어로 묘사된 일상적인 작업을 이해하는 1인칭 에이전트(egocentric agent) 개발 필요성 증대

제안 솔루션 (EgoTV):

  • 새로운 벤치마크 및 합성 데이터셋 : Egocentric Task Verification (EgoTV)
  • 목표: 1인칭 시점 비디오에서 작업이 자연어 설명대로 실행되었는지 확인.
  • 데이터 구성:
    • 다단계 작업에 대한 비디오 및 자연어 작업 설명 쌍 포함.
    • 하위 작업 분해, 상태 변화, 객체 상호작용, 하위 작업 순서 제약 등 포함.
    • 추상화된 작업 설명 제공 (수행 방법에 대한 일부 세부 정보만 포함).
  • 필요 역량:
    • 비디오 및 언어 모달리티에 대한 인과적, 시간적, 구성적 추론(reasoning) (기존 데이터셋에는 부족).

기존 모델의 한계:

  • 기존 vision-language models은 EgoTV 작업 검증에 필요한 전반적인 추론(reasoning)에 어려움을 겪음.

제안 모델 (NSG):

  • Neuro-Symbolic Grounding (NSG) 접근 방식
  • 작업의 구성 및 시간 구조를 포착하기 위해 symbolic representation 활용.

실험 및 결과:

  • EgoTV 및 CrossTask에서 파생된 실제 데이터셋(CTV)에서 작업 추적 및 검증에 대한 NSG 성능 입증.

기여:

  • EgoTV 및 CTV 데이터셋, NSG 모델 오픈소스화.
  • 1인칭 보조 에이전트 연구 활성화 기대.

요약:

EgoTV는 1인칭 시점 비디오와 자연어 설명을 통해 작업을 이해하고 검증하는 새로운 벤치마크입니다. 이를 통해 기존 vision-language models의 한계를 지적하고, symbolic representation을 활용하는 새로운 NSG 모델을 제안하여 성능을 입증했습니다. EgoTV는 향후 1인칭 에이전트 연구에 기여할 것으로 기대됩니다.

 

 

 

  1. Introduction

visual systems의 최근 발전에 영감을 받아, 우리는 일상 활동에 대해 reasoning 할 수 있는 보조적인 1인칭 에이전트(egocentric agent)를 고려합니다. 예를 들어, 케이크를 굽는 동안 자연어 명령을 통해 호출되면 에이전트는 굽는 데 관련된 단계를 이해하고 작업의 다양한 단계를 통해 진행 상황을 추적하고 제안을 통해 실수를 감지하고 사전에 방지합니다. 이러한 가상 에이전트는 사용자가 새로운 기술을 배우고 작업을 효율적으로 수행할 수 있도록 지원합니다.

 

자연어 명세를 기반으로 일상적인 작업을 추적하고 확인할 수 있는 이러한 1인칭 에이전트를 개발하는 것은 여러 가지 이유로 어렵습니다. 첫째, 이러한 에이전트는 자연어로 지정된 다단계 작업을 수행하는 다양한 방법에 대해 reasoning 해야 합니다. 여기에는 작업을 관련 actions, 상태 변경, 객체 상호 작용 및 이러한 엔터티 간의 필요한 인과적 및 시간적 관계로 분해하는 것이 수반됩니다. 둘째, 에이전트는 진행 상황을 추적하고 실수를 감지하기 위해 이러한 엔터티를 1인칭 관찰에 ground 해야 합니다. 마지막으로, 진정으로 유용하려면 이러한 에이전트가 작업 조합, 이상적으로는 보이지 않는 작업에 대한 추적 및 검증을 지원해야 합니다. 이러한 세 가지 과제(자연어에서 작업 구조에 대한 인과적 및 시간적 reasoning, 하위 작업의 visual grounding 및 구성적 일반화)는 우리 연구의 핵심 목표를 구성합니다.

 

우리의 첫 번째 기여로, 우리는 벤치마크인 Egocentric Task Verification (EgoTV)와 AI2-THOR 시뮬레이터의 해당 dataset을 제안합니다. 에이전트의 자연어(NL) 작업 설명과 해당 1인칭 비디오가 주어지면 EgoTV의 목표는 작업이 비디오에서 성공적으로 완료되었는지 여부를 확인하는 것입니다. EgoTV에는 실제 assistant의 필요성에 따라 영감을 받은 단계에 대한 순서 제약 조건과 생략된 low-level 작업 세부 정보가 있는 추상화된 NL 작업 설명이 있는 다단계 작업이 포함되어 있습니다. 또한 보이지 않는 visual contexts, 단계 구성 및 작업과 같은 다양한 일반화 측면에 초점을 맞춘 dataset 분할을 제공합니다(그림 1 참조). 결과적으로 EgoTV dataset은 실제 dataset에서는 종종 부족한 작업 reasoning models의 엄격한 테스트 및 개선에 필요한 세분화된 제어를 제공합니다. 그러나 EgoTV는 visual photo-realism 및 작업 다양성을 활용하여 현실 세계를 반영합니다.

 

 

그림 1. EgoTV 벤치마크. EgoTV의 훈련 세트에서 가져온 긍정적인 예시[왼쪽]와 부정적인 예시[오른쪽]가 테스트 분할[하단]의 예시와 함께 표시됩니다. 테스트 분할은 작업의 새로운 구성, 보이지 않았던 하위 작업 또는 단계 및 장면, 그리고 NL 작업 설명의 추상화에 대한 일반화에 중점을 둡니다. 경계 상자(bounding boxes)는 오직 설명을 위한 목적으로만 사용되며 training/inference 중에는 사용되지 않습니다.

 

 

우리의 두 번째 기여는 순서를 인식하는 visual grounding을 위한 새로운 접근 방식인 Neuro-Symbolic Grounding (NSG)입니다. 이는 구성적 reasoning이 가능하고 작업의 구성적 및 시간적 구조(작업 분해, 순서 지정)와 함께 추상적인 NL 설명을 활용하는 능력 덕분에 보이지 않는 작업으로 일반화할 수 있습니다. 대조적으로, state-of-the-art vision-language models은 1인칭 비디오에서 NL 설명을 ground하는 데 어려움을 겪고 보이지 않는 작업으로 일반화하지 않습니다. NSG는 구성적 일반화에서 33.8%, 추상적으로 설명된 작업 검증에서 32.8%로 이러한 models을 능가합니다. 마지막으로, 실제 데이터에서 NSG를 평가하기 위해 CrossTask instructional video dataset에 EgoTV를 인스턴스화합니다. 우리는 또한 CrossTask의 작업 검증에서 state-of-the-art models을 능가한다는 것을 발견했습니다. 우리는 EgoTV 벤치마크와 dataset이 일상적인 작업을 지원할 수 있는 1인칭 에이전트에 대한 향후 연구를 가능하게 하기를 바랍니다.

 

 

 

배경:

  • 최근 visual systems 발전
  • 일상 활동에 대해 추론(reasoning) 가능한 1인칭 보조 에이전트(egocentric assistive agent)의 필요성 대두
    • 예시: 케이크 굽기 중 자연어 명령을 통한 단계 이해, 진행 상황 추적, 실수 방지 등

1인칭 에이전트 개발의 어려움:

  1. 다단계 작업에 대한 추론:
    • 자연어로 주어진 다단계 작업을 수행하는 다양한 방법 이해
    • 작업을 actions, 상태 변화, 객체 상호작용, 인과/시간적 관계로 분해
  2. 1인칭 관찰에 대한 Grounding:
    • 진행 상황 추적 및 실수를 감지하기 위해 위에서 분해한 요소들을 1인칭 관찰에 연결(ground)
  3. 일반화 성능:
    • 다양한 작업 조합, 새로운(unseen) 작업에 대한 추적 및 검증 지원

본 연구의 핵심 목표 (3가지):

  1. 자연어에서 작업 구조에 대한 인과적, 시간적 추론(reasoning)
  2. 하위 작업의 visual grounding
  3. 구성적 일반화(compositional generalization)

주요 기여 1: EgoTV 벤치마크 및 데이터셋 제안

  • Egocentric Task Verification (EgoTV): 1인칭 시점 비디오에서 작업이 자연어 설명대로 성공적으로 완료되었는지 확인하는 벤치마크.
  • AI2-THOR 시뮬레이터 기반:
    • 다단계 작업 포함 (단계별 순서 제약, 추상화된 NL 작업 설명).
    • 다양한 일반화 측면(새로운 visual contexts, 단계 구성, 작업, 추상화 레벨)에 초점을 맞춘 테스트 분할 제공.
    • 엄격한 테스트 및 개선을 위한 세분화된 제어 제공.
    • 현실감(visual photo-realism) 및 작업 다양성 반영.

주요 기여 2: Neuro-Symbolic Grounding (NSG) 모델 제안

  • 순서 인식 visual grounding을 위한 새로운 접근법.
  • 구성적 추론(compositional reasoning) 및 보이지 않는 작업으로의 일반화 가능.
    • 작업의 구성 및 시간 구조(작업 분해, 순서)와 추상적인 NL 설명을 활용.
  • 기존 모델과의 비교:
    • state-of-the-art vision-language models은 1인칭 비디오에서 NL 설명을 ground 하는 데 어려움을 겪고, 새로운 작업으로 일반화하지 못함.
    • NSG는 구성적 일반화(33.8%↑) 및 추상적 작업 검증(32.8%↑)에서 기존 모델 능가.

실제 데이터 평가:

  • CrossTask instructional video dataset에 EgoTV 적용.
  • CrossTask 작업 검증에서도 state-of-the-art models 능가.

기대 효과:

  • EgoTV 벤치마크와 dataset은 일상 작업을 돕는 1인칭 에이전트 연구 활성화에 기여할 것.

요약:

본 연구는 일상 보조를 위한 1인칭 에이전트 개발의 필요성과 어려움을 제시하고, 이를 해결하기 위한 EgoTV 벤치마크 및 NSG 모델을 제안합니다. EgoTV는 1인칭 시점 비디오에서 작업 이해 및 검증을 위한 새로운 기준을 제시하며, NSG는 구성적 추론과 일반화 성능을 통해 기존 모델의 한계를 극복합니다. 이를 통해 향후 1인칭 에이전트 연구 발전에 기여할 것으로 기대됩니다.

 

2.Related Work

 

Video-based Task Understanding. 비디오에서 작업을 이해하는 것은 1인칭 또는 3인칭 시점 비디오를 사용하여 activities, human-object interactions, 객체 상태 변화를 인식하는 데 중점을 둔 vision 연구에서 오랫동안 지속된 주제였습니다. 그러나 actions, 객체 및 상태 변화를 인식하는 것 외에도 작업 확인에는 이들 간의 시간적 순서(temporal orderings)를 이해해야 합니다. 따라서 우리의 연구는 순서가 지정된 여러 단계에 대한 reasoning이 필요한 instructional tasks를 이해하는 것에 대한 연구에 더 가깝습니다. 이전 연구들은 단계 순서를 학습하거나, 단계 표현(representations) 또는 단계 분할(segmentation)을 학습하기 위한 supervisory signal로 단계 순서를 사용하는 데 중점을 둡니다. 대신, 우리는 NL로 설명된 단계의 비디오 기반 순서 확인에 중점을 둡니다.

 

Temporal Video Grounding. 우리의 EgoTV 벤치마크는 또한 Temporal Video Grounding (TVG) 문제와 밀접한 관련이 있습니다. 그러나 TVG에 대한 이전 연구는 주로 비디오에서 단일 action을 localizing하는 데 중점을 둡니다. 대조적으로, EgoTV는 여러 actions의 localizing을 필요로 하며, 여기서 actions은 부분적인 순서를 가질 수 있습니다. 즉, actions은 둘 이상의 유효한 순서를 가질 수 있습니다.

 

Vision-Language Benchmarks. video와 language modalities에 걸쳐 reasoning 할 수 있는 models을 가능하게 하기 위해 다양한 벤치마크 작업이 제안되었습니다(표 1 참조).

 

표 1. EgoTV와 기존 video-language datasets 비교. EgoTV 벤치마크는 1인칭 환경에서 구성적(compositional), 인과적(예: actions의 영향), 시간적(예: action 순서) reasoning에 대한 체계적인 조사(진단)를 가능하게 합니다. 부록의 표 5는 더 포괄적인 비교를 제공합니다.

 

 

 

예로는 video question answering, video-based entailment, embodied task completion이 있습니다. 그러나 이러한 벤치마크는 multimodal reasoning의 개별적인 특정 측면에 중점을 둡니다. 예를 들어, compositional reasoning 또는 causal reasoning에 집중합니다. 이와 비교하여 EgoTV는 인과적(causal) 및 구성적(compositional) reasoning에 모두 중점을 두고 있으며, 1인칭 환경이기는 하지만 STAR 및 CLEVRER와 유사하게 텍스트에서 객체와 actions의 visual grounding을 추가로 요구합니다. task-planning 및 control을 통해 일상적인 작업을 수행할 수 있는 로봇 에이전트를 개발하는 것이 목적인 embodied task completion 벤치마크와 달리, EgoTV 벤치마크의 목적은 인간이 수행하는 일상적인 작업을 추적하고 확인할 수 있는 가상 에이전트를 개발하는 것입니다. NLP entailment 문제와 유사하게, 주어진 "전제"(비디오)가 "가설"(작업 설명)에 의해 검증되는 비디오 기반 entailment 문제로 볼 수도 있습니다.

 

Vision-Language Models. large-scale image-text 또는 video-language narration 쌍으로 pre-trained된 Vision-Language Models (VLMs)은 특정 구성적(compositional) 및 인과적(causal) 작업에서 향상된 성능을 보여주었습니다. 그러나 이들은 일반적으로 compositionality와 순서 민감성(order sensitivity)을 처리하는 데 어려움을 겪습니다. 대신, NSG는 neuro-symbolic reasoning을 사용하여 작업 검증에서 일반화를 위한 순서 인식(order awareness)과 compositionality를 명시적으로 대상으로 합니다.

 

Neuro-symbolic Models. Neuro-symbolic models은 deep learning을 통한 feature extraction과 symbolic reasoning을 결합하여 구성적 하위 구조(compositional substructures)를 포착합니다. 이러한 models은 정적 이미지에서 객체 속성 및 관계를 인식하기 위해 reasoning하거나, 비디오에서 시공간 및 인과 관계를 인식하기 위해 reasoning합니다. 우리는 이것을 다단계(multi-step) actions 추적으로 확장합니다.

 

 

크게 5가지 분야로 나누어 관련 연구를 살펴봅니다.

2.1 Video-based Task Understanding (비디오 기반 작업 이해)

  • 연구 동향: 1인칭/3인칭 시점 비디오를 활용하여 activities, human-object interactions, 객체 상태 변화를 인식하는 데 중점.
  • 한계: actions, 객체, 상태 변화 인식 외에도 작업 검증(verification)을 위해선 시간적 순서(temporal ordering) 이해가 필수적.
  • 본 연구와의 차별점:
    • 다단계(multiple, ordered steps)에 대한 추론(reasoning)이 필요한 instructional tasks 이해 연구와 유사.
    • 기존 연구는 단계 순서 학습 또는 단계 표현/분할 학습을 위한 보조 신호로 순서 활용에 집중.
    • 본 연구는 NL로 기술된 단계의 비디오 기반 순서 검증(order verification) 에 초점.

2.2 Temporal Video Grounding (TVG)

  • 기존 연구: 주로 비디오 내 단일 action localizing에 집중.
  • EgoTV와의 차이점:
    • 여러 actions localizing 필요.
    • Actions 간 부분 순서(partial ordering) 존재 가능 (여러 유효한 순서 존재).

2.3 Vision-Language Benchmarks

  • 다양한 벤치마크 존재: video question answering, video-based entailment, embodied task completion 등 (표 1 참조).
  • 기존 벤치마크의 한계:
    • multimodal reasoning의 특정 측면 (compositional or causal reasoning 등)에만 집중.
  • EgoTV의 특징:
    • 인과적(causal) 및 구성적(compositional) reasoning 모두에 집중.
    • 1인칭 시점(egocentric settings)에서 텍스트 기반 객체 및 action의 visual grounding 요구 (STAR, CLEVRER와 유사).
    • 목표: 인간의 일상 작업 추적 및 검증을 위한 가상 에이전트 개발 (embodied task completion 벤치마크와 차별점).
    • 비디오 기반 entailment 문제: 주어진 "전제"(비디오)를 "가설"(작업 설명)로 검증 (NLP entailment 문제와 유사).

2.4 Vision-Language Models (VLMs)

  • 장점: large-scale image-text/video-language narration 쌍으로 pre-trained되어 구성적/인과적 작업에서 향상된 성능.
  • 한계: compositionality와 순서 민감성(order sensitivity) 처리에 어려움.
  • NSG와의 차별점: NSG는 neuro-symbolic reasoning을 통해 작업 검증의 일반화를 위한 순서 인식(order awareness)과 compositionality를 명시적으로 목표로 함.

2.5 Neuro-symbolic Models

  • 핵심: deep learning을 통한 feature extraction과 symbolic reasoning 결합.
  • 목표: 구성적 하위 구조(compositional substructures) 포착.
  • 적용 분야:
    • 정적 이미지: 객체 속성 및 관계 인식.
    • 비디오: 시공간 및 인과 관계 인식.
  • 본 연구의 확장: 다단계(multi-step) actions 추적으로 확장 적용.

요약:

본 연구는 기존의 Video-based Task Understanding, Temporal Video Grounding, Vision-Language Benchmarks, Vision-Language Models, Neuro-symbolic Models 연구들을 바탕으로, 1인칭 시점에서의 작업 이해 및 검증이라는 새로운 문제에 초점을 맞추고 있습니다. 특히, 인과적/구성적 추론, 순서 인식, visual grounding을 중요하게 다루며, 이를 위해 EgoTV 벤치마크와 NSG 모델을 제안함으로써 기존 연구들의 한계를 극복하고 새로운 방향을 제시합니다.

 

 

3. EgoTV Benchmark와 Dataset

우리는 Egocentric Task Verification (EgoTV) benchmark와 dataset을 제시합니다. 1인칭 에이전트에 대한 작업 추적 및 확인을 가능하게 하기 위해 EgoTV는 다음을 포함합니다.

  1. 일상 작업의 인과적 및 시간적 특성을 포착하기 위한 순서 제약 조건이 있는 다단계(multi-step) 작업.
  2. 언어 기반 인간-에이전트 상호 작용을 허용하기 위한 1인칭 비디오 외의 language(multimodality의 일종).

EgoTV는 또한 작업 확인에서 일반화에 대한 체계적인 연구를 가능하게 하는 것을 목표로 합니다(표 1 참조). 이를 위해 우리는 작업 추적 및 확인을 위한 일반화 가능한 에이전트에 대한 향후 연구를 위한 풍부한 테스트베드로서 사실적인 시뮬레이터 AI2-THOR를 사용하여 EgoTV dataset을 만듭니다. 우리의 합성 dataset은 작업 추론에 영향을 미치는 다양한 요소에 대한 제어를 제공하는 동시에 다양한 작업 확인 model의 실제 성능에 대한 가치 있는 프록시 역할을 합니다. 마지막으로, 우리는 또한 CrossTask dataset을 사용하여 실제 작업 확인 dataset(§ 4)을 만듭니다. 이 dataset은 1인칭 시점이 아니며 작업 추론 model의 일반화를 체계적으로 평가하는 능력이 제한되어 있지만 실제 세계에서 작업 확인 model을 테스트할 수 있습니다.

3.1. 정의

Benchmark. 목표는 자연어로 설명된 작업이 주어진 1인칭 비디오에서 에이전트에 의해 올바르게 실행되었는지 여부를 확인하는 것입니다.

Tasks. EgoTV의 각 작업은 부분적으로 정렬된 여러 하위 작업 또는 단계로 구성됩니다. 하위 작업은 6가지 actions 중 하나(heat, clean, slice, cool, place, pick)를 통한 단일 객체 상호 작용에 해당하며 상호 작용의 대상 객체로 매개변수화됩니다. AI2-THOR에서 객체의 "actionable" 속성을 사용하여 하위 작업이 EgoTV의 적절한 대상 객체로 매개변수화되도록 합니다. 예를 들어 heat(book)은 발생하지 않습니다.

실제 작업은 물리적 제약(예: slicing 전 칼 집기) 또는 작업 의미(예: 튀기기 전 야채 slicing)으로 인해 순서 제약 조건이 있는 하위 작업으로 구성됩니다. 우리는 EgoTV 작업이 부분적으로 정렬되도록 허용합니다. 일부 단계는 엄격한 순서를 따릅니다(예: pick 하위 작업은 place 하위 작업보다 먼저 발생). 반면에 다른 단계는 순서에 독립적입니다.

하위 작업 간의 순서 제약 조건은 and, then, before/after와 같은 지정자를 사용하여 작업 설명에서 캡처됩니다. 단순화를 위해 실제 작업 설명과 관계없이 ⟨하위 작업⟩ ⟨순서 지정자⟩ 표기법을 사용하여 작업을 지칭합니다. 그런 다음 이러한 작업은 상호 작용 (객체)를 지정하여 인스턴스화할 수 있습니다. EgoTV의 예제 작업 인스턴스: heat then clean(apple)이 그림 1에 NL 설명과 함께 표시됩니다. "사과를 가열한 다음 싱크대에서 세척합니다". 작업은 대상 객체: apple에 대한 두 개의 정렬된 하위 작업(heat → clean)으로 구성됩니다. 우리는 ALFRED에서 이 용어를 채택했습니다.

3.2. Dataset

그림 1과 같이 EgoTV dataset은 긍정적 또는 부정적인 작업 확인 레이블이 있는 (작업 설명, 비디오) 쌍으로 구성됩니다. 6개의 하위 작업(heat, clean, slice, cool, put, pick)을 서로 다른 순서 제약 조건과 결합하여 EgoTV에 대한 82개의 작업을 만듭니다(전체 목록은 부록 8.3 참조). 작업은 130개의 대상 객체(모양, 질감 및 색상의 visual 변형 제외)와 24개의 receptacle 객체로 인스턴스화되어 총 1038개의 작업-객체 조합을 생성합니다. 이것들은 30개의 서로 다른 부엌 장면에서 수행됩니다.

우리는 또한 향후 연구를 용이하게 하기 위해 하위 작업에 대한 프레임별 분석, 객체 경계 상자 및 객체 상태 정보(예: 뜨거움, 차가움 등)를 포함하여 각 비디오에 대한 포괄적인 annotations을 제공합니다.

3.2.1 생성

Task-video 생성. 우리는 ALFRED 설정을 활용하여 dataset에 비디오를 생성합니다. ALFRED를 사용하면 Planning Domain Definition Language (PDDL)를 사용하여 EgoTV 작업을 지정한 다음 Metric-FF planner를 사용하여 이러한 작업을 달성하기 위한 plans을 생성할 수 있습니다. 우리는 AI2-THOR 시뮬레이터를 사용하여 이러한 plans을 실행하고 해당 비디오를 얻습니다. PDDL 및 planning을 사용한 인코딩 작업에 대한 자세한 내용은 부록 8.1에 있습니다.

Task-description 생성. 우리는 템플릿을 사용하여 각 작업에 대해 생성된 plans을 긍정적 및 부정적 작업 설명으로 변환합니다. 부록 8.2는 프로세스 및 예제 템플릿에 대한 세부 정보를 제공합니다.

3.2.2 평가

Metrics. 우리는 EgoTV 작업 확인 benchmark에서 model의 효능을 측정하기 위해 accuracy와 F1을 사용합니다. 작업 추적 및 확인의 어려움을 포착하기 위해 두 가지 척도를 도입합니다.

  1. 복잡성(Complexity): 작업의 하위 작업 수를 측정합니다. 이는 비디오 길이에 영향을 미치고 더 높은 action 및 객체 grounding이 필요합니다.
  2. 순서(Ordering): 작업의 순서 제약 조건 수를 측정하고 작업을 추적하고 확인하는 데 필요한 시간적 추론의 어려움을 측정합니다. 우리는 다양한 복잡성과 순서를 가진 작업에 대해 테스트하여 model 확장성을 평가합니다.

일반화(Generalization). EgoTV dataset을 사용하면 새로운 단계, 작업, visual contexts/장면 및 추상 작업 설명에 대한 일반화에 중점을 둔 4개의 테스트 분할을 통해 작업 추적 및 확인에서 일반화에 대한 체계적인 탐색이 가능합니다.

  • 새로운 작업(Novel Tasks): 본 적 없는 하위 작업의 조합. 예를 들어, 훈련 세트가 {clean(apple), cool(apple)}이면 이 테스트 분할에는 다음과 같은 작업이 포함됩니다. {clean and cool(apple), clean then cool(apple), cool then clean(apple)}.
  • 새로운 단계(Novel Steps): 하위 작업 actions과 대상 객체의 본 적 없는 조합. 예를 들어, 훈련 세트가 {clean(apple), cool(egg), clean and cool(tomato)}이면 이 테스트 분할에는 다음과 같은 작업이 포함됩니다. {clean(egg), cool(apple), clean and cool(apple)}.
  • 새로운 장면(Novel Scenes): 이 테스트 분할에는 훈련 세트와 동일한 작업이 포함됩니다. 그러나 작업은 본 적 없는 부엌 장면에서 실행됩니다.
  • 추상화(Abstraction): 작업의 low-level 세부 정보가 부족한 추상 작업 설명. 예를 들어, heat and clean(apple) 작업의 경우 훈련 세트의 전체 작업 설명은 "사과를 전자 레인지에서 가열하고 싱크대에서 세척합니다"일 수 있는 반면, 이 분할의 추상 작업 설명은 "사과를 가열하고 세척합니다"일 수 있습니다.

모든 테스트 분할과 훈련 세트는 서로 분리되어 있습니다. Novel Steps 분할은 일반화 가능한 객체 속성(affordances)과 도구 사용법을 이해하는 EgoTV model의 능력을 테스트합니다. 예를 들어, model이 사과에 대한 slice action을 학습하면 이 분할은 model이 오렌지에 적용할 수 있는지 여부를 테스트합니다. 반면에 Novel Tasks 분할은 알려진 하위 작업의 보이지 않는 구성과 순서에 대한 model의 시간적 및 인과적 추론 기능의 일반화를 테스트합니다. Ego4D 및 EPIC-KITCHENS와 같은 기존 실제 dataset은 작업 추론에 영향을 미치는 다양하면서도 독립적인 요소에 대한 이러한 체계적인 제어 및 정확한 진단을 제공하지 못합니다.

3.2.3 통계

EgoTV dataset은 7,673개의 샘플(훈련 세트: 5,363개, 테스트 세트: 2,310개)로 구성됩니다. 분할별 구분은 Novel Tasks: 540, Novel Steps: 350, Novel Scenes: 1082, Abstraction: 338입니다. EgoTV dataset에 있는 1인칭 비디오의 총 길이는 168시간이며 평균 비디오 길이는 84초입니다. 다양성을 보장하기 위해 EgoTV의 각 작업은 ≈10개의 서로 다른 작업 설명 템플릿(긍정 및 부정 시나리오 포함)과 연결됩니다. 우리는 또한 추상화 분할을 위한 추가 템플릿 세트를 유지합니다. 작업 설명은 평균 9개의 단어로 구성되며 총 어휘 크기는 72개입니다. 평균적으로 EgoTV dataset의 작업당 4.6개의 하위 작업이 있으며 각 하위 작업은 약 14프레임에 걸쳐 있습니다. 또한 작업을 확인하는 2.4가지 방법이 있습니다. 이를 위해서는 가상 에이전트가 성공적인 작업 확인을 위해 작업 설명에서 하위 작업 간의 가능한 모든 시간적 순서를 이해해야 합니다. 실제 dataset은 주로 이러한 모호성 없이 actions, 객체 및 상태 변화를 인식하는 데 중점을 둡니다. 그림 2는 훈련 및 테스트 분할의 비교를 보여줍니다(자세한 분석은 부록 8.3).

 

 

EgoTV (Egocentric Task Verification): 1인칭 에이전트의 작업 추적 및 검증을 위한 벤치마크 및 데이터셋

주요 특징:

  1. 다단계 작업(Multi-step tasks):
    • 일상 작업의 인과적, 시간적 특성 반영.
    • 순서 제약 조건 포함.
  2. 다중 모드(Multimodality):
    • 1인칭 비디오 + Language
    • 언어 기반 인간-에이전트 상호 작용 지원.
  3. 일반화(Generalization) 연구:
    • 작업 검증(verification)의 일반화에 대한 체계적 연구 지원 (표 1 참조).

데이터셋 구성 (합성 데이터):

  • AI2-THOR 시뮬레이터 사용:
    • 사실적인(photo-realistic) 환경.
    • 일반화 가능한 에이전트 연구를 위한 테스트베드.
    • 작업 추론에 영향을 미치는 요소 제어 가능.
    • 실제 작업 검증 모델 성능에 대한 프록시 역할.
  • (작업 설명, 비디오) 쌍:
    • 긍정/부정 작업 검증 레이블 포함.
    • 6개 하위 작업(heat, clean, slice, cool, put, pick) + 다양한 순서 제약 조건 → 82개 작업.
    • 130개 대상 객체 + 24개 receptacle 객체 → 1038개 작업-객체 조합.
    • 30개 부엌 장면.
    • 프레임별 하위 작업 분석, 객체 경계 상자, 객체 상태 정보 등 상세 주석(annotation) 제공.

실제 데이터셋:

  • CrossTask dataset 활용.
  • 한계: 1인칭 시점 X, 일반화 평가 능력 제한.
  • 실제 환경에서의 작업 검증 모델 테스트 가능.

3.1 정의:

  • 벤치마크 목표: 자연어 작업 설명이 1인칭 비디오에서 올바르게 실행되었는지 확인.
  • 작업(Tasks):
    • 부분 순서(partially-ordered)를 갖는 여러 하위 작업(sub-tasks)으로 구성.
    • 하위 작업: 6개 actions 중 하나를 통한 단일 객체 상호작용 (heat, clean, slice, cool, place, pick).
    • 대상 객체로 매개변수화 (e.g., heat(book)은 불가능).
    • 순서 제약: 물리적 제약 또는 작업 의미(task semantics) 반영 (e.g., slicing 전 칼 집기).
    • and, then, before/after 등으로 순서 제약 표현.
    • ⟨하위 작업⟩ ⟨순서 지정자⟩ 표기법 사용 (e.g., heat then clean(apple)).

3.2 데이터셋:

  • 3.2.1 생성:
    • Task-video 생성:
      • ALFRED 활용.
      • PDDL로 EgoTV 작업 명세.
      • Metric-FF planner로 계획 생성.
      • AI2-THOR 시뮬레이터로 실행 및 비디오 획득.
    • Task-description 생성: 템플릿 기반으로 긍정/부정 작업 설명 생성.
  • 3.2.2 평가:
    • 지표(Metrics): accuracy, F1.
    • 추가 지표:
      • 복잡성(Complexity): 하위 작업 수 (비디오 길이, action/객체 grounding 난이도 반영).
      • 순서(Ordering): 순서 제약 조건 수 (시간적 추론 난이도 반영).
    • 일반화(Generalization) 평가 (4가지 테스트 분할):
      • 새로운 작업(Novel Tasks): 본 적 없는 하위 작업 조합.
      • 새로운 단계(Novel Steps): 본 적 없는 (하위 작업 action, 대상 객체) 조합.
      • 새로운 장면(Novel Scenes): 본 적 없는 부엌 장면.
      • 추상화(Abstraction): low-level 세부 정보가 없는 추상적 작업 설명.
  • 3.2.3 통계:
    • 7,673개 샘플 (훈련: 5,363, 테스트: 2,310).
    • 테스트 분할: Novel Tasks (540), Novel Steps (350), Novel Scenes (1082), Abstraction (338).
    • 총 168시간 비디오, 평균 84초.
    • 작업 당 평균 ≈10개 작업 설명 템플릿.
    • 평균 9개 단어, 총 어휘 크기 72.
    • 작업 당 평균 4.6개 하위 작업, 하위 작업 당 평균 14 프레임.
    • 작업 확인 방법 평균 2.4개.

요약:

EgoTV는 1인칭 시점에서의 작업 추적 및 검증을 위한 새로운 벤치마크 및 데이터셋입니다. 다단계 작업, 다중 모드, 일반화 연구에 중점을 두고, AI2-THOR 시뮬레이터 기반으로 사실적인 환경과 제어된 실험 환경을 제공합니다. 이를 통해 1인칭 에이전트 연구에 새로운 방향을 제시하고, 기존 모델의 한계 극복 및 성능 향상에 기여할 것으로 기대됩니다.

 

 

 

4. CrossTask Verification (CTV) Dataset

 

EgoTV dataset에서 영감을 받아, 우리는 실제 비디오에서 작업 검증 model을 평가하기 위해 CrossTask dataset의 비디오를 사용한 CrossTask Verification (CTV) dataset을 소개합니다. CTV에서는 EgoTV와 달리 작업 검증 model의 일반화 능력에 대한 체계적인 연구보다 실제 성능 평가를 우선시합니다. 따라서 CTV는 EgoTV dataset을 보완합니다. CTV와 EgoTV는 함께 작업 검증에 대한 향후 연구를 위한 견고한 테스트 베드를 제공합니다.

4.1. Dataset 생성

EgoTV와 마찬가지로 CTV는 작업 검증을 위해 짝을 이룬 작업 설명과 비디오로 구성됩니다. CrossTask에는 18개의 작업 클래스가 있으며 각 클래스에는 대략 150개의 비디오가 있어 ≈ 2.7K 샘플을 생성합니다. CrossTask의 action step annotations을 연결하여 작업 설명을 생성합니다. model의 목표는 비디오의 action steps(하위 작업)과 그 sequence가 설명과 일치하는지 여부를 확인하는 것입니다. dataset 구축에 대한 자세한 내용은 부록 9를 참조하십시오.

4.2. 평가

Metrics. EgoTV에 따라 accuracy와 F1을 사용하여 CTV dataset에 대한 model의 효능을 측정합니다.

일반화(Generalization). 우리는 이전에 볼 수 없었던 구성이지만, 본 적이 있는 action steps이 있는 비디오를 사용하여 테스트 세트를 구성합니다. 새로운 구성을 보장하기 위해 최대 3개의 action steps이 있는 비디오로 훈련하고, 그림 3과 같이 4개가 있는 비디오로 테스트합니다. 이것은 EgoTV의 Novel Task 분할을 반영하지만, CTV 테스트 세트에는 dataset 생성 중 제한된 제어의 결과로 보이지 않는 visual contexts(비디오)도 포함됩니다.

 

 

 

5. Neuro-Symbolic Grounding (NSG)

EgoTV는 비디오에서 작업을 확인하기 위해 NL 작업 설명에서 추출된 actions, 상태 변경 등과 같은 작업 관련 엔터티의 visual grounding을 필요로 합니다. 작업 및 actions의 새로운 구성으로 일반화되는 grounding을 가능하게 하기 위해, 우리는 Neuro-Symbolic Grounding (NSG) 접근 방식을 제안합니다. NSG는 세 가지 모듈로 구성됩니다.

a) semantic parser는 NL 작업 설명에서 작업 관련 상태를 symbolic graphs로 변환합니다.

b) query encoders는 symbolic graph의 노드가 비디오 세그먼트에 ground 될 확률을 생성합니다.

c) video aligner는 query encoders를 사용하여 이러한 symbolic graphs를 비디오와 정렬합니다.

따라서 NSG는 NL 작업 설명과 해당 비디오 간의 중간 symbolic representations을 사용하여 구성적 일반화를 달성합니다.

5.1. Symbolic Operations을 위한 쿼리

작업을 인코딩하기 위해 NSG는 쿼리라고 하는 symbolic operators를 통해 구조화된 방식으로 작업 관련 visual 및 관계 정보를 캡처합니다. 예를 들어, "heat an apple" 작업 설명은 StateQuery(apple, hot) 쿼리로 기호적으로 캡처될 수 있습니다. 유사하게, "place steak on grill" 작업 설명은 RelationQuery(steak, grill, on)으로 캡처될 수 있으며, 이는 객체 "steak"와 "grill" 사이의 관계(on)를 나타냅니다. 쿼리는 유형과 인수로 특징지어지며 텍스트 형식으로 저장됩니다. 표 2는 다양한 쿼리 유형과 해당 인수를 보여줍니다. 서로 다른 쿼리 유형은 속성, 관계 등과 같은 서로 다른 측면을 캡처하여 일상 작업에 대한 풍부한 symbolic representation을 가능하게 합니다.

5.2. Task Descriptions을 위한 Semantic Parser

symbolic operators, 즉 쿼리를 통해 semantic parser는 작업의 부분 정렬된 단계를 symbolic graph를 사용하여 나타낼 수 있습니다. 구체적으로, parser는 NL 작업 설명을 그래프 G(V, E)로 변환합니다. 여기서 정점 ni ∈ V는 쿼리를 나타내고 가장자리 eij : ni → nj ∈ E는 ni가 nj보다 선행해야 함을 나타내는 순서 제약 조건입니다(그림 4a). 우리는 작업의 언어 설명을 그래프로 구문 분석하는 두 가지 다른 방법, 즉 (i) 언어 모델 미세 조정(finetuning)과 (ii) 언어 모델의 few-shot prompting을 실험합니다. 자세한 내용은 부록 10.2를 참조하십시오. 우리는 그래프 G로 위상 정렬(topological sort)을 수행하고 정렬과 일치하는 모든 가능한 쿼리 sequence를 생성합니다. 예를 들어, 그림 4(a)의 그래프에 대한 위상 정렬은 (n0, n1, n2, n3), (n0, n2, n1, n3)의 두 가지 정렬된 sequence를 생성합니다. 이것은 작업을 완료하기 위한 모든 물리적으로 가능한 방법을 포함하지 않지만, 일부 불가능한 sequence를 포함하여 작업 관련 쿼리의 가능한 모든 sequence의 상위 집합을 포함합니다. 그러나 이 상위 집합은 집합의 임의 sequence가 비디오에서 발생하는 것으로 확인되면 작업이 완료된 것으로 확인될 수 있기 때문에 유용합니다.

특히, 모든 EgoTV 작업은 시간적 명확화를 통해 비순환 그래프로 매핑됩니다. 이것은 "pick two apples"와 같이 반복된 actions이 있는 작업(그래프로 표현하면 pick(apple) → pick(apple))을 지원할 수 있지만, 원하는 상태에 도달할 때까지 (재귀적으로) action sequence를 반복해야 하는 작업은 순환 그래프가 될 수 있습니다. 예를 들어, 임의 개수의 접시를 쌓거나 재료를 검색하는 것이 있습니다. 현재 EgoTV에는 없지만 이러한 작업으로 확장하는 것은 가치 있는 미래 방향이 될 것입니다.

5.3. Grounding을 위한 Query Encoders

Query Encoders는 입력 비디오에서 쿼리가 충족되는지 여부를 평가하는 neural network 모듈입니다. 구체적으로, 유형 τ(예: StateQuery, RelationQuery 등)의 쿼리 n에 대한 쿼리 인코더 f<sub>θτ</sub>는 n의 객체 및 관계에 해당하는 NL 인수(a)와 비디오(v)를 받아 비디오에서 원하는 쿼리가 참일 확률 P = f<sub>θτ</sub>(a, v)를 생성합니다. NSG 모델의 서로 다른 쿼리 유형 인코더에 해당하는 학습 가능한 매개변수는 θ = ∪<sub>τ</sub> θ<sub>τ</sub> 로 공동으로 표현됩니다.

쿼리의 텍스트 인수 a와 입력 비디오 v의 프레임은 모두 pre-trained CLIP encoder를 사용하여 인코딩됩니다. CLIP의 토큰 수준 및 프레임 수준 표현은 두 개의 LSTM을 사용하여 별도로 집계되어 각각 a 및 v에 대한 집계된 feature를 얻습니다. 이러한 feature는 융합된 다음 neural network f<sub>θτ</sub>를 통과하여 비디오에서 쿼리가 참일 확률 P를 얻습니다(그림 4a 참조).

5.4. Task Verification을 위한 Video Aligner

NSG의 이 모듈은 (semantic parser에 의해 생성된) 작업의 그래프 표현 G를 비디오와 정렬해야 합니다. 이를 위해 먼저 비디오를 분할한 다음, a) 비디오 세그먼트에서 쿼리를 감지하는 쿼리 인코더와 b) 비디오 세그먼트와 G의 위상 정렬에서 얻은 쿼리 sequence 간의 정렬을 공동으로 학습합니다. 이러한 공동 학습은 비디오에서 쿼리의 시간적 위치를 사전에 알 수 없기 때문에 동시 감지 및 정렬이 필요하기 때문에 필요합니다. 비디오가 G에 인코딩된 작업과 긍정적으로 일치하는 경우, 성공적인 작업 확인을 위해 G의 쿼리 sequence 중 적어도 하나가 비디오 세그먼트와 시간적으로 완벽하게 정렬되어야 합니다. 반대로, 부정적인 일치의 경우 G의 쿼리 sequence가 비디오 세그먼트와 완전히 정렬되지 않습니다. 앞으로 ⟨⟩와 ()는 각각 순서쌍(ordered pairs)과 순서열(sequences)을 나타내는 데 사용합니다.

비디오 분할(Video Segmentation): 비디오는 임의적이지만 고정된 크기 k의 이동 윈도우를 사용하여 겹치지 않는 세그먼트로 분할됩니다.

공동 최적화(Joint Optimization): 최적화의 목표는 쿼리와 비디오 세그먼트 간의 정렬 Z와 쿼리 인코더 f<sub>θ</sub>를 공동으로 학습하는 것입니다. a) 각 st가 k개의 이미지 프레임에 걸쳐 있는 S 세그먼트(st)<sup>S-1</sup><sub>t=0</sub>의 시간적 sequence와 b) G의 위상 정렬에서 가져온 N 쿼리(nj)<sup>N-1</sup><sub>j=0</sub>의 sequence가 주어지면, 정렬 Z는 Z ∈ {0, 1}<sup>N×S</sup> 행렬로 정의되며, 여기서 Zjt = 1은 j번째 쿼리 nj가 비디오 세그먼트 st에 정렬됨을 의미합니다. N = 2이고 S = 3인 예제 정렬은 행렬 Z = [1 0 0; 0 0 1]로 주어지며, 여기서 행은 정렬된 쿼리(n0, n1)이고 열은 시간적 세그먼트(s0, s1, s2)이며 ⟨n0, s0⟩, ⟨n1, s2⟩는 정렬된 쌍입니다. 분할이 쿼리 정렬에 충분한 세그먼트를 보장한다고 가정합니다. S ≥ N. Z 및 f<sub>θ</sub>를 사용하여 작업 확인 확률 p<sub>θ</sub>는 다음과 같이 정의될 수 있습니다.

  • 식 (1): p<sub>θ</sub> = max<sub>Z</sub> Π<sup>N-1</sup><sub>j=0</sub> Π<sup>S-1</sup><sub>t=0</sub> σ(f<sub>θ</sub>(aj, st))<sup>Zjt</sup>
    • 여기서 σ는 시그모이드 함수이고, f<sub>θ</sub>(aj, st)는 인수 aj(§ 5.3)를 사용하여 쿼리 nj로 세그먼트 st를 쿼리할 확률을 나타내며, max 연산자는 N 쿼리와 S 세그먼트 간의 최상의 정렬 Z에 대한 것입니다.

우리는 ground-truth 작업 확인 레이블 y를 사용하여 다음 손실을 최소화하여 Z와 f<sub>θ</sub>를 계산합니다.

  • 식 (2): L(θ) = Σ<sup>|D|</sup><sub>i=1</sub> LBCE(y<sub>i</sub>, p<sub>θ</sub><sup>i</sup>)
    • 여기서 |D|는 EgoTV dataset 크기이고 LBCE(·)는 |D| 입력, 출력 쌍에 대해 계산된 이진 교차 엔트로피 손실입니다.

식 2의 minimax 특성을 감안할 때, 우리는 2단계 반복 최적화 프로세스를 사용합니다.

(i) 고정된 쿼리 인코더 매개변수 θ로 쿼리와 세그먼트 간의 최상의 정렬 Z를 찾습니다(고정된 f<sub>θ</sub>로 식 1 최적화).

(ii) Z가 주어지면 식 2를 사용하여 θ를 최적화합니다.

동적 프로그래밍(DP) 기반 정렬: θ가 주어진 상태에서 식 1에서 최상의 Z를 찾는 것은 특정 제약 조건을 존중하면서 N 쿼리와 S 세그먼트의 조합을 반복해야 합니다. 그림 4b에 시각화된 제약 조건은 a) 두 쿼리가 동일한 세그먼트에 정렬되지 않도록 하고(식 3a), b) S에서 모든 쿼리가 고려되도록 하고(식 3b), c) 쿼리 sequence에서 쿼리 간의 시간적 순서가 존중되도록 합니다(식 3c). 구체적으로, 쿼리 nu가 쿼리 nv보다 선행하고(nu → nv) 쿼리 nv가 세그먼트 st¯와 쌍을 이루면(즉, Zvt¯ = 1), 쿼리 nu는 st¯ 이후에 있는 세그먼트와 쌍을 이룰 수 없습니다(즉, Zut ≠ 1 ∀ t ≥ t¯). θ가 주어진 Z에 대한 결과 최적화 문제는 다음과 같습니다.

  • 식 (3a): Σ<sup>N-1</sup><sub>j=0</sub> Zjt ≤ 1, ∀ t ∈ {0, ..., S-1}
  • 식 (3b): Σ<sup>S-1</sup><sub>t=0</sub> Zjt = 1, ∀ j ∈ {0, ..., N-1}
  • 식 (3c): Zut = 1, Zvt¯ = 1, nu → nv ⇒ t < t¯, ∀ u, v ∈ {0, ..., N-1}, ∀ t, t¯ ∈ {0, ..., S-1}

직관적으로 식 3의 해는 최상의 정렬 점수를 제공합니다(참고, 식 1과의 중복). 식 3을 풀기 위한 N 쿼리와 S 세그먼트에 대한 반복은 중복되고 최적의 하위 구조를 기반으로 합니다. 예를 들어, 쿼리 (nj)<sup>N-1</sup><sub>j=0</sub>와 세그먼트 (st)<sup>S-1</sup><sub>t=0</sub>를 최적으로 정렬하려면,

a) ⟨n0, s0⟩을 쌍으로 연결하고 나머지 쿼리와 세그먼트 (nj)<sup>N-1</sup><sub>j=1</sub>, (st)<sup>S-1</sup><sub>t=1</sub>을 최적으로 정렬하거나,

(2) s0을 건너뛰고 여전히 모든 쿼리를 나머지 세그먼트 (nj)<sup>N-1</sup><sub>j=0</sub>, (st)<sup>S-1</sup><sub>t=1</sub>과 최적으로 정렬합니다(그림 4b(iv) 참조).

이 재귀적 하위 구조는 식 3에 대한 DP 해로 이어집니다.

F<sup>*</sup>((nj)<sup>N-1</sup><sub>¯j</sub>, (st)<sup>S-1</sup><sub>t¯</sub>)를 식 3에서 쿼리 (nj)<sup>N-1</sup><sub>¯j</sub>와 세그먼트 (st)<sup>S-1</sup><sub>t¯</sub>에 대한 최상의 정렬 점수라고 합시다. 앞서 언급한 추론에 기초하여, F<sup>*</sup>((nj)<sup>N-1</sup><sub>¯j</sub>, (st)<sup>S-1</sup><sub>t¯</sub>)는 다음과 같이 재귀적으로 작성될 수 있습니다.

  • 식 (4): F<sup>*</sup>((nj)<sup>N-1</sup><sub>¯j</sub>, (st)<sup>S-1</sup><sub>t¯</sub>) = max(F<sup>*</sup>((nj)<sup>N-1</sup><sub>¯j+1</sub>, (st)<sup>S-1</sup><sub>t¯+1</sub>) + f<sub>θ</sub>(a<sub>¯j</sub>, s<sub>t¯</sub>), F<sup>*</sup>((nj)<sup>N-1</sup><sub>¯j</sub>, (st)<sup>S-1</sup><sub>t¯+1</sub>))

DP에 대한 기본 사례는 다음과 같습니다. (i) N = S이면 Z = I, (ii) j = N - 1이면 Zjt = 1 ∀ t. 기본 사례와 함께 DP 하위 문제는 식 3a, 3b, 3c의 제약 조건을 충족한다는 점에 유의할 가치가 있습니다. 비디오가 쿼리 sequence의 상위 집합(G의 위상 정렬에서)에 있는 sequence 중 하나와 일치할 수 있기 때문에, 우리는 각 sequence에 대해 이 F<sup>*</sup>를 계산하는 프로세스를 반복하고 최대값을 선택합니다.

 

Query Encoder 매개변수 θ 최적화: DP를 사용하여 최상의 정렬 Z를 얻은 후, 식 1과 그 다음 식 2에서 F<sup>*</sup>((nj)<sup>N-1</sup><sub>j=0</sub>, (st)<sup>S-1</sup><sub>t=0</sub>)의 해당 값을 대입합니다. 식 2에서는 훈련 예제의 단일 미니 배치를 사용하고 쿼리 인코더 매개변수 θ에 대해 Adam optimizer의 단일 경사 업데이트 단계를 수행합니다.