목록2026/05/15 (3)
AI바라기의 인공지능
용어 설명Signal Temporal Logic (STL): 시간에 따른 연속적인 실수 값 신호의 속성을 정의하는 논리 언어. 모호한 자연어와 달리 로봇의 안전성(safety) 및 생존성(liveness) 제약 조건을 수학적으로 엄밀하게 명시하고 검증할 수 있음.PASTEL (Perception Action Signal TEmporaL Transformer): 이 논문에서 제안한 모델의 이름. 상태(state), 행동(action), STL 명세 임베딩을 입력받아 제약조건을 만족하는 미래 궤적을 autoregressive하게 예측하는 모델.PACT (Perception-Action Causal Transformer): 사전 학습된(pre-trained) autoregressive robotics tran..
용어 설명VideoQA (Video Question Answering): 주어진 비디오의 내용을 분석하여 사용자의 질문에 답하는 task.MLLMs (Multimodal Large Language Models): 텍스트뿐만 아니라 시각적 데이터(이미지, 비디오 등)를 함께 처리하고 이해할 수 있는 대형 언어 모델.STAR (Spatiotemporal Reasoning Framework): 이 논문에서 제안한 핵심 프레임워크로, LLM Planner가 temporal 도구와 spatial 도구를 번갈아 호출하며 정답을 추론하도록 강제하는 알고리즘.Toolchain Shortcut: LLM Planner가 복잡한 문제를 단계별로 풀지 않고, 정답을 바로 도출하려는 general-purpose 도구를 성급하게..
용어 설명LVLM (Large Video Language Model): 대용량 비디오-언어 모델. 비디오의 시각적 정보와 텍스트를 함께 처리하고 추론하는 대규모 모델.RAG (Retrieval-Augmented Generation): 검색 증강 생성. 모델의 내부 지식에만 의존하지 않고, 외부 데이터(이 논문에서는 비디오 클립)를 검색하여 답변 생성에 활용하는 기법.Entity Merging: 여러 비디오 클립에서 독립적으로 추출된 개체(entity)들 중, 의미적으로 동일한 것들을 하나의 글로벌 개체로 병합하여 그래프의 노드를 연결하는 이 논문의 핵심 전처리 과정.Structured Reasoning: 구조화된 추론. 검색된 비디오 클립들을 곧바로 답변 생성에 쓰지 않고, "이 클립에 특정 객체가 있는..
