'2026/05/15 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

목록2026/05/15 (3)

AI바라기의 인공지능

Planning : 빠른 논문 리뷰 : Logically Constrained Robotics Transformers for Enhanced Perception-Action Planning

용어 설명Signal Temporal Logic (STL): 시간에 따른 연속적인 실수 값 신호의 속성을 정의하는 논리 언어. 모호한 자연어와 달리 로봇의 안전성(safety) 및 생존성(liveness) 제약 조건을 수학적으로 엄밀하게 명시하고 검증할 수 있음.PASTEL (Perception Action Signal TEmporaL Transformer): 이 논문에서 제안한 모델의 이름. 상태(state), 행동(action), STL 명세 임베딩을 입력받아 제약조건을 만족하는 미래 궤적을 autoregressive하게 예측하는 모델.PACT (Perception-Action Causal Transformer): 사전 학습된(pre-trained) autoregressive robotics tran..

논문리뷰 2026. 5. 15. 17:06

VLM : 빠른 논문 리뷰 : Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task

용어 설명VideoQA (Video Question Answering): 주어진 비디오의 내용을 분석하여 사용자의 질문에 답하는 task.MLLMs (Multimodal Large Language Models): 텍스트뿐만 아니라 시각적 데이터(이미지, 비디오 등)를 함께 처리하고 이해할 수 있는 대형 언어 모델.STAR (Spatiotemporal Reasoning Framework): 이 논문에서 제안한 핵심 프레임워크로, LLM Planner가 temporal 도구와 spatial 도구를 번갈아 호출하며 정답을 추론하도록 강제하는 알고리즘.Toolchain Shortcut: LLM Planner가 복잡한 문제를 단계별로 풀지 않고, 정답을 바로 도출하려는 general-purpose 도구를 성급하게..

논문리뷰 2026. 5. 15. 16:52

VLM : 빠른 논문 리뷰 : Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding

용어 설명LVLM (Large Video Language Model): 대용량 비디오-언어 모델. 비디오의 시각적 정보와 텍스트를 함께 처리하고 추론하는 대규모 모델.RAG (Retrieval-Augmented Generation): 검색 증강 생성. 모델의 내부 지식에만 의존하지 않고, 외부 데이터(이 논문에서는 비디오 클립)를 검색하여 답변 생성에 활용하는 기법.Entity Merging: 여러 비디오 클립에서 독립적으로 추출된 개체(entity)들 중, 의미적으로 동일한 것들을 하나의 글로벌 개체로 병합하여 그래프의 노드를 연결하는 이 논문의 핵심 전처리 과정.Structured Reasoning: 구조화된 추론. 검색된 비디오 클립들을 곧바로 답변 생성에 쓰지 않고, "이 클립에 특정 객체가 있는..

논문리뷰 2026. 5. 15. 10:41

이전 Prev 1 Next 다음

목록2026/05/15 (3)

AI바라기의 인공지능

티스토리툴바