VersaChallenge

SEMO Research

[SEMO Lab] Task Navigator:Decomposing Complex Tasks for Multimodal LLM

TL;DR & Key Takeaways기존 MLLM¹은 이미지 캡셔닝·VQA²·OCR³ 같은 단일 task에 특화되어 있을 뿐, 서로 다른 task를 동시에 결합해야 하는 실제 문제에는 자주 실패합니다.논문이 제안한 Task Navigator는 LLM을 ‘네비게이터’로 삼아 질문을 대화형으로 세분화하고, MLLM은 세분화된 하위 질문을 해결하는 협업 구조를 통해 이 문제를 극복합니다.이를 검증하기 위해 연구진은 VersaChallenge라는 고난도 벤치마크를 새로 제작했습니다. 최소 8가지 과제가 융합돼 있어 GPT‑4V조차 평균 38 % 정답률에 머물 정도로 까다롭습니다.실험 결과 Task Navigator는 공개 LLM(Vicuna)이나 상용 LLM(GPT‑4)을 조합했을 때 모두 성능을 끌어올렸는데..

Bug Detector
'VersaChallenge' 태그의 글 목록