TL;DR & Key Takeaways기존 MLLM¹은 이미지 캡셔닝·VQA²·OCR³ 같은 단일 task에 특화되어 있을 뿐, 서로 다른 task를 동시에 결합해야 하는 실제 문제에는 자주 실패합니다.논문이 제안한 Task Navigator는 LLM을 ‘네비게이터’로 삼아 질문을 대화형으로 세분화하고, MLLM은 세분화된 하위 질문을 해결하는 협업 구조를 통해 이 문제를 극복합니다.이를 검증하기 위해 연구진은 VersaChallenge라는 고난도 벤치마크를 새로 제작했습니다. 최소 8가지 과제가 융합돼 있어 GPT‑4V조차 평균 38 % 정답률에 머물 정도로 까다롭습니다.실험 결과 Task Navigator는 공개 LLM(Vicuna)이나 상용 LLM(GPT‑4)을 조합했을 때 모두 성능을 끌어올렸는데..
TL;DR & Key TakeawaysADAPT는 LLM 에이전트가 복잡한 과업 수행 중 실패에 직면했을 때, 그 시점에서 필요한 만큼만 과업을 재귀적으로 분해하고 계획을 수정하는 동적 프레임워크입니다.고정된 계획을 따르거나(Plan-and-Execute) 전체 과업을 반복 시도하는(ReAct, Reflexion) 기존 방식과 달리, 플래너-실행기 모듈을 분리하고 ‘실패 기반 분해(as-needed decomposition)’를 도입했습니다.ALFWorld, WebShop, TextCraft 세 가지 각기 다른 환경에서 기존 SOTA 모델 대비 성공률을 각각 최대 28.3%p, 27%p, 33%p까지 크게 향상했습니다.실행기(Executor) LLM의 성능(GPT-4, LLaMA 등)이나 과업의 고유한 ..
TL;DR & Key TakeawaysDPPM(Decompose → Plan in Parallel → Merge), LLM based planning이 겪던 ① heavy constraints · ② cascading errors를 해결하는 모듈 제안여행 · 실무 프로젝트처럼 예산·일정·선호가 얽힌 작업을, constraints 단위로 적절히 쪼개서 각 Agent가 병렬로 sub-plan을 만든 뒤 verification-merge 단계에서 통합·수정하는 방식여행계획 분야에서 TravelPlanner / ChinaTravel-M 등 기존 모듈보다 Final Pass Rate 최대 64 pp → 87 pp, 기존 SOTA 방법(LLM-Modulo) 보다 최대 +40 pp.SEMO WBS generate 모..
1. 서론 – TaskLAMA 기반 실험 설계 취지SEMO는 복잡한 아이디어를 WBS(Work-Breakdown Structure)로 자동 전개하는 서비스입니다. 이번 연구·개선 계획은 Google Research의 TaskLAMA 벤치마크에서 제시한 과제-그래프 평가 지표 (노드 Hungarian F1, Edge Hungarian F1, Step Proximity 등)를 적극 차용·응용하여, SEMO의 현행 ICL(단일 In-Context Learning) 기반 파이프라인을 체계적으로 고도화하는 것을 목표로 합니다. TaskLAMA는 1612개 과제·12118개 단계·11105개 의존성을 수작업으로 주석해 LLM의 복합 과제 이해 능력을 정량 검증할 수 있는 데이터셋으로, 기존 베이스라인 대비 LLM ..
TL;DR & Key TakeawaysTaskLAMA는 1 ,612개 실제 과업을 12 ,118개 단계(step)와 11 ,105개 의존관계(edge)로 기술한 대형 Gold-Standard 데이터셋과, 중복‑페널티‧그래프‑매칭 기반 새 평가 지표를 함께 제안한 첫 벤치마크입니다.단순 few‑shot ICL만으로도 검색·클러스터링 베이스라인 대비 최대 +280 % 성능 향상을 보였지만, 세밀한 step 간 dependency 예측 정확도는 80 % 이하에 머물렀습니다.Soft‑Prompt Tuning(SPT)과 콘텍스트 주입을 결합하면 생성된 step의 quality와 Recall를 동시에 크게 끌어올릴 수 있다는 점이 실험으로 확인되었습니다.SEMO WBS 모듈에는 MultSeq 샘플링 + SPT 프롬..