TL;DR & Key Takeaways
- 기존 MLLM¹은 이미지 캡셔닝·VQA²·OCR³ 같은 단일 task에 특화되어 있을 뿐, 서로 다른 task를 동시에 결합해야 하는 실제 문제에는 자주 실패합니다.
- 논문이 제안한 Task Navigator는 LLM을 ‘네비게이터’로 삼아 질문을 대화형으로 세분화하고, MLLM은 세분화된 하위 질문을 해결하는 협업 구조를 통해 이 문제를 극복합니다.
- 이를 검증하기 위해 연구진은 VersaChallenge라는 고난도 벤치마크를 새로 제작했습니다. 최소 8가지 과제가 융합돼 있어 GPT‑4V조차 평균 38 % 정답률에 머물 정도로 까다롭습니다.
- 실험 결과 Task Navigator는 공개 LLM(Vicuna)이나 상용 LLM(GPT‑4)을 조합했을 때 모두 성능을 끌어올렸는데, 특히 GPT‑4 + LLaVA‑v1.5 구성은 GPT‑4V 단일 모델의 성능에 근접했습니다.
- 이러한 LLM↔MLLM 협업 패턴은 프로젝트 관리, UI 테스트, 제조 시뮬레이션 등 산업 현장에도 일반화된 확장이 가능할 수 있습니다.
¹ MLLM (Multimodal Large Language Model): 텍스트뿐만 아니라 이미지, 음성 등 여러 종류의 데이터를 함께 이해하고 생성할 수 있는 대규모 언어 모델을 의미합니다.
² VQA (Visual Question Answering): 이미지에 관한 질문에 텍스트로 답변하는 AI 과제를 말합니다.
³ OCR (Optical Character Recognition): 이미지 속 인쇄되거나 손으로 쓴 문자를 텍스트 데이터로 변환하는 기술입니다.
1. 논문 선정 이유
1.1 멀티모달 문제의 현실적 난제
생성 AI가 텍스트 입출력만 가능했을 때는 “카테고리 분류”나 “문장 요약”처럼 언어 내부에서 해결되는 과제가 주류였습니다. 그러나 산업계의 AI 수요는 점차 시각 정보와 컨텍스트 추론이 결합된 복합 작업을 요구하고 있습니다. 예컨대 전자상거래 플랫폼은 상품 상세 이미지 속 텍스트(세탁 라벨, 칼로리 정보)를 읽으면서 동시에 사진 배경에 등장하는 소품을 인식해야 합니다. 이런 작업은 ‘이미지 캡셔닝’만 잘한다고 되는 일이 아니며, ‘OCR만, 또는 객체 검출만’ 잘해도 충분하지 않습니다.
1.2 Task Navigator가 제공하는 실용 가치
Task Navigator는 LLM과 MLLM의 역할 분리라는 아이디어를 제시합니다. 복합 Task의 본질을 ‘무엇을 물어볼지(질문 설계)’와 ‘어떻게 대답할지(시각 인식)’ 두 부분으로 명확히 나누자는 것입니다. LLM은 GPT-4 수준의 텍스트 추론 능력을 활용해 하위 질문을 순차적으로 생성하고, MLLM은 그 질문이 요구하는 시각적 증거를 추출해 답변합니다. 이 구조를 통해 “멀티모달 CoT(Chain-of-Thought)⁴가 어렵다”는 기존 한계를 우회하면서, 실제 업무에 투입 가능한 수준의 정확도와 유연성을 얻습니다. SEMO가 추진 중인 ‘기획서 PDF → WBS 자동 분해’ 기능처럼 문서·이미지·도표가 뒤섞인 입력을 다뤄야 할 스타트업에 적합한 해법이기에 본 논문을 선정했습니다.
⁴ CoT (Chain-of-Thought): AI 모델이 최종 답변에 도달하기까지의 논리적 추론 과정을 단계별로 서술하도록 유도하여 답변의 정확성과 신뢰도를 높이는 프롬프팅 기법입니다.
2. 기존 접근 방식의 한계
2.1 End-to-End MLLM의 불안정성
현재 오픈소스 생태계에는 LLaVA, Qwen-VL, Shikra, InternLM-XComposer 등 다양한 MLLM이 존재합니다. 이 모델들은 주로 대규모 이미지-텍스트 페어 데이터로 훈련된 뒤, Captioning·VQA·Grounding·OCR 태스크에서 준수한 성적을 보입니다.
문제는 ‘복합 태스크’에 직면했을 때입니다. 예를 들어 “창가 오른쪽에 있는 전화기를 들고, 창문을 닫기 전에 통화하려면 어떻게 해야 하나?”와 같은 질문이 주어지면, 모델은 (1) 객체 위치 인식, (2) 상대적 방향 추론, (3) 행동 계획 생성이라는 세 task를 순차 또는 병렬로 요구받습니다.
End-to-End⁵ 방법은 이 세 단계를 한 번의 forward pass로 해결하려다 보니 오류가 누적되고, 학습 데이터에 없는 조합을 만나면 환각(hallucination)⁶을 일으키기 쉽습니다.
2.2 Zero-shot CoT의 한계
‘Let’s think step by step’ 프롬프트로 대표되는 Zero-shot CoT⁷는 LLM의 추론 품질을 크게 향상하지만, 멀티모달 입력에 그대로 적용하기엔 문제가 있습니다. 시각 정보가 텍스트로 변환되지 않은 상태에서 LLM 내부의 언어 지식만으로 합리적 reasoning chain을 생성하기 어렵기 때문입니다. 결과적으로 CoT가 길어질수록 ‘근거 문장’이 시각적 현실과 어긋나는 hallucinated rationale이 자주 발생합니다.
⁵ End-to-End: 입력(예: 이미지와 질문)부터 최종 출력(예: 답변)까지의 전 과정을 단일 모델이 외부 tool이나 별도 단계 없이 한 번에 처리하는 방식을 의미합니다.
⁶ 환각 (Hallucination): AI 모델이 학습 데이터에 근거하지 않은 거짓 정보를 사실인 것처럼 생성하는 현상을 말합니다.
⁷ Zero-shot CoT: 별도의 예시(Few-shot)를 제공하지 않고 "단계별로 생각해 보자(Let's think step by step)"와 같은 간단한 지시어만으로 모델의 CoT 능력을 활성화하는 기법입니다.
3. Task Navigator 프레임워크
3.1 전체 파이프라인 개요
Task Navigator는 LLM과 MLLM의 협업을 대화(dialogue) 루프로 구조화합니다. 이 파이프라인⁸은 크게 ‘질문 분해(Decompose)’ → ‘시각 답변(Answer)’ → ‘정제/다음 질문(Refine)’ → ‘종료(Terminate)’ 네 단계를 반복합니다.
1. 질문 분해
사용자가 입력한 복합 질문 Q와 (필요하면) 이미지를 받으면, LLM은 메타 프롬프트(예: “이미지 속 정보를 얻어 단계별로 문제를 해결하세요”)를 읽고 Sub-Q₁을 생성합니다. Sub-Q₁은 보통 “이미지 속 텍스트가 무엇인가?” 같은 단일 모달 질문입니다.
2. 시각 답변
MLLM은 Sub-Q₁과 입력 이미지를 받아 Sub-A₁을 생성합니다. 이때 Captioning, OCR, 객체 검출 중 어떤 tool을 쓸지는 MLLM 내부의 Cross-Attention이 자동으로 선택합니다.
3. 정제/다음 질문
LLM은 (Sub-Q₁, Sub-A₁)를 맥락으로 받아 ‘정보가 충분한지’ 판단합니다. 충분하지 않다면 Sub-Q₂를 만듭니다. 이때 LLM은 이전 답변을 관찰해 “정보가 불완전하다”라고 판단하면 질문을 다시 표현하거나 더 구체화하는데, 이를 논문에서는 ‘Refinement’ 단계라 부릅니다.
4. 종료
일정 기준(예: 최대 루프 5회, 확률 기반 임계치 등)에 도달했거나 LLM이 문제 해결에 충분한 정보를 확보했다고 판단하면, LLM은 최종 답변과 논리적 근거를 작성합니다.
3.2 대화형 vs 일괄형 분해
논문은 LLM이 질문을 한꺼번에 5~6개 하위 질문으로 ‘직렬’ 생성하는 Direct Decomposition도 실험했습니다. 그러나 MLLM이 일부 Sub-Q에 대해 부정확한 답을 내면, LLM이 후처리로 오류를 수정할 기회가 없습니다. 반면 Dialogue Decomposition은 매 라운드 MLLM 출력을 검토하고, 필요 시 재질문할 수 있습니다. 실험적으로 Visual Planning 과제에서 Direct 방식은 8.7% 정답률에 머물렀지만 Dialogue는 34.0% 내외까지 올라갔습니다.
⁸ 파이프라인 (Pipeline): 데이터 처리나 모델 실행 과정을 여러 단계로 나누어 순차적으로 처리하도록 구성한 흐름을 말합니다.
4. VersaChallenge 벤치마크
4.1 데이터셋 설계 철학
연구진은 “모델이 현실적 복합 능력 조합을 다루는지”를 측정하려면 기존 태스크 조합으로는 부족하다고 판단했습니다. 그래서 ① 일반 시나리오 5종, ② 특수 시나리오 3종을 조합해 총 8가지로 구성된 벤치마크⁹를 설계했습니다.
- Common-sense Reasoning(CR): 일상 상식을 이미지와 결합해 추론(예: 비 오는 사진 → 우산 필요 여부)
- Physical Relation(PR): 두 객체의 상대 위치·크기·방향 추론
- Physical Property(PP): 재질·무게·온도 등 물리적 특성 추정
- Future Prediction(FP): 이미지 상황 후속 이벤트 예측
- Functional Reasoning(FR): 사물 용도·목적 파악
- Math Reasoning(MR): 객체 개수 세기 후 산술 연산
- Embedded Text VQA(ETV): 이미지 내부 텍스트(OCR 필수)에 대한 질의
- Visual Planning(VP): 목표 지점에 도달하기 위한 행동 계획 생성
4.2 수집·어노테이션 절차
1.이미지 소스
COCO, MIT Indoor Scene, CountBench 등 공개 데이터셋에서 30K장 후보 이미지를 추출했습니다.
2.Dense Caption 생성
LLaVA-1.5로 1차 캡션을 만든 뒤, GPT-4로 보강하여 가이드 주석을 생성했습니다.
3. 휴먼 라벨링
전문가 12명이 각 태스크별 인-콘텍스트 예시를 참고해 질문·정답·오답 옵션을 작성했습니다. 이 과정을 어노테이션(Annotation) ¹⁰이라고 합니다.
4.Circular Eval
프롬프트 순서 편향을 막기 위해 옵션 배열을 4~5회 섞어 각각 평가했고, 모든 배열에서 정답이어야만 ‘맞음’으로 처리했습니다.
4.3 난이도 분석
GPT-4V조차 평균 38% 정확도였고, 오픈소스 MLLM들은 대부분 10%대에 머물렀습니다. 특히 Math Reasoning은 다중 객체 감지 + 카운팅 + 사칙연산을 동시에 요구해 난이도를 끌어올렸습니다. Visual Planning은 “왼쪽으로 세 걸음 이동 후 창을 닫는다” 같은 매니퓰레이션 시나리오를 포함해 인간 주석자도 75% 수준의 일관성을 보였습니다.
⁹ 벤치마크 (Benchmark): AI 모델의 성능을 객관적으로 측정하고 비교하기 위해 설계된 표준화된 데이터셋 및 평가 기준을 의미합니다.
¹⁰ 어노테이션 (Annotation): AI 모델 학습에 사용될 데이터에 정답이나 설명을 나타내는 라벨(꼬리표)을 붙이는 작업을 말합니다.
5. 실험 결과 세부 해설
5.1 Baseline vs Task Navigator
실험에서는 내부 LLM은 LLaVA‑v1.5에 포함된 Vicuna‑13B를 LoRA 어댑터와 함께 사용해, 가중치를 고정한 채 질문 분해 전용으로 활용했습니다. 외부 LLM은 동일한 프로토콜로 OpenAI GPT‑4 API를 호출하여 분해 역할을 수행하도록 구성했습니다.
실험에서는 LLaVA‑v1.5에 질문 분해 모듈 Task Navigator을 결합하여 기본 평균 정확도를 7.59 → 8.82로 16% 끌어올렸습니다. 특히 상식 추론(12.79 → 18.97)·물리 속성 추론(9.33 → 20.00)·미래 예측(7.63 → 9.92) 등에서 눈에 띄는 개선을 보였습니다.
내부 Vicuna‑13B 대신 외부 GPT‑4를 질문 분해 모듈로 사용할 경우 평균이 34.01로 급등하며, GPT‑4 V(CoT) 34.41과 사실상 동급의 성능을 달성했습니다. 이때 물리 관계(PR) 30.34, 물리 속성(PP) 49.33, 수학 추론(MR) 37.89, 시각 계획(VP) 23.03 등 모든 영역에서 큰 폭의 향상이 확인되었습니다.
5.2 분해 단계 수(step)의 변화
분해 단계별 실험(Table 2)에 따르면 1단계에서 이미 59.33 %(Task Navigator 기준)의 정답률을 보이나, 5단계로 늘어나면 12.31 %로 급격히 감소해 과도한 분해는 오히려 정보 손실과 오류 축적을 야기한다는 점이 드러났습니다.
이러한 결과는 오픈소스 MLLM(LLaVA‑v1.5)과 클라우드 LLM(GPT‑4)을 하이브리드로 구성해도 고성능 멀티모달 추론을 구현할 수 있다는 점을 시사합니다. 다만 MLLM의 환각을 자동으로 검증·교정할 수 있는 출력 검증 루프가 없으면 오류가 전파될 위험이 남아, 후속 연구로 해당 모듈의 도입이 요구됩니다.
5.3 Ablation Study
본 연구의 Ablation Study¹¹는 ▲ 질문 분해(Question Decomposition) 적용 여부와 정교화(Refinement) 단계의 효과, ▲ 대화형(Dialogue‑based) vs 직접형(Direct) 분해 방식, ▲ MMBench로 본 일반화 성능 등 네 가지 축을 체계적으로 검증했습니다.
▲ 질문 분해(Question Decomposition) 적용 여부와 정교화(Refinement) 단계의 효과
먼저, LLaVA‑v1.5에 질문 분해를 생략하고 이미지 캡션만 LLM에 입력한 경우 평균 정확도는 9.46 pt에 불과했으며, 분해는 했지만 Refinement 단계를 제거하면 18.07 pt로 하락해 Refinement가 성능 향상에 필수적임을 확인했습니다. 반면 분해+Refinement를 모두 적용하면 정확도가 34.01 pt로 급등하며, 세부적으로 PP 49.33, FR 39.13 등 모든 하위 태스크에서 이득을 보였습니다.
▲ 대화형(Dialogue‑based) vs 직접형(Direct) 분해 방식
대화형 분해는 GPT‑4가 MLLM 응답을 단계마다 재질문하며 불확실성을 해소하는 방식이고, 직접 분해는 처음부터 모든 하위질문을 한 번에 생성해 답을 받고 바로 결합하는 방식입니다.
두 방식 모두 동일한 LLaVA‑v1.5 + GPT‑4 설정·CircularEval 평가를 사용했으므로, “대화형 후속 질문 유무” 성능 차이를 식별하는 실험을 진행하였습니다.
직접형 분해는 평균 8.72 pt에 머물러 대화형 방식의 34.01 pt 대비 현저히 낮았는데, 이는 대화형이 MLLM의 모호한 응답을 후속 질문으로 보완할 수 있기 때문입니다.
▲ MMBench로 본 일반화 성능
마지막으로, MMBench Reasoning 태스크에 Task Navigator를 접목하면 LLaVA‑v1.5의 논리 추론(Logical Reasoning) 정확도가 35.83 % → 48.33 %로 상승해 다른 데이터셋에서도 일반화 효과가 있음을 입증했습니다. 요약하면, 질문 분해‑정교화 파이프라인과 대화형 진행 방식이 성능 향상의 핵심 레버이며, 최적 분해 깊이는 1–2단계로 설정하는 것이 가장 효율적입니다.
¹¹Ablation Study (제거 연구): 모델이나 시스템의 특정 구성 요소(예: Refinement 단계)를 의도적으로 제거했을 때 성능이 얼마나 변화하는지 비교 분석하여, 해당 요소의 중요성과 역할을 규명하는 실험을 말합니다.
6. SEMO WBS 모듈과의 접목 방안
6.1 현재 SEMO 프로세스 요약
SEMO의 WBS¹² 생성기는 주제 입력 후 PMBOK¹³ 규칙에 따라 5 ± 2개의 Deliverable을 한 번에 제안하며, PRE→DEV→QA 흐름으로 의존성을 자동 구성합니다. 빠르다는 장점은 있지만 외부 자료를 충분히 활용하지 못하고, 단계 누락·중복 시 교정이 번거로운 한계가 있습니다.
6.2 Refinement Loop 도입 시나리오
Gemini 2.0 Flash로 1차 WBS를 만든 뒤, 동일 모델이 각 단계에 대해 “선행·후행 작업 누락 여부”와 “외부 자료 인용 적절성”을 묻는 체크리스트형 Sub‑Q를 생성·응답하여 즉시 2차 WBS로 보완하는 단일 Refinement 루프를 1회 수행합니다.
6.3 예상 효과
이 자동 검증 절차로 사용자 교정 횟수를 평균 30 % 줄이고 WBS 품질 편차를 완화할 수 있습니다. 프롬프트 확장만으로 적용 가능해 LoRA¹⁴ 같은 추가 튜닝 없이도 비용 대비 효율이 큽니다.
¹² WBS (Work Breakdown Structure): 프로젝트 목표를 달성하기 위해 필요한 모든 작업을 결과물(Deliverable) 중심으로 계층적으로 분할한 구조도를 의미합니다.
¹³ PMBOK (Project Management Body of Knowledge): 미국 PMI(Project Management Institute)가 제정한 프로젝트 관리 표준 가이드로, 범위·일정·비용·리스크 등 10개 지식 영역과 49개 프로세스를 체계화한 문헌을 말합니다.
¹⁴ LoRA (Low-Rank Adaptation): 대규모 언어 모델의 일부 가중치(파라미터)만 업데이트하여, 적은 계산 자원으로도 특정 작업에 맞게 모델을 효율적으로 미세 조정하는 기법입니다.
7. 향후 연구 과제
Multimodal CoT 미세튜닝
현재 Task Navigator는 LLM이 CoT를 거의 작성하지 않고, 질문 → 답변 루프로 우회합니다. 만약 이미지 기반 CoT 데이터셋(예: MME-Cot)을 수집·튜닝하면 Sub-Q 개수가 줄어도 설명 가능성을 확보할 수 있습니다. 이는 규제 산업—예컨대 의료 영상 판독—에서 모델 채택을 가속할 것으로 예상됩니다.
References
- Ma, F., Zhou, Y., Zhang, Y., Wu, S., Zhang, Z., et al.
“Task Navigator: Decomposing Complex Tasks for Multimodal Large Language Models.”
Proceedings of the CVPR Workshop, 2024. DOI: 10.48550/arXiv.2403.XXXX