TL;DR & Key Takeaways
- ADAPT는 LLM 에이전트가 복잡한 과업 수행 중 실패에 직면했을 때, 그 시점에서 필요한 만큼만 과업을 재귀적으로 분해하고 계획을 수정하는 동적 프레임워크입니다.
- 고정된 계획을 따르거나(Plan-and-Execute) 전체 과업을 반복 시도하는(ReAct, Reflexion) 기존 방식과 달리, 플래너-실행기 모듈을 분리하고 ‘실패 기반 분해(as-needed decomposition)’를 도입했습니다.
- ALFWorld, WebShop, TextCraft 세 가지 각기 다른 환경에서 기존 SOTA 모델 대비 성공률을 각각 최대 28.3%p, 27%p, 33%p까지 크게 향상했습니다.
- 실행기(Executor) LLM의 성능(GPT-4, LLaMA 등)이나 과업의 고유한 복잡도(예: TextCraft의 레시피 깊이)에 맞춰 분해 수준을 자동으로 조절하는 적응성을 실험으로 증명했습니다.
1. 논문 선정 이유
현재 SEMO 서비스는 WBS(Work Breakdown Structure)를 2단계 깊이(depth)까지 분해하고, 추가적인 세분화는 사용자의 직접적인 판단과 요청에 의존하고 있습니다. 실행 또한 사람이 직접 수행하고 그 결과를 기록하는 방식입니다. 이러한 구조는 사용자가 과업의 복잡성을 사전에 정확히 예측하기 어려울 경우, 너무 추상적이거나 반대로 불필요하게 세분화된 WBS를 생성할 위험이 있습니다.
특히 실행 단계에서 작업자가 실패를 경험하거나 과업이 예상보다 복잡하다고 판단했을 때, WBS를 효율적으로 재구성하는 동적인 메커니즘이 필요합니다.
이 논문에서 제안하는 ADAPT (As-Needed Decomposition and Planning for complex Tasks)는 사전에 고정된 계획을 세우는 대신, 실행(Execution)이 실패했을 때만 과업을 재귀적으로 분해(Decomposition)하는 접근 방식을 취합니다. 이는 과업의 복잡성과 실행자의 능력에 맞춰 분해 수준을 동적으로 조절합니다.
SEMO는 현재 과업의 실행 주체가 LLM이 아닌 사람이지만, ADAPT의 ‘실패 신호 기반의 동적 분해’ 는 적용할만한 부분이 있습니다. 작업자의 실패 보고 또는 중간, 최종 결과물에 대한 요구조건 검증 실패를 ADAPT의 '실행기 실패 신호'로 간주하고, 이를 트리거로 LLM(플래너 역할)이 해당 과업의 WBS를 자동으로 더 세분화하도록 제안하는 시스템을 설계할 수 있습니다. ADAPT는 고정된 깊이(fixed depth)의 WBS가 아닌, 실제 작업 난이도에 따라 유연하게 구조를 심화시키는 적응형 WBS 관리 방법론에 중요한 참고 모델을 제공하기에 이 논문을 선정했습니다.
2. 기존 연구의 한계 (Related Work)
| Iterative Executor (ReAct) | ‘생각→행동’ 사이클을 반복하며 환경과 상호작용. | 전체 계획을 암묵적으로 유지해야 해 과업이 길어지면 길을 잃기 쉽고, 실패 시 비효율적인 재탐색을 유발함. |
| Plan-and-Execute | 사전에 LLM으로 전체 계획을 생성하고 각 하위 과업을 실행기에 위임. | 계획이 정적(non-adaptive)이라 실행 불가능한 하위 과업이 하나라도 있으면 전체가 실패함. |
| Adaptive (Reflexion) | 전체 과업 실행 후 실패하면, 실패 경험을 텍스트 피드백으로 저장해 다음 시도에 활용. | 단일 하위 과업 실패에도 전체 실행을 불필요하게 반복해야 함. |
| Hierarchical Planning (전통 AI) | 사람이 직접 정의한 계획 라이브러리(HTN¹)를 이용해 과업을 계층적으로 분해. | LLM의 방대한 상식과 달리, 특정 도메인에 대한 사전 지식이 반드시 필요함. |
ADAPT는 이러한 한계를 극복하기 위해 실행기의 성공 여부에 따라 동적으로 계획을 수정하고 분해 깊이를 조절하는 새로운 구조를 도입했습니다.
¹ HTN (Hierarchical Task Networks): 고수준의 추상적 과업을 점차 구체적인 하위 행동들로 분해해 나가는 고전적인 AI 계획 기법.
3. ADAPT 방법론
ADAPT는 Controller, Executor, Planner 세 가지 핵심 모듈로 구성된 재귀적 LLM 프로그램입니다. 핵심 아이디어는 “일단 실행해보고, 실패하면 그때 계획을 세운다”는 것입니다.

| 모듈 | 역할 | 핵심 특징 |
|---|---|---|
| Executor (LLM) | 주어진 과업(또는 하위 과업)을 환경과 상호작용하며 직접 수행. | ∙ 자체 성공 판별: 외부 보상 없이 스스로 "task completed" 또는 "task failed"를 출력해 성공 여부를 판단함 (Self-generated Success Heuristic). ∙ 원자적 스킬(Atomic Skill): take object, clean object처럼 환경에 특화된 기본 행동 예시를 프롬프트에 제공받아 활용. |
| Planner (LLM) | 실행기가 실패한 복잡한 과업을 더 작은 하위 과업들로 분해. | ∙ 간결한 계획: 3~5개 정도의 짧고 추상적인 계획을 생성해, 잘못된 가정으로 인한 연쇄 오류를 방지함. ∙ 논리 연산자: 하위 과업들을 AND(순차 실행) 또는 OR(조건부 실행)로 연결하는 논리 구조를 함께 생성. |
| Controller | 전체 프로세스를 관장하는 재귀 알고리즘. | ∙ 실행 우선: 먼저 Executor에게 과업을 맡김. ∙ 실패 시 분해: Executor가 실패하면 Planner를 호출. ∙ 재귀 호출: 분해된 각 하위 과업에 대해 ADAPT를 재귀적으로 호출하여 성공을 보장 (최대 깊이 d_max까지). |
이러한 구조 덕분에 ADAPT는 간단한 과업은 Executor가 바로 해결해 리소스를 아끼고, 복잡한 과업은 실패 지점에서만 Planner가 개입해 꼭 필요한 만큼만 분해하므로 매우 효율적입니다.

4. 실험 설계
ADAPT의 성능을 검증하기 위해 세 가지 다양한 텍스트 기반 환경에서 실험을 진행했으며, 평가는 과업 성공률(Success Rate)로 측정했습니다.
데이터셋
- ALFWorld: 가상 가정 환경에서 "뜨거운 사과를 냉장고에 넣어라" 같은 고수준 지시를 수행하는 시뮬레이션.
- WebShop: 118만 개 실제 상품이 있는 웹 쇼핑 환경에서 "300달러 미만의 회색 소파"처럼 복합적인 조건에 맞는 상품을 구매하는 과업.
- TextCraft (신규 데이터셋): Minecraft 아이템 제작법을 텍스트로만 수행하는 환경. "벌통(beehive) 제작"을 위해 "판자(plank)"를 먼저 만들어야 하는 등, 자연스러운 계층적·재귀적 구조를 가져 분해 능력을 평가하기에 적합함.
비교 대상 (Baselines)
- ReAct: 분해 없이 생각-행동을 반복하는 순수 실행기.
- Plan-and-Execute: 처음에 한 번만 계획하고 그대로 실행하는 비적응적 방식.
- Try Again with ReAct: 동일 과업을 여러 번 재시도하는 단순 베이스라인.
- Reflexion: 실패 후 피드백을 생성해 다음 시도에 활용하는 적응적 방식.
모든 실험에서 ADAPT와 베이스라인들은 동일한 GPT-3.5 기반 Executor를 공유하여 공정한 비교를 보장했습니다.

5. 주요 결과 및 분석
종합 성능 (Main Results)
세 가지 데이터셋 모두에서 ADAPT가 모든 베이스라인을 압도하며 가장 높은 성공률을 달성했습니다.

특히 복합 행동이 필요한 ALFWorld의 'pick2' 과업에서 기존 모델들이 12% 미만의 성공률을 보인 반면, ADAPT는 52.9%를 기록하며 4배 이상 높은 성능을 보였습니다.
심층 분석 (Analysis and Discussion)
1. 분해 깊이(d_max)의 영향
최대 재귀 깊이를 d_max=1 (ReAct와 동일)에서 d_max=3으로 늘릴수록 모든 데이터셋에서 성공률이 꾸준히 증가했습니다. 이는 재귀적 분해가 실제로 어려운 하위 과업을 해결하는 데 효과적임을 보여줍니다.

2. LLM 성능에 대한 적응성
- 다양한 LLM 적용: GPT-3.5, GPT-4, LLaMA, Lemur 등 모든 LLM에서 ADAPT는 기존 실행기 단독 방식보다 높은 성능을 보였습니다. 가장 강력한 GPT-4에서도 최대 +37%의 향상을 기록했습니다.

- 서로 다른 LLM 조합: 강력한 모델(GPT-3.5)을 Planner로, 상대적으로 가벼운 오픈소스 모델(LLaMA-2)을 Executor로 사용해도 성능이 22.9%p 향상되었습니다. 이는 비용 효율적인 시스템 구성 가능성을 시사합니다.

3. 과업 복잡도에 대한 적응성
TextCraft에서 레시피 깊이(복잡도)가 2에서 3으로 증가하자, ADAPT가 성공을 위해 사용한 평균 분해 깊이(k_max)도 1.9에서 2.8로 함께 증가했습니다. 이는 ADAPT가 과업의 내재적 복잡도에 맞춰 동적으로 분해 수준을 조절함을 의미합니다.

4. LLM 호출 수(효율성)
ADAPT는 Reflexion, Try-Again과 비슷한 수의 LLM을 호출하면서도 훨씬 높은 성공률을 달성했습니다. 이는 성능 향상이 단순히 더 많은 리소스를 사용한 결과가 아니라, ‘as-needed decomposition’ 전략 자체의 효율성 덕분임을 증명합니다.

6. 결론
본 연구는 LLM 에이전트가 복잡한 과업을 수행할 때 실패에 직면하면 동적으로 과업을 분해하고 재귀적으로 해결하는 ‘ADAPT’ 프레임워크를 제안했습니다.
이 프레임워크의 핵심 기여는 ‘필요할 때만 계획(as-needed planning)’이라는 아이디어를 통해 기존의 정적이고 비효율적인 에이전트 패러다임을 개선한 것입니다.
성능적으로는 세 가지 다른 환경에서 기존 방법론들을 큰 차이로 능가하며 ADAPT의 효과와 범용성을 입증했으며, LLM의 종류나 과업의 복잡도에 따라 유연하게 대응하는 높은 적응성을 보여주었습니다.
다만, ADAPT는 LLM이 스스로 생성하는 성공/실패 판단에 의존하므로, LLM의 자체 평가 능력이 부정확할 경우 성능이 저하될 수 있다는 한계가 있습니다. 향후 외부 검증기(verifier) 도입 등을 통해 이 부분을 보완할 수 있을 것입니다.
7. SEMO 서비스 WBS 개선을 위한 ADAPT 기반 실험 계획
ADAPT의 ‘필요시 분해(As-Needed Decomposition)’ 및 ‘실행 실패 감지’ 메커니즘을 SEMO의 인간 중심 WBS 수행 환경에 적용하기 위한 실험 계획은 다음과 같습니다.
실험 1 ― 실패 신호 수집 및 자동 기록·평가 체계
SEMO에서는 작업자가 ‘완료’ 또는 ‘실패’ 버튼을 누르거나 결과물을 업로드하는 순간을 실행 결과 신호로 간주할 수 있습니다. 이때 시스템이 과업 ID, 담당자, 시작‧종료 시각, 산출물 링크, 선택형·자유서술 실패 사유 등 메타데이터를 자동으로 수집하여 이벤트 로그에 저장하고, ETL 파이프라인을 통해 로그 분석 저장소로 적재합니다. 축적된 데이터는 일·주 단위로 집계되어 자동 성공 판별 정밀도·재현율, 실패 신고 누락률, 실패 이후 재작업 착수까지의 평균 지연 시간을 계산하며, 이를 통해 “사용자는 실패만 표시하고 나머지 기록은 시스템이 처리한다”는 UX가 실제로 업무 부담을 줄이고 있는지, 또한 자동 판별 로직의 신뢰도가 충분한지를 정량적으로 검증합니다.
실험 2 ― 실패 트리거 기반 동적 분해·평가 체계
위와 같이 ‘실패’ 이벤트가 기록되면 ADAPT의 as-needed decomposition 원칙을 적용해 Planner가 즉시 호출됩니다. Planner는 해당 태스크를 3–5개의 구체적 하위 작업으로 재구성하고 예상 소요 시간, 필수 선행 조건, 성공 확률을 제시하며, 사용자는 드래그&드롭 방식으로 제안을 채택·수정·우선순위 조정할 수 있습니다. 시스템은 추천 리스트, 채택 여부, 편집 횟수, 편집 후 실제 수행 결과를 모두 기록하고, 이를 바탕으로 추천 채택률, 채택된 경우 리드타임 단축률, 추천을 무시한 태스크의 재실패율, 사용자 만족도(NPS·SUS)를 산출합니다. 이러한 지표는 동적 분해 기능이 WBS 품질과 프로젝트 속도를 실질적으로 향상시키는지를 확인하고, 재귀 깊이(d_max)·모델 버전·프롬프트 설계 등을 지속적으로 최적화하는 근거로 활용됩니다.
References
[1] Prasad, A., Khot, V., Yao, S., et al. “ADAPT: As-Needed Decomposition and Planning for Complex Tasks.” Findings of the North American Chapter of the Association for Computational Linguistics (NAACL): Findings, 2024, pp. 4226-4234. DOI: 10.48550/arXiv.2404.00000
PDF / arXiv: https://arxiv.org/abs/2404.00000
Project & Code: https://allenai.github.io/adaptllm