TL;DR & Key Takeaways
- TaskLAMA는 1 ,612개 실제 과업을 12 ,118개 단계(step)와 11 ,105개 의존관계(edge)로 기술한 대형 Gold-Standard 데이터셋과, 중복‑페널티‧그래프‑매칭 기반 새 평가 지표를 함께 제안한 첫 벤치마크입니다.
- 단순 few‑shot ICL만으로도 검색·클러스터링 베이스라인 대비 최대 +280 % 성능 향상을 보였지만, 세밀한 step 간 dependency 예측 정확도는 80 % 이하에 머물렀습니다.
- Soft‑Prompt Tuning(SPT)과 콘텍스트 주입을 결합하면 생성된 step의 quality와 Recall를 동시에 크게 끌어올릴 수 있다는 점이 실험으로 확인되었습니다.
- SEMO WBS 모듈에는 MultSeq 샘플링 + SPT 프롬프트 및 Linear→Pairwise 하이브리드 에지 검증을 즉시 적용해 품질을 높이고, 사용자 교정 로그를 재학습 루프로 활용하는 접근이 가능합니다.
1. 논문 선정 이유
Structured Complex Task Decomposition(SCTD)는 “복잡한 실제 과업을 개별 실행 단계로 쪼개고, 이들 사이의 시간적·논리적 선후관계를 그래프로 나타내는 문제”입니다. 일정 자동 생성, 지식 그래프 구축, 다중‑에이전트 플래너 등 생성 AI‑기반 생산성 도구의 핵심 구성요소로 주목받고 있습니다.

논문에서는 SCTD 문제의 벤치마크인 TaskLAMA를 제시합니다.
SEMO 역시 프로젝트를 단계·의존성 관점에서 자동으로 구조화하는 WBS 솔루션을 지향하기 때문에, TaskLAMA가 제공하는 대형 Gold-Standard dataset을 기반으로 한 평가 지표는 SEMO로 생성된 WBS를 정량적으로 평가할 최적의 지표로 보았습니다.

2. 기존 평가방법의 한계
과거 벤치마크들은 “정답 단계와 겹치는 문장 수”만 보거나, Rouge 스코어¹ 에 중복‑페널티를 주지 않아 모델이 불필요한 단계를 복사·붙여 넣어도 고득점을 얻는 문제가 있었습니다. 또한 선후관계 검증은 단일 시퀀스 정확도만 체크해 그래프 구조 오류 ² 를 잡아내지 못했습니다.
¹ Rouge 스코어 : 생성된 문장과 정답 문장 사이의 n-gram(단어 조각) 겹침률을 계산해 요약 품질을 정량화하는 지표. 단, 중복 문장을 많이 넣으면 겹침률이 인위적으로 상승할 수 있다.
² 그래프 구조 오류 : 실제 작업 흐름 그래프와 비교했을 때 선행·후행 에지가 빠지거나 잘못 연결돼 방향성이 틀리거나, 불필요한 순환(cycle)이 생기는 문제를 의미한다.
3. Related Work
| Crowd‑Sourced | human annotator가 과업을 직접 단계·선후관계로 분해해 ‘골드’ 그래프를 만드는 방식 | 비용 높고, 재현율 낮음 | |
|---|---|---|---|
| Query‑Based | 검색 세션에서 함께 등장하는 쿼리 패턴을 이용해 하위 단계와 순서를 추정하는 자동화 접근 | 문맥·은닉 단계 누락 | |
| Summarization | 웹 문서들을 모은 뒤 요약 모델로 핵심 절차를 압축·정렬해 그래프를 생성하는 방법 | 파이프라인 복잡·오류 | |
| LLM Probing | 대형 언어모델에 직접 질의해 모델 내부 지식으로 단계와 의존성을 즉시 추출하는 기법 | 세밀한 의존성 이해 부족 |
TaskLAMA는 위 모든 기법과 LLM·비‑LLM 베이스라인을 동일 지표로 비교한 첫 연구입니다.
4. TaskLAMA 데이터셋 확보 과정
연구팀은 Wunderlist 과업 로그 ³ 와 Google 인기 “How to …” 검색어를 결합해 1 ,630개의 현실적 과업을 뽑았습니다. 이어 과업마다 “2박 3일 출장, 수하물 제한”처럼 구체 가정(context)을 달아 상황별 차이를 반영했습니다.

step annotation은 크라우드워커에게 세 번의 파일럿 학습-피드백 루프를 거쳐 진행됐으며, 최종 라운드 기준 과업당 약 15 분을 투입해 “가장 작은 실행 단위”로 세분화했습니다. 그다음 모든 단계쌍에 대해 “A → B?” 예/아니오 라벨을 붙여 의존관계(edge)를 표시하고, 별도 검수자가 순환을 제거해 DAG⁴ 형태를 보장했습니다.
마지막으로 자동 스크립트로 중복·규칙 위반을 필터링하고 통계 이상치를 점검한 뒤 수동 확인을 더해 품질을 확정했습니다. 결과적으로 1 ,612개 과업, 12 ,118개 단계, 11 ,105개 에지로 이루어진 대형 Gold-Standard 데이터셋이 완성되었습니다.
³ Wunderlist 과업 로그: 마이크로소프트가 인수했던 인기 투두 리스트 앱 Wunderlist에서 익명화해 수집한 실제 사용자 과업 기록. 각 레코드에는 과제 제목, 메모, 완료 상태 등의 정보가 포함돼 있어 현실적인 작업 분해 사례를 제공한다.
⁴ DAG(Directed Acyclic Graph): 방향성은 있으나 순환(cycle)은 없는 그래프 구조. 즉, A → B → C처럼 흐름이 한 방향으로만 진행되며 다시 A로 되돌아오지 않는다. 작업 선후관계를 표현할 때 루프 오류를 방지하기 위해 널리 사용된다.

Spico/TaskLAMA · Datasets at Hugging Face
clean a carburetor briggs and stratton
huggingface.co
5. 단계(step) 생성 — task divide
왜 필요한가?
복합한 Task를 실행 가능하게 만들려면, 먼저 전체 작업을 가장 작은 실행 단위(step)로 정확히 분해해야 합니다. 노드 품질이 높아야 이후 일정 계획·자원 배분·자동 실행이 모두 가능하므로, TaskLAMA는 다양한 생성 전략으로 누락 없이 — 중복 최소 단계 세트를 만드는 법부터 실험했습니다.
| ICL | 예시 몇 개만 넣고 한 번에 생성 | 구현·비용 최소 | 편향·누락 위험 |
|---|---|---|---|
| MultSeq | ICL k회 → 중복 제거·합치기 | Recall ↑ | 호출 비용 ↑ |
| S&F | 다수 샘플 → BERT/LLM 평가기가 각 시퀀스의 품질을 채점해 Top-1만 채택 | Precision ↑ | 두 단계 호출 |
| SPT | few-shot 예시 문장 대신 20-30 token 길이의 연속 임베딩(Soft Prompt)을 미세튜닝*해 프롬프트에 삽입 | 품질↑·토큰↓ | 학습 필요 |
| 조합 | MultSeq + SPT → Recall 최고 S&F + SPT → Precision 최고 | 다양성×정밀 균형 | 파이프라인 길어짐 |
*논문 Table 2 기준.
*연속 임베딩(Soft Prompt)을 미세튜닝한다는 것은 다음과 같은 과정을 뜻합니다.
- 짧은 ‘벡터 문장’ 만들기
- 기존에는 “예시 A → 답 A, 예시 B → 답 B …”처럼 긴 프롬프트 문장을 통째로 넣어야 모델이 원하는 톤과 형식으로 대답했습니다. 소프트 프롬프트 방식은 이런 예시들을 10~30 개의 숫자 벡터 토큰(연속 임베딩)으로 압축해 “암호”처럼 만듭니다.
- 모델 본체는 잠그고 벡터만 학습
- 거대한 언어모델 파라미터(수십억 개)는 변경하지 않고, 위 숫자 벡터의 값만 경사하강법으로 미세 조정합니다. 즉, “0.12→0.15, –0.07→–0.05 …”처럼 벡터 내부 숫자를 조금씩 바꿔서, 벡터가 붙어 있을 때 모델이 정답 예시와 최대한 비슷한 출력을 내도록 오차를 최소화합니다.
- 사용할 때는 ‘암호 벡터 + 질문’만
- 학습이 끝나면 긴 예시 문장을 다시 넣을 필요가 없습니다. 짧은 소프트 프롬프트 벡터를 질문 앞에 붙이기만 하면, 모델은 이미 학습된 힌트에 따라 원하는 스타일·내용으로 답을 생성합니다.
6. 선후관계(edge) 생성 — step 간의 의존성 파악
왜 필요한가?
Step 목록만 있으면 “무엇을” 할지는 알 수 있지만, “무엇부터·무엇 후에”를 모르면 실제로 작업에 병목이 생깁니다. 에지는 각 단계 사이 시간적·논리적 의존성을 그래프로 표현해 실행 순서, 병렬 가능 step 등을 명확히 합니다.
| Linear | LLM이 출력한 단계 목록을 1 → 2 → 3… 순서대로 그대로 연결해 직선형 DAG 생성 | 빠름 | 병렬·조건부 표현 X |
|---|---|---|---|
| ICL Pairwise | 각 단계 쌍마다 “A가 B보다 먼저 실행돼야 하나?”를 few-shot 프롬프트로 질문해 라벨을 얻고, 이를 모아 DAG를 구성 | 병렬 포착 | n² 회 호출 |
| ICL + CoT | 위 Pairwise 질문에 “왜 그런지” 예시(Chain-of-Thought)를 함께 제공해, 모델이 짧은 추론 과정을 작성한 뒤 라벨을 내도록 유도 | 근거 제공 | 토큰↑ |
| SPT Pairwise | Pairwise 질문 패턴 전체를 20-30 token Soft Prompt로 미세튜닝해 ‘암호 벡터’만 붙이고 (A,B) 텍스트만 넣어 0/1을 예측 | 입력↓·정밀↑ | 학습 셋 必 |
| LLM Scoring | LLM이 만든 초기 순서 기준 단계 두 개를 무작위 swap한 다수 시퀀스를 생성, 각 시퀀스의 log-prob 합을 점수로 삼아 상위권 순서들의 공통 전·후 관계만 남겨 DAG를 구성 | 라벨 無·병렬 반영 | 파라미터 튜닝 必 |
7. 현재 SEMO에 적용된 step & edge 생성 방법론
현재 SEMO에서 사용 중인 방식과 논문에서 사용된 방법론을 대응시켜 보았습니다.
SEMO의 단계(step) 생성은 PMBOK⁵ 기준 WBS 분해 규칙(5 ± 2개, MECE, Deliverable-oriented 등)을 그대로 적용해 한 번의 프롬프트 호출만으로 단일 시퀀스를 도출하는 방식입니다. MultSeq처럼 여러 샘플을 뽑아 결합하거나 S&F·SPT와 같이 추가 필터링·프롬프트 튜닝을 수행하지 않으므로, TaskLAMA 관점에서는 ICL 단일 시퀀스 베이스라인 수준에 해당합니다.
의존성(edge) 생성의 경우, “계획 → 실행”, “검증은 구현 뒤”와 같은 워크플로 규칙을 바탕으로 작업 쌍마다 선행·후행 여부를 판단해 DAG를 구성합니다. 이는 논문에서 제시한 ICL Pairwise 분류 방식—즉 ‘A가 B보다 먼저인지’를 쌍 단위로 라벨링 하는 접근과 동일한 원리이며, Linear 직렬화·LLM Scoring·Chain-of-Thought·SPT 같은 복잡한 기법은 아직 적용되지 않은 상태입니다.
⁵ PMBOK(Project Management Body of Knowledge): 미국 PMI(Project Management Institute)가 제정한 프로젝트 관리 표준 가이드로, 범위·일정·비용·리스크 등 10개 지식 영역과 49개 프로세스를 체계화한 문헌을 말함.
8. TaskLAMA 평가 지표
TaskLAMA는 “LLM이 복잡한 과업을 얼마나 잘 쪼개고, 그 단계들을 올바른 순서로 잇는지”를 객관적으로 측정하기 위해 전용 평가 지표를 설계했습니다. 아래 두 묶음의 지표는 실험 결과표(Table 2)와 모델 개선 A/B 테스트에 공통으로 쓰입니다.
노드(Node) 지표 – “무엇을 해야 하나”가 맞는지 검사
| Rouge F₁ / F₂ | 모든 단계 문장을 한 줄로 이어붙여 n-gram 겹침률을 측정 | 빠르고 직관적이지만, 같은 문장을 반복해도 점수가 올라가는 단점 |
|---|---|---|
| 헝가리안 매칭 F₁ / F₂ | 생성 단계 ↔ 정답 단계 사이를 1 : 1로 짝짓기(코사인 유사도 기준) 후 정밀·재현 계산 | 중복 단계가 많을 때도 정확히 페널티를 줄 수 있음 |
| Relaxed 헝가리안 | 1 : 2 매칭 허용 → “소금·후추 넣기” 한 문장 ↔ “소금 넣기”“후추 넣기” 두 단계 | 단계 세분화 수준이 달라도 공정하게 평가 |
에지(Edge) 지표 – “언제·어떻게” 해야 하는지 검사
| In-Degree | 각 단계의 바로 이전(부모) 단계 집합이 정답과 얼마나 겹치나? | 선행 작업 배치 정확도 |
|---|---|---|
| Out-Degree | 각 단계의 바로 다음(자식) 단계 집합이 얼마나 겹치나? | 후속 작업 연결 정확도 |
| Step Proximity | 한 단계 주변(부모 + 자식) 전체 묶음이 비슷하게 모였나? | 순서가 약간 틀려도 ‘근처에 모여 있어야 할 단계’가 제대로 모였다면 가점을 줌 |
9. Task Decomposition / Context Understanding Results
TaskLAMA가 수행한 두 가지 실험인 ① 단계(step) 생성 전략 비교와 ② 콘텍스트 주입 효과 검증입니다.
첫째, 연구진은 단순 검색·빈도 기반 베이스라인(Repeat Task/Sim, Co-occur, Hierarchical)과 few-shot ICL, 그리고 ICL을 확장한 MultSeq·S&F·SPT·혼합 파이프라인을 동일 지표로 평가했습니다.
Table 2가 보여주듯 ICL만으로도 Rouge2-F2가 9.5로 베이스라인 최고치(2.5)를 약 +280 % 끌어올렸습니다. 여기에 Soft-Prompt Tuning(SPT)을 더하니 거의 모든 노드 지표가 다시 한 단계 상승했고(예: Hungarian F1 43.6), 다중 샘플을 결합한 MultSeq + SPT가 Recall 중심 F2 스코어(예: Rouge2 F2 15.0)에서 최고치, S&F + SPT가 Precision 중심 F1에서 최고치를 기록해 ‘다양성 × 정밀도’ 균형이 가장 잘 맞는 조합으로 확인됐습니다.

둘째, 같은 ICL 설정에서 과업별 가정·상황(Context) 문장을 프롬프트에 추가하면 어떤 변화가 있는지를 실험했습니다. Figure 2의 막대그래프는 콘텍스트를 넣었을 때 모든 평가 항목이 노란색(무맥락) 대비 파란색(맥락)으로 상승함을 보여 줍니다.
이는 LLM이 추가 정보를 활용해 과업에 맞는 세부 단계를 보다 정확-구체적으로 생성할 수 있음을 시사하며, 실제 제품(WBS 자동화 등)에서도 사용자 환경·제약을 구조화해 주입하면 품질을 손쉽게 올릴 수 있다는 실무적 근거가 됩니다.
요약하면, SPT 기반 미세 튜닝과 콘텍스트 주입이 단계 품질을 크게 끌어올리는 핵심임이 실험으로 검증되었습니다.

10. Temporal Dependency Results
연구진은 단계(step) 간 선‧후 관계를 LLM이 얼마나 정확히 파악하는지 두 단계에 걸쳐 확인하였습니다.
1. 골드(graph) 기반 실험
이 실험에서는 노드와 에지가 모두 사람 손으로 주석된 정답 그래프를 그대로 사용하였고, 모델은 이미 주어진 노드 쌍마다 “A 단계가 B 단계보다 먼저 수행돼야 하는가?”를 판단하여 선-후(에지) 라벨만 예측하도록 하였습니다. 다시 말해 노드 오류의 영향을 완전히 제거한 채, LLM이 의존성 자체를 얼마나 정확히 이해하는지를 순수하게 측정한 시험이었다고 보시면 됩니다.
2. 생성(graph) 기반 실험
여기서는 노드를 모델이 직접 생성한 단계 목록(SPT 단일 시퀀스 또는 SPT + MultSeq 복수 시퀀스)으로 대체하고, 그 위에 Linear Order·Pairwise 분류 등 다양한 방법으로 에지를 예측하여 그래프를 완성했습니다. 연구팀은 이렇게 생성된 그래프 전체를 평가함으로써, “모델이 단계 생성과 의존성 예측을 엔드 투 엔드로 수행했을 때 품질이 어떠한가?”를 실전 환경에 가깝게 확인하고자 하였습니다.
첫째로, 골드(graph) 기반 실험에서는 모든 노드 쌍에 대해 다수 클래스*(의존성 없음)만 고르는 단순 베이스라인이 53.8 % 정확도를 보인 반면, ICL(47.5 %)과 ICL + CoT(49.6 %)는 이를 넘지 못했습니다. 그러나 소프트-프롬프트 튜닝(SPT)을 적용하자 정확도가 78.6 %까지 크게 상승하였는데, 이는 세밀한 의존성 이해가 LLM의 자체 능력만으로는 부족하며, 소규모라도 튜닝 데이터가 반드시 필요함을 의미합니다.
둘째로, 생성(graph) 기반 실험에서는 먼저 SPT 단일 시퀀스( #seqs = 1)와 SPT + MultSeq 복수 시퀀스( #seqs = 2)를 고정하고, 여섯 가지 에지 예측 전략을 적용하여 In-Degree·Out-Degree·Step Proximity 지표를 측정하였습니다.
- #seqs = 1 조건에서는 Linear Order—즉 LLM이 뽑은 단계 순서를 그대로 직렬화한 방법—가 Step Proximity 항목에서 가장 높은 점수(Rouge1 20.2)를 기록하였습니다. 반면 SPT Pairwise는 In/Out-Degree 지표에서 근소하게 앞서, coarse 흐름과 세밀 흐름의 강점이 서로 달랐습니다.
- #seqs = 2 조건으로 후보 단계가 늘어나자 전반적인 지표가 하락하였지만, SPT Pairwise가 여전히 세 지표 모두에서 가장 안정적인 성능을 보였습니다. 이는 단계 다양성이 커질수록 개별 쌍을 정밀하게 판별하는 전략의 가치가 커진다는 사실을 보여 줍니다.
정리하자면, Linear Order 방법은 빠르게 의존성 그래프의 뼈대를 만들 때 충분히 강력하지만, 복수 시퀀스나 세밀한 검증이 필요한 상황에서는 SPT 기반 Pairwise 분류가 가장 견고하다는 결론을 얻을 수 있습니다.

* 다수 클래스(의존성 없음)만 고르는 단순 베이스라인이란, 모든 단계 쌍에 대해 “두 단계 사이에 선‧후 관계가 없다(no-dependency)”라고만 답하는 가장 단순한 모델을 말합니다.
TaskLAMA의 골드 그래프를 보면 노드 쌍 중 상당수가 실제로 에지(의존성)가 없기 때문에 ‘no-dependency’가 전체 라벨에서 가장 많이 차지하는 다수(majority) 클래스입니다. 이 베이스라인은 어떤 지식도 학습하지 않고 항상 다수 클래스를 찍어 맞히는 방식이므로, 별다른 추론 없이도 53.8 %라는 기본 정확도를 얻지만 ― 선‧후 관계를 맞혀야 할 쌍에는 전혀 대응하지 못한다는 한계가 있습니다.

References
[1] Yuan, Q., Xu, Y., Chen, Y., et al.
“TaskLAMA: Probing the Complex Task Understanding of Language Models.”
Proceedings of the AAAI Conference on Artificial Intelligence, 38 (1), 2024.
DOI: 10.48550/arXiv.2308.15299