1. 서론 – TaskLAMA 기반 실험 설계 취지
SEMO는 복잡한 아이디어를 WBS(Work-Breakdown Structure)로 자동 전개하는 서비스입니다.
이번 연구·개선 계획은 Google Research의 TaskLAMA 벤치마크에서 제시한 과제-그래프 평가 지표 (노드 Hungarian F1, Edge Hungarian F1, Step Proximity 등)를 적극 차용·응용하여, SEMO의 현행 ICL(단일 In-Context Learning) 기반 파이프라인을 체계적으로 고도화하는 것을 목표로 합니다.
TaskLAMA는 1612개 과제·12118개 단계·11105개 의존성을 수작업으로 주석해 LLM의 복합 과제 이해 능력을 정량 검증할 수 있는 데이터셋으로, 기존 베이스라인 대비 LLM 성능 이득과 한계를 동시에 드러낸다는 점에서 본 실험들을 계획하게 되었습니다.
2. SEMO 서비스 현황 및 향후 특징
현재 상황
ICL 방식으로 단계·의존성을 한 번에 생성한 뒤, PM이 Drag & Drop UI에서 수동 보정하는 루프를 운용 중입니다.
향후 적용 예정 기능
① Mult-Sequence + Soft-Prompt Tuning(SPT) 조합으로 단계·의존성 초안을 생성하여 다양성과 압축률 동시 향상
② CHIP(암호화 PDF) 교체만으로 산업·직군 특유 용어를 즉시 주입하는 도메인 전환 설계
③ 각 실행 결과에 llm_confidence, evaluation_scores 등 메타데이터를 기록해 A/B 테스트-재학습-롤백 자동화
3. 실험 로드맵 — 가설·방법·평가지표
실험 1 | WBS 생성 파이프라인 비교
가설 ICL 단일 호출보다 Mult-Sequence + SPT 결합 모델이 노드 Recall 및 Precision을 모두 개선한다.
방법 100개 과제에 대해 ICL, Mult-Seq, SPT, Mult-Seq + SPT 모델로 WBS를 생성.
평가 노드 Hungarian F1/F2, Duplicate Rate, 토큰 수 절감률.
실험 2 | 초장문 System-Prompt 압축 SPT
가설 9000 + token 시스템 프롬프트를 SPT 30 token 이하로 축약해도 노드 F1 저하 ≤ 1 %.
방법 GPU 1장·30분 제한, Low-Rank Adaption 없이 가상 토큰만 학습.
평가 Token 절감률, 응답 Latency(ms), 노드 F1 변화.
실험 3 | CHIP × SPT 매핑 검증
가설 CHIP-SPT 1:1 매핑만으로 RAG 없이 도메인 전문어를 반영할 수 있다.
방법 마케팅·개발 등 5개 CHIP, 각 50개 과제 생성 → 용어 일치도 Top-5, 30일 재사용률 추적.
평가 Domain Term Accuracy, 사용자 Retention(30 D).
실험 4 | 전사 운영 루프 KPI
가설 ‘생성 → 자동 QA → 수정 → 재학습’ 6주 사이클로 평균 evaluation_scores 10 %+ 상승.
방법 루프 두 회전(12주) 실행 후 전-후 비교.
평가 평균 Node F1, Edge F1, 🚩 해결 Lead Time, 재학습 1회당 GPU 소모량.
4. TaskLAMA 기반 SEMO 생성 WBS 정량 평가 계획
| 데이터셋 | TaskLAMA 테스트 세트 478건 |
| 실험군 | SEMO 최종 파이프라인(실험 1-4 결과) vs gemini flash 베이스라인 |
| 측정 항목 | 노드/엣지 Hungarian F1, Step Proximity, 평균 Token 수, Latency |
| 샘플링 | 과제별 3회 생성 후 평균값 산출 |
| 성공 기준 | SEMO 모델이 노드 Recall +8 %p, Edge F1 +5 %p 이상 우위 |
5. 마무리 및 다음 단계
1️⃣ TaskLAMA 평가 스크립트(데이터 로더·지표 계산기)를 Python 패키지로 모듈화해 재사용성 확보
2️⃣ System-Prompt 압축 모델(실험 2)을 우선 학습하여 Serving 비용 절감 효과를 실측한 뒤, 단계적으로 실험 1–4 병행