sctd

SEMO Research

[SEMO Lab] Tasklama - apply to semo

1. 서론 – TaskLAMA 기반 실험 설계 취지SEMO는 복잡한 아이디어를 WBS(Work-Breakdown Structure)로 자동 전개하는 서비스입니다. 이번 연구·개선 계획은 Google Research의 TaskLAMA 벤치마크에서 제시한 과제-그래프 평가 지표 (노드 Hungarian F1, Edge Hungarian F1, Step Proximity 등)를 적극 차용·응용하여, SEMO의 현행 ICL(단일 In-Context Learning) 기반 파이프라인을 체계적으로 고도화하는 것을 목표로 합니다. TaskLAMA는 1612개 과제·12118개 단계·11105개 의존성을 수작업으로 주석해 LLM의 복합 과제 이해 능력을 정량 검증할 수 있는 데이터셋으로, 기존 베이스라인 대비 LLM ..

SEMO Research

[SEMO Lab] Tasklama: probing the complex task understanding of language mode

TL;DR & Key TakeawaysTaskLAMA는 1 ,612개 실제 과업을 12 ,118개 단계(step)와 11 ,105개 의존관계(edge)로 기술한 대형 Gold-Standard 데이터셋과, 중복‑페널티‧그래프‑매칭 기반 새 평가 지표를 함께 제안한 첫 벤치마크입니다.단순 few‑shot ICL만으로도 검색·클러스터링 베이스라인 대비 최대 +280 % 성능 향상을 보였지만, 세밀한 step 간 dependency 예측 정확도는 80 % 이하에 머물렀습니다.Soft‑Prompt Tuning(SPT)과 콘텍스트 주입을 결합하면 생성된 step의 quality와 Recall를 동시에 크게 끌어올릴 수 있다는 점이 실험으로 확인되었습니다.SEMO WBS 모듈에는 MultSeq 샘플링 + SPT 프롬..

Bug Detector
'sctd' 태그의 글 목록