goldstandarddataset

SEMO Research

[SEMO Lab] Tasklama: probing the complex task understanding of language mode

TL;DR & Key TakeawaysTaskLAMA는 1 ,612개 실제 과업을 12 ,118개 단계(step)와 11 ,105개 의존관계(edge)로 기술한 대형 Gold-Standard 데이터셋과, 중복‑페널티‧그래프‑매칭 기반 새 평가 지표를 함께 제안한 첫 벤치마크입니다.단순 few‑shot ICL만으로도 검색·클러스터링 베이스라인 대비 최대 +280 % 성능 향상을 보였지만, 세밀한 step 간 dependency 예측 정확도는 80 % 이하에 머물렀습니다.Soft‑Prompt Tuning(SPT)과 콘텍스트 주입을 결합하면 생성된 step의 quality와 Recall를 동시에 크게 끌어올릴 수 있다는 점이 실험으로 확인되었습니다.SEMO WBS 모듈에는 MultSeq 샘플링 + SPT 프롬..

Bug Detector
'goldstandarddataset' 태그의 글 목록