[SEMO Lab] Tasklama - apply to semo

2025. 7. 19. 13:49

데이터셋	TaskLAMA 테스트 세트 478건
실험군	SEMO 최종 파이프라인(실험 1-4 결과) vs gemini flash 베이스라인
측정 항목	노드/엣지 Hungarian F1, Step Proximity, 평균 Token 수, Latency
샘플링	과제별 3회 생성 후 평균값 산출
성공 기준	SEMO 모델이 노드 Recall +8 %p, Edge F1 +5 %p 이상 우위

1. 서론 – TaskLAMA 기반 실험 설계 취지