Paper Reviews
LEVER: Learning to Verify Language-to-Code Generation with Execution 논문 리뷰
sy.p
2023. 8. 16. 23:36
META AI
ICML 2023
Language-to-Code generation에서 풀어야 하는 문제들
SPIDER / WIKITQ / GSM8K / MBPP 공개 데이터셋들
방법론
실험 결과
처음 샘플들을 추리기 시작할 때는 verifier threshold로 가르는 것이 generator threshold로 가르는 것보다 성공률이 더 높다 (verifier is better calibrated than the generator)
하지만, 제일 가능성 있는 몇 개 프로그램에서 가를 때는 verfier 점수는 별 도움이 안된다. 차라리 generator threshold가 더 낫다.
verifier + generator 곱해서 같이 측정하면 잘 calibrated 된다.
LEVEL dfed