LEVER: Learning to Verify Language-to-Code Generation with Execution 논문 리뷰

Paper Reviews

sy.p 2023. 8. 16. 23:36

META AI

ICML 2023

SPIDER / WIKITQ / GSM8K / MBPP 공개 데이터셋들

처음 샘플들을 추리기 시작할 때는 verifier threshold로 가르는 것이 generator threshold로 가르는 것보다 성공률이 더 높다 (verifier is better calibrated than the generator)

하지만, 제일 가능성 있는 몇 개 프로그램에서 가를 때는 verfier 점수는 별 도움이 안된다. 차라리 generator threshold가 더 낫다.

verifier + generator 곱해서 같이 측정하면 잘 calibrated 된다.