LEVER: Learning to Verify Language-to-Code Generation with Execution 논문 리뷰

Paper Reviews 2023. 8. 16. 23:36

META AI

ICML 2023

SPIDER / WIKITQ / GSM8K / MBPP 공개 데이터셋들

처음 샘플들을 추리기 시작할 때는 verifier threshold로 가르는 것이 generator threshold로 가르는 것보다 성공률이 더 높다 (verifier is better calibrated than the generator)

하지만, 제일 가능성 있는 몇 개 프로그램에서 가를 때는 verfier 점수는 별 도움이 안된다. 차라리 generator threshold가 더 낫다.

verifier + generator 곱해서 같이 측정하면 잘 calibrated 된다.

상용화된 LLM에서 얻은 피드백 활용 방법 (0)	2023.10.31
LLAMA2를 무해한 모델로 만들기 위한 노력 (0)	2023.08.24
TaskMatrix.AI (0)	2023.08.16
captum으로 내가 만든 pyTorch 모델 결과 분석하기 (XAI) (0)	2023.03.21
네이버와 Meta AI의 Multimodal Shopping Model 비교 분석 (0)	2023.01.25

deeep