feedback reward
-
상용화된 LLM에서 얻은 피드백 활용 방법Paper Reviews 2023. 10. 31. 08:47
상용화된 LLM 서비스들을 이용하다보면, 아래 그림과 같이 나의 피드백도 남길 수가 있는 것을 확인할 수 있습니다. OpenAI GPT 서비스에는 답변 옆에 thumbs up / down 할 수 있는 버튼이 있는데, 이를 통해 모델이 제대로 된, 만족스러운 답변을 주었는지 여부에 대한 피드백을 수집합니다. 만약 답변이 마음에 들지 않아 thumbs down 버튼을 선택했다면, 위 그림과 같이 어떤 점을 개선할지 자유 양식으로 서술 받거나, 답변이 마음에 들지 않는 이유를 3개 선택지 중에 선택할 수도 있습니다. 이런 여러가지 피드백 중에 어떤 종류의 피드백이 LLM의 품질을 더욱 개선하는데 도움을 줄 수 있을까요? 그리고 LLM 서비스를 개발하는 회사에서는 어떻게 피드백을 활용하고 있을까요? Meta A..