Alignment
-
[논문 리뷰] Direct Preference Optimization (DPO) Explained!Paper Reviews 2024. 1. 5. 15:40
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Stanford University 2305.18290.pdf (arxiv.org) 이번에 소개드릴 paper는 Large Language Model (LLM)을 사람의 의도에 align하는 기법에 혁신적인 변화를 가져온 중요한 논문입니다. 최근 공개된 업스테이지 SOLAR-10.7B 모델 역시 PPO가 아닌 DPO 알고리즘을 활용하여 높은 성능을 내었답니다. 출처: 챗봇 딥러닝 - LLM의 새로운 기법 - Merge와 DPO (aidev.co.kr) 챗봇 딥러닝 - LLM의 새로운 기법 - Merge와 DPO 요즘 LLM에서 Merge와 DPO가 많이 쓰이고 있습..