huggingface
-
[논문 리뷰] Direct Preference Optimization (DPO) Explained!Paper Reviews 2024. 1. 5. 15:40
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Stanford University 2305.18290.pdf (arxiv.org) 이번에 소개드릴 paper는 Large Language Model (LLM)을 사람의 의도에 align하는 기법에 혁신적인 변화를 가져온 중요한 논문입니다. 최근 공개된 업스테이지 SOLAR-10.7B 모델 역시 PPO가 아닌 DPO 알고리즘을 활용하여 높은 성능을 내었답니다. 출처: 챗봇 딥러닝 - LLM의 새로운 기법 - Merge와 DPO (aidev.co.kr) 챗봇 딥러닝 - LLM의 새로운 기법 - Merge와 DPO 요즘 LLM에서 Merge와 DPO가 많이 쓰이고 있습..
-
chatGPT에 사용된 RLHF와 PPO 알고리즘 뜯어보기Machine Learning/Reinforcement Learning 2023. 5. 11. 10:33
ChatGPT 아직 다들 잘 사용하고 계신가요? 과거 우리는 단순히 통계적으로 높은 확률의 토큰을 출력하는 기존의 생성 언어 모델(ex. GPT-2, GPT-3)의 한계를 명확히 보았습니다. 그럴싸하게 이야기를 만들어내기는 하지만, 편향되거나 답변에 사람에게 유해한 내용이 포함되어 있는 등 아무짝에도 쓸모가 없다는 회의적인 평가를 많이 들었던 것으로 기억합니다. 그런데 OpenAI에서 사람이 입력한 지시문을 잘 이해하고 좋은 답변을 내기 위한 방법으로 "강화 학습"을 활용해 기술적 혁신을 이끌었습니다. 생성 모델 분야에서는 특별한 정답을 규정할 수가 없어 학습할 목적함수를 설정하기 어려웠습니다. (기존 BLEU 스코어 등 생성 모델에 사용한 metric이 높아도 형편없는 작문일 가능성도 있었습니다) 그런..