Category (12)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

deeep

컨텐츠 검색 블로그 내 검색

Alignment

[논문 리뷰] Direct Preference Optimization (DPO) Explained!
Paper Reviews 2024. 1. 5. 15:40

Direct Preference Optimization: Your Language Model is Secretly a Reward Model Stanford University 2305.18290.pdf (arxiv.org) 이번에 소개드릴 paper는 Large Language Model (LLM)을 사람의 의도에 align하는 기법에 혁신적인 변화를 가져온 중요한 논문입니다. 최근 공개된 업스테이지 SOLAR-10.7B 모델 역시 PPO가 아닌 DPO 알고리즘을 활용하여 높은 성능을 내었답니다. 출처: 챗봇 딥러닝 - LLM의 새로운 기법 - Merge와 DPO (aidev.co.kr) 챗봇 딥러닝 - LLM의 새로운 기법 - Merge와 DPO 요즘 LLM에서 Merge와 DPO가 많이 쓰이고 있습..

이전

1

다음

ADMIN

admin 글쓰기

ABOUT ME

LINK

Designed by Tistory.

티스토리툴바