-
[논문 리뷰] Direct Preference Optimization (DPO) Explained!Paper Reviews 2024.01.05 15:40
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Stanford University 2305.18290.pdf (arxiv.org) 이번에 소개드릴 paper는 Large Language Model (LLM)을 사람의 의도에 align하는 기법에 혁신적인 변화를 가져온 중요한 논문입니다. 최근 공개된 업스테이지 SOLAR-10.7B 모델 역시 PPO가 아닌 DPO 알고리즘을 활용하여 높은 성능을 내었답니다. 출처: 챗봇 딥러닝 - LLM의 새로운 기법 - Merge와 DPO (aidev.co.kr) 챗봇 딥러닝 - LLM의 새로운 기법 - Merge와 DPO 요즘 LLM에서 Merge와 DPO가 많이 쓰이고 있습..
-
초거대 LLM 24배 빠르게 서빙하기Paper Reviews 2023.11.02 15:59
SOSP 2023 vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention [paper] 아래 내용은 vLLM의 [blog] 내용을 발췌하여 요약한 것입니다. vLLM의 성능 HuggingFace Transformers (HF) 보다 24x배, 기존 state of the art였던 HuggingFace Text Generation Inference (TGI)보다 3.5x배 높은 throuphput을 보인다. 어떻게 이렇게 속도를 개선한 것일까? vLLM이라는 서빙 플랫폼에 대해서 소개한다. 직접 써보니 정말 간단하고, 빠르다!! PagedAttention 이 논문에서는 LLM 서빙의 병목이 GPU 메모리 활용에 있음을 밝혀내었다. LLM에 입력으로 들어..
-
상용화된 LLM에서 얻은 피드백 활용 방법Paper Reviews 2023.10.31 08:47
상용화된 LLM 서비스들을 이용하다보면, 아래 그림과 같이 나의 피드백도 남길 수가 있는 것을 확인할 수 있습니다. OpenAI GPT 서비스에는 답변 옆에 thumbs up / down 할 수 있는 버튼이 있는데, 이를 통해 모델이 제대로 된, 만족스러운 답변을 주었는지 여부에 대한 피드백을 수집합니다. 만약 답변이 마음에 들지 않아 thumbs down 버튼을 선택했다면, 위 그림과 같이 어떤 점을 개선할지 자유 양식으로 서술 받거나, 답변이 마음에 들지 않는 이유를 3개 선택지 중에 선택할 수도 있습니다. 이런 여러가지 피드백 중에 어떤 종류의 피드백이 LLM의 품질을 더욱 개선하는데 도움을 줄 수 있을까요? 그리고 LLM 서비스를 개발하는 회사에서는 어떻게 피드백을 활용하고 있을까요? Meta A..
-
LLAMA2를 무해한 모델로 만들기 위한 노력Paper Reviews 2023.08.24 00:32
이 포스트에서는 Meta AI에서 Llama 2-Chat 모델을 더 무해하고 안전하게 만들기 위해 취한 노력들에 대해서만 알아보겠습니다. Llama2의 다른 세부 학습 방법들에 대해서는 Llama2 paper를 참고하세요. 여러 가지 초거대 모델이 등장하고 있고 모델의 Safety (=모델이 위험한 발언, 불법적인 발언, 그리고 편향된 발언을 하지 않는 것) 는 이 초거대 모델들이 보유해야 할 제 1 원칙으로 자리매김하고 있습니다. Safety에 대한 원칙이 잘 지켜진다는 것은, 사람의 instruction과 모델이 생성한 답변 간의 alignment를 얼마나 잘 수행하였다는 것을 의미하며, 단순 Pretraining에만 신경썼던 기존 방법론을 탈피하여 기술적 진보를 이루어내었는지를 (RLHF 등) 단적..
-
LEVER: Learning to Verify Language-to-Code Generation with Execution 논문 리뷰Paper Reviews 2023.08.16 23:36
META AI ICML 2023 Language-to-Code generation에서 풀어야 하는 문제들 SPIDER / WIKITQ / GSM8K / MBPP 공개 데이터셋들 방법론 실험 결과 처음 샘플들을 추리기 시작할 때는 verifier threshold로 가르는 것이 generator threshold로 가르는 것보다 성공률이 더 높다 (verifier is better calibrated than the generator) 하지만, 제일 가능성 있는 몇 개 프로그램에서 가를 때는 verfier 점수는 별 도움이 안된다. 차라리 generator threshold가 더 낫다. verifier + generator 곱해서 같이 측정하면 잘 calibrated 된다. LEVEL dfed
-
TaskMatrix.AIPaper Reviews 2023.08.16 22:48
기업에서 LLM을 활용한다면 위와 같이 발전하지 않을까요? 이 flow는 맨 왼쪽에서 유저가 채팅 중 지시를 내리는 것으로 시작합니다. ChatGPT의 역할을 하는 멀티모달 모델(초록색)은 유저 지시에 따라 (1) 해결책의 outline을 작성하고, API Seletor가 해결책을 위한 적절한 API를 가져오면, (2) 이 API를 활용해 적절한 action sequence (code 형식)을 짜는 역할을 합니다. Action Executor가 이 code를 실행해 결과를 유저에게 가져다 주고, 그 결과를 평가하여 RLHF를 활용해 모델을 업그레이드 하는 선순환이 이루어지게 되는 구조입니다. 강화학습을 강조하는 이유는, 모델이 action sequence를 짤 때, 다양한 전략을 통해 action들을 조..
-
chatGPT에 사용된 RLHF와 PPO 알고리즘 뜯어보기Reinforcement Learning 2023.05.11 10:33
ChatGPT 아직 다들 잘 사용하고 계신가요? 과거 우리는 단순히 통계적으로 높은 확률의 토큰을 출력하는 기존의 생성 언어 모델(ex. GPT-2, GPT-3)의 한계를 명확히 보았습니다. 그럴싸하게 이야기를 만들어내기는 하지만, 편향되거나 답변에 사람에게 유해한 내용이 포함되어 있는 등 아무짝에도 쓸모가 없다는 회의적인 평가를 많이 들었던 것으로 기억합니다. 그런데 OpenAI에서 사람이 입력한 지시문을 잘 이해하고 좋은 답변을 내기 위한 방법으로 "강화 학습"을 활용해 기술적 혁신을 이끌었습니다. 생성 모델 분야에서는 특별한 정답을 규정할 수가 없어 학습할 목적함수를 설정하기 어려웠습니다. (기존 BLEU 스코어 등 생성 모델에 사용한 metric이 높아도 형편없는 작문일 가능성도 있었습니다) 그런..
-
captum으로 내가 만든 pyTorch 모델 결과 분석하기 (XAI)Paper Reviews 2023.03.21 10:39
가끔 내가 만든 모델이 왜 이런 output을 냈는지 궁금할 때가 있습니다. 딥 모델을 서비스에 적용한 경우라면 가끔 이상한 모델 결과에 대해 무엇 때문에 이런 결과가 나왔는지 설명을 듣고 싶은 지경에 이르를 수도 있습니다. 🤷 또는 이 모델을 더 발전시키고 개선하기 위해 결과를 분석해 볼 필요도 있죠. 입력한 feature 각각이 모델의 출력값에 기여한 기여도 attribution을 계산해보면 입력의 어떤 부분이 출력값을 결정하는데 중요한 역할을 했는지 설명해볼 수 있는데, 이러한 알고리즘을 attribution algorithm이라고 부릅니다. 요즘은 XAI(eXplainable AI) 기법들이 많이 연구되고 있어, 그 중 가장 설득력 있다고 여겨지는 방법 하나를 소개해드리려고 합니다. 바로 capt..
-
네이버와 Meta AI의 Multimodal Shopping Model 비교 분석Paper Reviews 2023.01.25 10:55
최근 commerce AI 분야에서도 다양한 멀티모달 쇼핑 모델들이 발표되어 활용되고 있어 리뷰해보려고 합니다. Meta AI에서는 2022 KDD에서 멀티모달 쇼핑 모델 Commerce MM을 발표했습니다. Meta AI는 이미 페이스북과 인스타그램의 marketplace를 운영하고 있어서 여기서 나오는 데이터셋은 거대할 것으로 보입니다. 쇼핑 데이터의 핵심은 (아직까지는) 이미지와 텍스트인데요, 이 두 가지의 모달리티를 섞어서 쇼핑 전용 멀티모달(Multimodal) 모델을 학습한 뒤 다양한 태스크에 활용하는 추세입니다. 한국 최대의 e-commerce 사이트인 네이버 쇼핑에도 이미 이런 모델들을 만들 충분한 데이터가 쌓여있습니다. 네이버 쇼핑에서는 OpenAI에서 발표해 큰 화제가 된 CLIP 모델..
-
RL 알고리즘의 종류 : Model-Free vs Model-BasedReinforcement Learning 2023.01.19 10:57
Reinforcement Learning (a.k.a RL) 알고리즘을 분류한 위 표를 보니, RL 분야에서 벌써 많은 기법들이 나와 클러스터링 되기에 이르렀다는 것을 알 수 있습니다. 물론 참고한 OpenAI의 Spinnig Up 사이트에서는 RL 알고리즘의 형태가 너무 다양해서 정확한 분류를 하지 못한다고 전제하고 있긴 합니다. 전체적인 그림을 간단히 요약해보겠습니다. RL 알고리즘은 크게 Model-Free RL, Model-based RL 알고리즘 두 그룹으로 분류되며, 요즘 주목받고 있는 Model-Free RL은 On-policy 방법인 Policy Optimizatioin, 그리고 Off-policy 방법인 Q-learning 두 가지로 구분됩니다. 아래에서는 각 용어에 대해 조금 더 설명해..