-
[논문 리뷰] LLaVA, LLaVA-1.5Paper Reviews 2024.05.29 15:21
최근 오픈된 GPT-4o의 이미지 인식 성능이 놀라운 수준이며 이미 무료로 서비스되고 있죠. 몇 가지 테스트를 해보니 영어 뿐 아니라 한국어가 쓰인 이미지도 완벽히 이해합니다. 온라인 쇼핑 사이트에서 부가부 유모차에 대한 이미지를 하나 캡처하여 아래와 같이 물어보았습니다. 이건 뭐..OCR까지 완벽히 되는데요, 현재 한국어 VLM (Visual Language Model) 및 기존 OCR 모델들을 테스트해본 결과 GPT-4o처럼 대답할 수 있는 모델이 전무했습니다. OpenAI의 Vision API Guide 문서를 확인해보면, 512px의 고해상도 이미지를 기본으로 입력받고 있음을 유추할 수 있습니다. 아래 소개 드릴 LLaVA 등의 open source model에서 이미지 해상도를 224px, 3..
-
[논문 리뷰] KnowAgent: Knowledge-Augmented Planning for LLM-Based AgentsPaper Reviews 2024.04.15 00:02
KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [2403.03101] KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents (arxiv.org) 이번에 소개드릴 KnowAgent는 arxiv 에 발행되었을 당시, 각종 온라인 커뮤니티에서 주목을 받았었던 논문입니다. LLM이 내부 지식을 활용하여 Chain-of-Thought (CoT) 으로 각종 task에 대해 뛰어난 성능을 보여주고는 있지만, 여전히 out-of-domain, 또는 학습되지 않은 in-domain의 최신 지식을 활용하기 위해서는 지속적으로 신규 학습 데이터에 대해 학습을 진행해주어야한다는 단점이 있습니다. LLM이 외부..
-
[논문 리뷰] Direct Preference Optimization (DPO) Explained!Paper Reviews 2024.01.05 15:40
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Stanford University 2305.18290.pdf (arxiv.org) 이번에 소개드릴 paper는 Large Language Model (LLM)을 사람의 의도에 align하는 기법에 혁신적인 변화를 가져온 중요한 논문입니다. 최근 공개된 업스테이지 SOLAR-10.7B 모델 역시 PPO가 아닌 DPO 알고리즘을 활용하여 높은 성능을 내었답니다. 출처: 챗봇 딥러닝 - LLM의 새로운 기법 - Merge와 DPO (aidev.co.kr) 챗봇 딥러닝 - LLM의 새로운 기법 - Merge와 DPO 요즘 LLM에서 Merge와 DPO가 많이 쓰이고 있습..
-
초거대 LLM 24배 빠르게 서빙하기Paper Reviews 2023.11.02 15:59
SOSP 2023 vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention [paper] 아래 내용은 vLLM의 [blog] 내용을 발췌하여 요약한 것입니다. vLLM의 성능 HuggingFace Transformers (HF) 보다 24x배, 기존 state of the art였던 HuggingFace Text Generation Inference (TGI)보다 3.5x배 높은 throuphput을 보인다. 어떻게 이렇게 속도를 개선한 것일까? vLLM이라는 서빙 플랫폼에 대해서 소개한다. 직접 써보니 정말 간단하고, 빠르다!! PagedAttention 이 논문에서는 LLM 서빙의 병목이 GPU 메모리 활용에 있음을 밝혀내었다. LLM에 입력으로 들어..
-
상용화된 LLM에서 얻은 피드백 활용 방법Paper Reviews 2023.10.31 08:47
상용화된 LLM 서비스들을 이용하다보면, 아래 그림과 같이 나의 피드백도 남길 수가 있는 것을 확인할 수 있습니다. OpenAI GPT 서비스에는 답변 옆에 thumbs up / down 할 수 있는 버튼이 있는데, 이를 통해 모델이 제대로 된, 만족스러운 답변을 주었는지 여부에 대한 피드백을 수집합니다. 만약 답변이 마음에 들지 않아 thumbs down 버튼을 선택했다면, 위 그림과 같이 어떤 점을 개선할지 자유 양식으로 서술 받거나, 답변이 마음에 들지 않는 이유를 3개 선택지 중에 선택할 수도 있습니다. 이런 여러가지 피드백 중에 어떤 종류의 피드백이 LLM의 품질을 더욱 개선하는데 도움을 줄 수 있을까요? 그리고 LLM 서비스를 개발하는 회사에서는 어떻게 피드백을 활용하고 있을까요? Meta A..
-
LLAMA2를 무해한 모델로 만들기 위한 노력Paper Reviews 2023.08.24 00:32
이 포스트에서는 Meta AI에서 Llama 2-Chat 모델을 더 무해하고 안전하게 만들기 위해 취한 노력들에 대해서만 알아보겠습니다. Llama2의 다른 세부 학습 방법들에 대해서는 Llama2 paper를 참고하세요. 여러 가지 초거대 모델이 등장하고 있고 모델의 Safety (=모델이 위험한 발언, 불법적인 발언, 그리고 편향된 발언을 하지 않는 것) 는 이 초거대 모델들이 보유해야 할 제 1 원칙으로 자리매김하고 있습니다. Safety에 대한 원칙이 잘 지켜진다는 것은, 사람의 instruction과 모델이 생성한 답변 간의 alignment를 얼마나 잘 수행하였다는 것을 의미하며, 단순 Pretraining에만 신경썼던 기존 방법론을 탈피하여 기술적 진보를 이루어내었는지를 (RLHF 등) 단적..
-
LEVER: Learning to Verify Language-to-Code Generation with Execution 논문 리뷰Paper Reviews 2023.08.16 23:36
META AI ICML 2023 Language-to-Code generation에서 풀어야 하는 문제들 SPIDER / WIKITQ / GSM8K / MBPP 공개 데이터셋들 방법론 실험 결과 처음 샘플들을 추리기 시작할 때는 verifier threshold로 가르는 것이 generator threshold로 가르는 것보다 성공률이 더 높다 (verifier is better calibrated than the generator) 하지만, 제일 가능성 있는 몇 개 프로그램에서 가를 때는 verfier 점수는 별 도움이 안된다. 차라리 generator threshold가 더 낫다. verifier + generator 곱해서 같이 측정하면 잘 calibrated 된다. LEVEL dfed
-
TaskMatrix.AIPaper Reviews 2023.08.16 22:48
기업에서 LLM을 활용한다면 위와 같이 발전하지 않을까요? 이 flow는 맨 왼쪽에서 유저가 채팅 중 지시를 내리는 것으로 시작합니다. ChatGPT의 역할을 하는 멀티모달 모델(초록색)은 유저 지시에 따라 (1) 해결책의 outline을 작성하고, API Seletor가 해결책을 위한 적절한 API를 가져오면, (2) 이 API를 활용해 적절한 action sequence (code 형식)을 짜는 역할을 합니다. Action Executor가 이 code를 실행해 결과를 유저에게 가져다 주고, 그 결과를 평가하여 RLHF를 활용해 모델을 업그레이드 하는 선순환이 이루어지게 되는 구조입니다. 강화학습을 강조하는 이유는, 모델이 action sequence를 짤 때, 다양한 전략을 통해 action들을 조..
-
chatGPT에 사용된 RLHF와 PPO 알고리즘 뜯어보기Reinforcement Learning 2023.05.11 10:33
ChatGPT 아직 다들 잘 사용하고 계신가요? 과거 우리는 단순히 통계적으로 높은 확률의 토큰을 출력하는 기존의 생성 언어 모델(ex. GPT-2, GPT-3)의 한계를 명확히 보았습니다. 그럴싸하게 이야기를 만들어내기는 하지만, 편향되거나 답변에 사람에게 유해한 내용이 포함되어 있는 등 아무짝에도 쓸모가 없다는 회의적인 평가를 많이 들었던 것으로 기억합니다. 그런데 OpenAI에서 사람이 입력한 지시문을 잘 이해하고 좋은 답변을 내기 위한 방법으로 "강화 학습"을 활용해 기술적 혁신을 이끌었습니다. 생성 모델 분야에서는 특별한 정답을 규정할 수가 없어 학습할 목적함수를 설정하기 어려웠습니다. (기존 BLEU 스코어 등 생성 모델에 사용한 metric이 높아도 형편없는 작문일 가능성도 있었습니다) 그런..
-
captum으로 내가 만든 pyTorch 모델 결과 분석하기 (XAI)Paper Reviews 2023.03.21 10:39
가끔 내가 만든 모델이 왜 이런 output을 냈는지 궁금할 때가 있습니다. 딥 모델을 서비스에 적용한 경우라면 가끔 이상한 모델 결과에 대해 무엇 때문에 이런 결과가 나왔는지 설명을 듣고 싶은 지경에 이르를 수도 있습니다. 🤷 또는 이 모델을 더 발전시키고 개선하기 위해 결과를 분석해 볼 필요도 있죠. 입력한 feature 각각이 모델의 출력값에 기여한 기여도 attribution을 계산해보면 입력의 어떤 부분이 출력값을 결정하는데 중요한 역할을 했는지 설명해볼 수 있는데, 이러한 알고리즘을 attribution algorithm이라고 부릅니다. 요즘은 XAI(eXplainable AI) 기법들이 많이 연구되고 있어, 그 중 가장 설득력 있다고 여겨지는 방법 하나를 소개해드리려고 합니다. 바로 capt..