Paper Reviews
-
초거대 LLM 24배 빠르게 서빙하기Paper Reviews 2023. 11. 2. 15:59
SOSP 2023 vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention [paper] 아래 내용은 vLLM의 [blog] 내용을 발췌하여 요약한 것입니다. vLLM의 성능 HuggingFace Transformers (HF) 보다 24x배, 기존 state of the art였던 HuggingFace Text Generation Inference (TGI)보다 3.5x배 높은 throuphput을 보인다. 어떻게 이렇게 속도를 개선한 것일까? vLLM이라는 서빙 플랫폼에 대해서 소개한다. 직접 써보니 정말 간단하고, 빠르다!! PagedAttention 이 논문에서는 LLM 서빙의 병목이 GPU 메모리 활용에 있음을 밝혀내었다. LLM에 입력으로 들어..
-
상용화된 LLM에서 얻은 피드백 활용 방법Paper Reviews 2023. 10. 31. 08:47
상용화된 LLM 서비스들을 이용하다보면, 아래 그림과 같이 나의 피드백도 남길 수가 있는 것을 확인할 수 있습니다. OpenAI GPT 서비스에는 답변 옆에 thumbs up / down 할 수 있는 버튼이 있는데, 이를 통해 모델이 제대로 된, 만족스러운 답변을 주었는지 여부에 대한 피드백을 수집합니다. 만약 답변이 마음에 들지 않아 thumbs down 버튼을 선택했다면, 위 그림과 같이 어떤 점을 개선할지 자유 양식으로 서술 받거나, 답변이 마음에 들지 않는 이유를 3개 선택지 중에 선택할 수도 있습니다. 이런 여러가지 피드백 중에 어떤 종류의 피드백이 LLM의 품질을 더욱 개선하는데 도움을 줄 수 있을까요? 그리고 LLM 서비스를 개발하는 회사에서는 어떻게 피드백을 활용하고 있을까요? Meta A..
-
LLAMA2를 무해한 모델로 만들기 위한 노력Paper Reviews 2023. 8. 24. 00:32
이 포스트에서는 Meta AI에서 Llama 2-Chat 모델을 더 무해하고 안전하게 만들기 위해 취한 노력들에 대해서만 알아보겠습니다. Llama2의 다른 세부 학습 방법들에 대해서는 Llama2 paper를 참고하세요. 여러 가지 초거대 모델이 등장하고 있고 모델의 Safety (=모델이 위험한 발언, 불법적인 발언, 그리고 편향된 발언을 하지 않는 것) 는 이 초거대 모델들이 보유해야 할 제 1 원칙으로 자리매김하고 있습니다. Safety에 대한 원칙이 잘 지켜진다는 것은, 사람의 instruction과 모델이 생성한 답변 간의 alignment를 얼마나 잘 수행하였다는 것을 의미하며, 단순 Pretraining에만 신경썼던 기존 방법론을 탈피하여 기술적 진보를 이루어내었는지를 (RLHF 등) 단적..