LLM서빙
-
초거대 LLM 24배 빠르게 서빙하기Paper Reviews 2023. 11. 2. 15:59
SOSP 2023 vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention [paper] 아래 내용은 vLLM의 [blog] 내용을 발췌하여 요약한 것입니다. vLLM의 성능 HuggingFace Transformers (HF) 보다 24x배, 기존 state of the art였던 HuggingFace Text Generation Inference (TGI)보다 3.5x배 높은 throuphput을 보인다. 어떻게 이렇게 속도를 개선한 것일까? vLLM이라는 서빙 플랫폼에 대해서 소개한다. 직접 써보니 정말 간단하고, 빠르다!! PagedAttention 이 논문에서는 LLM 서빙의 병목이 GPU 메모리 활용에 있음을 밝혀내었다. LLM에 입력으로 들어..