Microsoft
-
TaskMatrix.AIPaper Reviews 2023. 8. 16. 22:48
기업에서 LLM을 활용한다면 위와 같이 발전하지 않을까요? 이 flow는 맨 왼쪽에서 유저가 채팅 중 지시를 내리는 것으로 시작합니다. ChatGPT의 역할을 하는 멀티모달 모델(초록색)은 유저 지시에 따라 (1) 해결책의 outline을 작성하고, API Seletor가 해결책을 위한 적절한 API를 가져오면, (2) 이 API를 활용해 적절한 action sequence (code 형식)을 짜는 역할을 합니다. Action Executor가 이 code를 실행해 결과를 유저에게 가져다 주고, 그 결과를 평가하여 RLHF를 활용해 모델을 업그레이드 하는 선순환이 이루어지게 되는 구조입니다. 강화학습을 강조하는 이유는, 모델이 action sequence를 짤 때, 다양한 전략을 통해 action들을 조..