Machine Learning
-
chatGPT에 사용된 RLHF와 PPO 알고리즘 뜯어보기Machine Learning/Reinforcement Learning 2023. 5. 11. 10:33
ChatGPT 아직 다들 잘 사용하고 계신가요? 과거 우리는 단순히 통계적으로 높은 확률의 토큰을 출력하는 기존의 생성 언어 모델(ex. GPT-2, GPT-3)의 한계를 명확히 보았습니다. 그럴싸하게 이야기를 만들어내기는 하지만, 편향되거나 답변에 사람에게 유해한 내용이 포함되어 있는 등 아무짝에도 쓸모가 없다는 회의적인 평가를 많이 들었던 것으로 기억합니다. 그런데 OpenAI에서 사람이 입력한 지시문을 잘 이해하고 좋은 답변을 내기 위한 방법으로 "강화 학습"을 활용해 기술적 혁신을 이끌었습니다. 생성 모델 분야에서는 특별한 정답을 규정할 수가 없어 학습할 목적함수를 설정하기 어려웠습니다. (기존 BLEU 스코어 등 생성 모델에 사용한 metric이 높아도 형편없는 작문일 가능성도 있었습니다) 그런..
-
RL 알고리즘의 종류 : Model-Free vs Model-BasedMachine Learning/Reinforcement Learning 2023. 1. 19. 10:57
Reinforcement Learning (a.k.a RL) 알고리즘을 분류한 위 표를 보니, RL 분야에서 벌써 많은 기법들이 나와 클러스터링 되기에 이르렀다는 것을 알 수 있습니다. 물론 참고한 OpenAI의 Spinnig Up 사이트에서는 RL 알고리즘의 형태가 너무 다양해서 정확한 분류를 하지 못한다고 전제하고 있긴 합니다. 전체적인 그림을 간단히 요약해보겠습니다. RL 알고리즘은 크게 Model-Free RL, Model-based RL 알고리즘 두 그룹으로 분류되며, 요즘 주목받고 있는 Model-Free RL은 On-policy 방법인 Policy Optimizatioin, 그리고 Off-policy 방법인 Q-learning 두 가지로 구분됩니다. 아래에서는 각 용어에 대해 조금 더 설명해..