RL 알고리즘의 종류 : Model-Free vs Model-Based

RL 알고리즘의 종류 : Model-Free vs Model-Based

Machine Learning/Reinforcement Learning 2023. 1. 19. 10:57

Taxonomy of RL algorithms (https://spinningup.openai.com/en/latest/spinningup/rl_intro2.html#id21)

Reinforcement Learning (a.k.a RL) 알고리즘을 분류한 위 표를 보니, RL 분야에서 벌써 많은 기법들이 나와 클러스터링 되기에 이르렀다는 것을 알 수 있습니다. 물론 참고한 OpenAI의 Spinnig Up 사이트에서는 RL 알고리즘의 형태가 너무 다양해서 정확한 분류를 하지 못한다고 전제하고 있긴 합니다.

전체적인 그림을 간단히 요약해보겠습니다.

RL 알고리즘은 크게 Model-Free RL, Model-based RL 알고리즘 두 그룹으로 분류되며,
요즘 주목받고 있는 Model-Free RL은 On-policy 방법인 Policy Optimizatioin, 그리고 Off-policy 방법인 Q-learning 두 가지로 구분됩니다.

아래에서는 각 용어에 대해 조금 더 설명해보겠습니다.

Model-Free 와 Model-Based RL

우선, 모델이라고 지칭할 때의 모델은 환경(environment)에 대한 모델입니다. RL에서 행동(action)을 결정하는 주체(agent)는 보상(reward)을 극대화 하는 방향으로 학습되는데, 보상이 주어지는 환경에 대한 모델이 주어진다면 좋은 점이 있겠죠.

보통 모델링을 하는 이유는 불확실한 것에 대한 예측을 하기 위함입니다. 환경에 대한 모델이 있다면 agent가 어떤 행동을 취했을 때의 결과를 예측할 수 있게 되고, 이를 정책(policy) 업데이트에 활용할 수 있습니다. 정책을 업데이트하는데 가장 효율적인 상황만을 뽑아서 정책을 활용할 수도 있겠습니다. 대표적인 예는 그 유명한 AlphaZero가 있습니다.

하지만 이 모델링이 정확하지 않다면 어떻게 될까요? 이런 모델을 활용하여 정책을 업데이트한 agent는 real 환경에 적용되었을 때 예상치 못한 나쁜 성능을 보여줄 수도 있습니다. 실제로 자율 주행 시의 도로 환경(environment)를 모델링했다고 가정해봅시다. 도로에는 예기치 못한 상황들이 많이 벌어지는데 과연 모델이 이 모든 상황을 모델링할 수 있을까요? 조금만 모델 예측에서 벗어난 일이 일어나면 agent는 이에 제대로 대응하지 못할 가능성이 높습니다.

이렇게 환경에 대한 모델이 있는 RL 알고리즘은 model-based 방법, 그리고 모델이 없는 RL 알고리즘은 model-free 방법으로 부릅니다. model-based 방법은 위와 같은 문제점이 많아 model-free 방법론이 model-based 방법론보다 많이 개발되고 테스트되고 있는 추세입니다.

1. Model-Free RL 알고리즘

1-1. Policy Optimization
1-2. Q-Learning

1-1 Poilicy Optimization

RL의 학습 목표는 여러가지가 있지만 policy optimization의 목표는 보상을 최대화 하는 policy $π_{θ} (a | s)$ 를 찾는 것입니다.

이 방법은 학습이 진행되고 있는 시점에서 가장 최신의 policy가 지시하는대로 agent가 행동하고 데이터를 모으며, 여기서 나온 가장 최신 데이터만을 현재 policy에 반영하여 업데이트 합니다. 이를 on-policy 라고 부릅니다.

policy optimazation은 빈번하게 value function $V_{π} (s)$ 를 on-policy로 같이 학습 시켜 policy를 어떻게 업데이트 할지 찾아내는데 활용하기도 합니다.

policy optimization에 해당하는 알고리즘들은 A2C / A3C, chatGPT에도 활용된 PPO등이 있습니다. 가장 안정적으로 real 환경에 적용하고 싶다면 이 RL 알고리즘들을 우선적으로 고려해야 합니다.

※ agent, action, policy, value function 등의 용어가 생소하신 분들은 여기에서 먼저 확인해보시면 명확할 것 같습니다.

1-2 Q-Learning

Q-Learning은 action value function을 최적화하기 위해 그 근사 함수(approximator)인 $Q_{θ} (s, a)$ 를 학습하는 방법론입니다.

이 최적화 방법은 거의 항상 off-policy로 진행되는데, off-policy란 학습 과정에서 모은 어떠한 데이터라도 모두 사용한다는 점에서 on-policy와 구분됩니다. 즉 현재 policy를 업데이트 하는데 사용되는 데이터가 반드시 가장 최신 버전 policy를 따라 행동한 결과 나온 ~~따끈한~~ 데이터일 필요가 없으며, 과거 학습 단계에 있었던 ~~미성숙한~~ policy를 따라 행동한 결과로부터 나온 데이터도 모두 활용한다는 뜻이죠.

action value function $Q$ 만 학습하는 agent가 다음으로 취할 행동은 아래와 같이 정의됩니다.

$a (s) = \arg max_{a} Q_{θ} (s, a)$

Q-learning 방법은 대표적으로 DQN과 C51을 포함합니다.

Q-learning 방법론은 Policy optimization보다 불안정할 가능성이 높습니다. 그러나 안정적으로 학습하는데 성공했다면, 그건 아마도 데이터를 off-policy 를 활용해 효과적으로 재활용했기 때문일 것입니다. 두 방법론의 장점만을 취하고 단점을 보완해 복합적인 방법을 취하는 알고리즘들도 있습니다. DDGP와 SAC이 바로 이 예시에 해당합니다.

2. Model-Based RL 알고리즘

2-1. Pure Planning
2-2. Expert Iteration
2-3 Data Augmentation for Model-Free Methods
2-4 Embedding Planning Loops into Policies

2-1. Pure Planning

환경을 모델링하는 알고리즘 중 model-predictive control (MPC) 이라고 불리우던 분야에서는 policy라는 개념이 등장하지 않습니다. 대신, 환경을 완벽히 모델링해서 다음 행동을 선택하는 방식을 취합니다. agent가 환경을 관찰할 때마다 모델에 의한 최적의 플랜을 계산하고, 이 플랜의 결과로 나온 행동을 취하는 것입니다. 대표적인 결과가 여기 MBMF 있습니다.

2-2. Expert Iteration

Expert Iteration는 pure planning의 후속 연구들로써 policy 개념이 등장합니다. agent는 Monte Carlo Tree Search 같은 planning algorithm을 이용해서, action의 후보를 결정하게 되는됩니다. 그런데 policy에 의해 환경을 경험하며 취하는 행동보다 planning algorithm 같은 것을 활용해서 미래를 예측한 뒤 취하는 행동이 더 낫기 때문에 이를 "expert"라고 부릅니다. policy는 expert가 내놓은 행동처럼 판단할 수 있도록 학습되어져 갑니다.

대표적인 알고리즘은 Exlt과 체스를 마스터한 딥마인드의 AlphaZero가 있습니다.

2-3 Data Augmentation for Model-Free Methods

환경을 모델링하면 이 모델링된 환경에서 나오는 가상 데이터들을 많이 얻을 수 있습니다. 바로 이 점을 활용해서 데이터들을 이 모델로부터 잔뜩 얻은 뒤 model-free RL 알고리즘에 적용하는 케이스도 있습니다. 데이터란 석유에 비유될 정도로 귀한 것이니까요.

이 방법을 활용한 연구 결과는 MBVE와 "꿈 속에서 학습"했다고 말하는 World Models입니다.

2-4 Embedding Planning Loops into Policies

플래닝과 model-free RL을 섞은 또 다른 최신의 접근 방법은 플래닝을 policy의 서브루틴으로 집어 넣는 것입니다. 그래서 이런 플래닝의 결과가 policy에 또 다른 정보가 될 수 있습니다. 이 아이디어의 키포인트는 바로 policy가 언제 플래닝에서 나온 정보를 이용할지 결정할 수 있도록 학습된다는 점입니다. 만약 플래닝의 결과가 나쁘다면 policy는 간단히 이 정보를 무시해버립니다.

이런 스타일의 방법론을 활용하는 알고리즘은 I2A에서 확인하실 수 있습니다.

마치며

놀라운 성능을 보여주는 chatGPT에서 활용한 RL 알고리즘은 PPO (model-free > policy optimization)였습니다. 앞으로는 사용자와 인터랙션 하는 대화/생성 모델들이 강세를 보여줄 것으로 예상되는데요, 이런 모델을 학습하는 데는 RL 알고리즘을 빼놓고 논하기 어려워질 것 같습니다.

vision model에 transformer가 적용되면서 놀라운 multimodal 모델들의 결과가 발표되는 것처럼, 더 이상 NLU 전문가가 NLU의 영역에서만 머무를 수 없을 것입니다. 여러가지 다양한 알고리즘을 접해보고 통합할 아이디어를 찾을 것이 요구될 것 같습니다.

저작자표시 비영리 변경금지 (새창열림)

'Machine Learning > Reinforcement Learning' 카테고리의 다른 글

chatGPT에 사용된 RLHF와 PPO 알고리즘 뜯어보기 (1) 2023.05.11
관련글 관련글 더보기
- chatGPT에 사용된 RLHF와 PPO 알고리즘 뜯어보기
댓글

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

ABOUT ME

deeep

Model-Free 와 Model-Based RL

1. Model-Free RL 알고리즘

2. Model-Based RL 알고리즘

마치며

'Machine Learning > Reinforcement Learning' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

ABOUT ME

Model-Free 와 Model-Based RL

1. Model-Free RL 알고리즘

2. Model-Based RL 알고리즘

마치며

'Machine Learning > Reinforcement Learning' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역