강화학습에서
Policy는 어떤 상황에서 내가 어떤 행동을 취할 것인지 결정하는 전략을 얘기하는 것이다.
Value Fuction은 앞으로의 리워드를 생각했을 때, 이 state가 얼마나 좋은 것인지, 또는 이 action이 얼마나 좋은 것인지 정량적으로 값을 제시하는 함수이다.
에이전트는 기대되는 discounted return을 최대화하는 Action을 선택한다.
이 discounted return은 타임 t에서 어떠한 행동을 할 때 앞으로 얻어질 리워드들의 합을 계산하는 것인데 이때 discount rate(1보다 작음)를 이용하여 리워드에 discount하는 것을 말한다.
여기서는 감마가 discount rate이다. 어떤 액션 At를 취함으로써 바로 받는 리워드는 Rt+1이고 그 다음 t+1에 받는 리워드는 Rt+2일 때 discout rate를 곱해서 더해준다. 이는 미래의 리워드에 대한 현재 리워드를 계산하기 위해 discount rate를 곱해주는 것이다.
여기서 감마는 1보다 작기 때문에 Gt를 항상 유한한 값을 가진다. 단 리워드 sequence가 bounded해야한다는 조건이 있다.
시퀀스가 쭉 가다가 자연스럽게 break되는 경우가 있는데, 이런 subsequence를 episode라고 한다. 이 episode의 경계선은 terminal state에 위치한다.
위와 같은 discount return을 계산할 때는 episode로 나눠지지 않은 cotinuing task에 적절하다.
반면, episode로 나눠진 경우에는 감마가 1인 undiscount return을 계산한다.
위와 같은 지식으로 Policies and Value Function에 대해 알아보자.
Policies and Value Function
어떤 policy 파이일때 state value function은 s라는 state로부터 discount return의 기대값으로 나타낼 수 있다.
어떤 policy 파이일 때 action value function은 s라는 state와 a라는 action으로부터 discount return의 기대값으로 나타낼 수 있다. 어떤 state일때 action까지 결정되었을 때 discount return의 기대값이다.
만약 에이전트가 policy 파이를 따른다고 할 때, state s에서 a라는 action이 선택될 확률을 다음과 같이 표현한다.
위 state value function과 action value function은 다음과 같이 표현할 수 있다.
위 state value function에서 action value function을 대입하여 오로지 state value function으로 나타낼 수 있다.
이는 현재의 state와 그 다음 time의 state의 관계로 표현하는 것이다.
이를 state value의 Bellman equation이라고 한다.
그림으로 표현하면 위와 같은데 s에서 state value는 s'에서의 state value들이 기여하고 있다. s'들로 s를 계산하기 때문에 backup diagram이라고 한다.
그 다음으로 action value의 Bellman eqution은 아래와 같이 표현할 수 있다.
그림에서 까만색 동그라미는 action을 뜻하고 하얀색 동그라미는 state를 뜻한다.
'대학원 공부 > 기계학습의원리' 카테고리의 다른 글
[머신러닝 원리] 12-4. 강화 학습(Reinforcement Learning) (0) | 2022.12.31 |
---|---|
[머신러닝 원리] 12-3. 강화 학습(Reinforcement Learning) (0) | 2022.12.13 |
[머신러닝 원리] 12-1. 강화 학습(Reinforcement Learning) (0) | 2022.12.08 |
[머신러닝 원리] 10-1. Features (0) | 2022.11.23 |
[머신러닝 원리] 9-4. 확률적 모델(Probabilistic Models) (0) | 2022.11.17 |