-
반응형
1. 강화 학습(Reinforcement Learning)이란...?
- '궁극적인 목표를 이루기 위해서 현 상황에서 어떤 input을 넣어야 할까?'란 문제에 대한 해답을 찾으려는 학습
- 어린아이가 시행착오를 통해 학습하는 방법과 비슷한 느낌
2. 강화학습(Reinforcement Learning)의 특징
- Supervised Learning과 다르게 Supervisor(정답을 알려주는 사람)이 없고 reward signal만이 존재
- Feedback이 즉각적이지 않을 수 있음
- 어떻게 fitting하느냐에 따라 제공받는 데이터가 다를 수 있음
3. 강화학습(Reinforcement Learning) 용어 정리
- Agent: 모델 / cumulative result를 maximize 하는 것을 목표로 함
- Reward: Agent가 학습할 수 있는 스칼라 형태의 정보
- History: Agent와 관련된 (Observation, Reward, Action)의 쌍이 순차적으로 기록된 것
- State: 다음에 어떤 Action을 취할지 결정하기 위해 쓰이는 정보 / History의 함수형으로 표현 가능(History 내에서 뽑아 쓰는 느낌이기 때문)
- Policy: Agent의 행동을 규정 / State와 Action을 mapping 해주는 느낌
- Value Function: Policy π를 따라 진행했을 때 총얼마의 reward를 받게 될 지에 대한 기댓값
##
강화 학습에서는 MDP란 의사결정 과정을 모델링하는 틀이 사용됩니다. 그렇기에 MDP에 대한 확실한 개념 정리가 필요합니다!
4. Markov State
- S(1)부터 S(t)까지 모든 상태가 주어져있어도 결국 S(t+1)로 가는 확률은 S(t)의 영향만 받는 상태를 말함
- 그러므로 Markov State라면 고려해야 할 데이터양이 줄어들어 효율적인 계산이 가능합니다.
5. Markov Process
- memoryless random process
- Markov State로 상황을 한정했기 때문에 <State, State Transition Probability> tuple로 전체 의사결정 process를 표현할 수 있음
6. Markov Reward Process
- 간단하게 생각하면 Markov Process + reward
- 어떠한 다음 action이 궁극적인 목표를 이루기 위해 얼마나 기여할 수 있는지에 대한 정량화된 값을 나타내는 reward가 추가됨
- <State, State Transition Probability, Reward, Discount Factor> tuple로 전체 의사결정 process를 표현할 수 있음
- Discount Factor: 0~1의 값을 가질 수 있으며, 시간이 지날수록 reward의 가치를 떨어뜨리는 역할(만약에 Discount Factor가 0이면 가장 근처의 reward만 고려됨)
[Value Function에 Bellman Equation]
반응형'IT > 외부강의' 카테고리의 다른 글
[외부 강의] TensorFlow 기반 딥러닝의 이해(2) (0) 2021.08.07 [외부 강의] TensorFlow 기반 딥러닝의 이해(1) (0) 2021.08.06 댓글