[외부 강의] 강화학습(Reinforcement Learning)(1)

IT/외부강의

[외부 강의] 강화학습(Reinforcement Learning)(1)

2021. 8. 9.

by. ziasu
반응형
1. 강화 학습(Reinforcement Learning)이란...?

'궁극적인 목표를 이루기 위해서 현 상황에서 어떤 input을 넣어야 할까?'란 문제에 대한 해답을 찾으려는 학습

어린아이가 시행착오를 통해 학습하는 방법과 비슷한 느낌

2. 강화학습(Reinforcement Learning)의 특징

Supervised Learning과 다르게 Supervisor(정답을 알려주는 사람)이 없고 reward signal만이 존재

Feedback이 즉각적이지 않을 수 있음

어떻게 fitting하느냐에 따라 제공받는 데이터가 다를 수 있음

3. 강화학습(Reinforcement Learning) 용어 정리

Agent가 Observation을 통해 자신의 State를 알게 되면 이를 바탕으로 Action을 취함

Agent: 모델 / cumulative result를 maximize 하는 것을 목표로 함

Reward: Agent가 학습할 수 있는 스칼라 형태의 정보

History: Agent와 관련된 (Observation, Reward, Action)의 쌍이 순차적으로 기록된 것

State: 다음에 어떤 Action을 취할지 결정하기 위해 쓰이는 정보 / History의 함수형으로 표현 가능(History 내에서 뽑아 쓰는 느낌이기 때문)

Policy: Agent의 행동을 규정 / State와 Action을 mapping 해주는 느낌

Value Function: Policy π를 따라 진행했을 때 총얼마의 reward를 받게 될 지에 대한 기댓값

Value Function

##

강화 학습에서는 MDP란 의사결정 과정을 모델링하는 틀이 사용됩니다. 그렇기에 MDP에 대한 확실한 개념 정리가 필요합니다!

4. Markov State

S(1)부터 S(t)까지 모든 상태가 주어져있어도 결국 S(t+1)로 가는 확률은 S(t)의 영향만 받는 상태를 말함

그러므로 Markov State라면 고려해야 할 데이터양이 줄어들어 효율적인 계산이 가능합니다.

5. Markov Process

memoryless random process

Markov State로 상황을 한정했기 때문에 <State, State Transition Probability> tuple로 전체 의사결정 process를 표현할 수 있음

6. Markov Reward Process

간단하게 생각하면 Markov Process + reward

어떠한 다음 action이 궁극적인 목표를 이루기 위해 얼마나 기여할 수 있는지에 대한 정량화된 값을 나타내는 reward가 추가됨

<State, State Transition Probability, Reward, Discount Factor> tuple로 전체 의사결정 process를 표현할 수 있음

Discount Factor: 0~1의 값을 가질 수 있으며, 시간이 지날수록 reward의 가치를 떨어뜨리는 역할(만약에 Discount Factor가 0이면 가장 근처의 reward만 고려됨)

[Value Function에 Bellman Equation]
반응형

저작자표시

'IT > 외부강의' 카테고리의 다른 글

[외부 강의] TensorFlow 기반 딥러닝의 이해(2) (0) 2021.08.07

[외부 강의] TensorFlow 기반 딥러닝의 이해(1) (0) 2021.08.06
댓글
관련글
- [외부 강의] TensorFlow 기반 딥러닝의 이해(2) 2021.08.07
- [외부 강의] TensorFlow 기반 딥러닝의 이해(1) 2021.08.06
맨 위로

Breath everything
이것 저것

[외부 강의] 강화학습(Reinforcement Learning)(1)

1. 강화 학습(Reinforcement Learning)이란...?

2. 강화학습(Reinforcement Learning)의 특징

3. 강화학습(Reinforcement Learning) 용어 정리

4. Markov State

5. Markov Process

6. Markov Reward Process

[Value Function에 Bellman Equation]

'IT > 외부강의' 카테고리의 다른 글

티스토리툴바

[외부 강의] TensorFlow 기반 딥러닝의 이해(2) (0)	2021.08.07
[외부 강의] TensorFlow 기반 딥러닝의 이해(1) (0)	2021.08.06

[외부 강의] 강화학습(Reinforcement Learning)(1)

1. 강화 학습(Reinforcement Learning)이란...?

2. 강화학습(Reinforcement Learning)의 특징

3. 강화학습(Reinforcement Learning) 용어 정리

4. Markov State

5. Markov Process

6. Markov Reward Process

[Value Function에 Bellman Equation]

'IT > 외부강의' 카테고리의 다른 글

관련글

티스토리툴바