• [외부 강의] 강화학습(Reinforcement Learning)(1)

    2021. 8. 9.

    by. ziasu

    반응형

    1. 강화 학습(Reinforcement Learning)이란...?

    • '궁극적인 목표를 이루기 위해서 현 상황에서 어떤 input을 넣어야 할까?'란 문제에 대한 해답을 찾으려는 학습
    • 어린아이가 시행착오를 통해 학습하는 방법과 비슷한 느낌

     

    2. 강화학습(Reinforcement Learning)의 특징

    • Supervised Learning과 다르게 Supervisor(정답을 알려주는 사람)이 없고 reward signal만이 존재
    • Feedback이 즉각적이지 않을 수 있음
    • 어떻게 fitting하느냐에 따라 제공받는 데이터가 다를 수 있음

     

    3. 강화학습(Reinforcement Learning) 용어 정리

    Agent가 Observation을 통해 자신의 State를 알게 되면 이를 바탕으로 Action을 취함

    • Agent: 모델 / cumulative result를 maximize 하는 것을 목표로 함
    • Reward: Agent가 학습할 수 있는 스칼라 형태의 정보
    • History: Agent와 관련된 (Observation, Reward, Action)의 쌍이 순차적으로 기록된 것
    • State: 다음에 어떤 Action을 취할지 결정하기 위해 쓰이는 정보 / History의 함수형으로 표현 가능(History 내에서 뽑아 쓰는 느낌이기 때문)
    • Policy: Agent의 행동을 규정 / State와 Action을 mapping 해주는 느낌
    • Value Function: Policy π를 따라 진행했을 때 총얼마의 reward를 받게 될 지에 대한 기댓값

    Value Function

     

    ##

    강화 학습에서는 MDP란 의사결정 과정을 모델링하는 틀이 사용됩니다. 그렇기에 MDP에 대한 확실한 개념 정리가 필요합니다!

     

    4. Markov State

    • S(1)부터 S(t)까지 모든 상태가 주어져있어도 결국 S(t+1)로 가는 확률은 S(t)의 영향만 받는 상태를 말함
    • 그러므로 Markov State라면 고려해야 할 데이터양이 줄어들어 효율적인 계산이 가능합니다.

     

    5. Markov Process

    • memoryless random process
    • Markov State로 상황을 한정했기 때문에 <State, State Transition Probability> tuple로 전체 의사결정 process를 표현할 수 있음

     

    6. Markov Reward Process

    • 간단하게 생각하면 Markov Process + reward
    • 어떠한 다음 action이 궁극적인 목표를 이루기 위해 얼마나 기여할 수 있는지에 대한 정량화된 값을 나타내는 reward가 추가됨
    • <State, State Transition Probability, Reward, Discount Factor> tuple로 전체 의사결정 process를 표현할 수 있음
    • Discount Factor: 0~1의 값을 가질 수 있으며, 시간이 지날수록 reward의 가치를 떨어뜨리는 역할(만약에 Discount Factor가 0이면 가장 근처의 reward만 고려됨)

    [Value Function에 Bellman Equation]

    반응형

    댓글