• 강화학습(Reinforcement Learning)
    • 고려대학교 이병준 교수님

1. MDP and Planning (MDP와 계획)

규칙을 완벽히 알 때의 최적 전략 찾기

강화학습의 기초가 되는 마르코프 결정 과정(MDP)과 이를 해결하는 고전적인 방법론을 다룬다.

  • 순차적 의사결정 (Sequential Decision Making)

    • 에이전트(Agent)가 환경(World)과 상호작용하며 보상(Reward)의 총합을 최대화하는 행동(Action)을 선택하는 과정이다.
  • 마르코프 결정 과정 (MDP)

    • 구성요소: 상태(), 행동(), 전이 확률(), 보상(), 감가율()
    • 마르코프 성질: 미래는 오직 현재 상태에만 의존하며 과거와는 무관하다는 가정
  • 가치 함수 (Value Function)

    • 상태 가치 함수 : 특정 상태에서 시작했을 때 기대되는 미래 보상의 총합
    • 벨만 방정식 (Bellman Equation): 현재 가치와 미래 가치 사이의 관계식
  • 계획 (Planning) 알고리즘

    • ==환경의 모델()을 완벽히 알 때 최적 정책을 찾는 방법== (Dynamic Programming)
    • 정책 반복 (Policy Iteration): 정책 평가(Evaluation)와 정책 발전(Improvement)을 반복하여 수렴
    • 가치 반복 (Value Iteration): 벨만 최적 방정식을 이용해 가치 함수를 반복적으로 업데이트하여 최적 가치와 정책을 도출

2. Model-Free Policy Evaluation (모델 프리 정책 평가)

규칙을 모를 때, 직접 해보면서 이 상황이 얼마나 좋은지 평가하기

환경의 모델(전이 확률, 보상 함수)을 모르는 상태에서 경험(데이터)을 통해 정책의 가치를 평가하는 방법을 다룬다.

  • 몬테카를로 (Monte Carlo, MC)

    • 에피소드가 끝날 때까지 기다린 후, 실제 얻은 리턴()의 평균으로 가치를 추정
    • 특징: 비편향(Unbiased) 추정량이지만 분산(Variance)이 높음. 에피소드가 끝나야만 학습 가능
  • 시간차 학습 (Temporal Difference, TD)

    • 에피소드가 끝나지 않아도 다음 스텝의 추정치를 이용해 현재 가치를 업데이트 (Bootstrapping)
    • 특징: 편향(Biased)되지만 분산이 낮음, 실시간 학습 가능
  • MC vs TD

    • MC는 전체 에피소드 완료 필요, 높은 분산, 편향 없음
    • TD는 매 스텝 학습 가능, 낮은 분산, 초기에는 편향 존재

3. Model-Free Control (모델 프리 제어)

평가를 바탕으로 더 나은 행동 선택하기

모델 없이 최적의 정책(Policy)을 찾아내는 알고리즘을 다룬다.

  • 탐험(Exploration) vs 활용(Exploitation)

    • 이미 알고 있는 좋은 행동만 할 것인가(활용), 새로운 가능성을 시도할 것인가(탐험)의 딜레마
    • (-greedy 정책 사용)
  • SARSA (On-Policy)

    • 현재 정책을 따르면서 얻은 경험 ()을 이용해 Q함수를 업데이트
    • 자신이 수행하는 정책을 평가하고 개선함
  • Q-Learning (Off-Policy)

    • 행동은 탐험적 정책을 따르지만, 학습은 최적 가치(max Q)를 목표로 함 ()
    • Maximization Bias: 최대값을 추정치로 사용하기 때문에 가치를 과대평가하는 경향이 있음
    • Double Q-Learning으로 해결 (평가와 선택을 분리)

4. Function Approximation (함수 근사)

상태 공간이 너무 커서 테이블(표) 형태로 가치를 저장할 수 없을 때, 함수(주로 신경망)를 이용해 근사하는 방법을 다룬다.

  • 필요성

    • 바둑이나 자율주행처럼 상태가 무수히 많은 경우 테이블로 를 모두 저장할 수 없음
  • 선형 함수 근사 (Linear VFA)

    • 상태를 특징 벡터(Feature Vector)로 변환하고 가중치와의 선형 결합으로 가치를 근사
  • 최적화

    • 실제 가치(또는 타겟)와 근사한 가치의 차이(MSE)를 줄이는 방향으로 경사 하강법(SGD) 사용
  • Deadly Triad (죽음의 3요소)

    • 다음 3가지가 결합되면 학습이 발산(불안정)할 위험이 있음
    1. 함수 근사 (Function Approximation)
    2. 부트스트래핑 (Bootstrapping, 예: TD)
    3. 오프 폴리시 (Off-Policy) 학습

5. Deep Q Learning (DQN)

딥러닝(Neural Networks)을 강화학습에 성공적으로 적용한 DQN과 그 발전 모델들을 다룬다.

  • DQN (Deep Q-Network)

    • 딥러닝을 이용해 Q함수를 근사. 아타리(Atari) 게임에서 인간 수준 성능 달성
  • DQN의 핵심 기술 (불안정성 해결)

    1. Experience Replay (경험 재사용)
      • 데이터를 버퍼에 저장하고 무작위로 샘플링하여 학습
      • 데이터 간의 상관관계(Correlation)를 끊음
    2. Fixed Q-Targets (타겟 고정)
      • 타겟 값을 계산하는 네트워크를 일정 기간 고정시켜 학습 목표가 흔들리는 것을 방지
  • 발전된 알고리즘

    • Double DQN: Q-Learning의 과대평가 문제 해결
    • Prioritized Experience Replay: 중요한(오차가 큰) 데이터를 더 자주 학습
    • Dueling DQN: 가치 함수를 상태 가치()와 어드밴티지()로 나누어 학습

6. Policy Gradient (정책 경사)

행동(정책) 자체를 직접 조정

가치 함수를 거치지 않고, 정책(Policy) 자체를 파라미터화하여 직접 최적화하는 방법을 다룬다.

  • 기본 개념

    • 정책 를 신경망 등으로 만들고, 보상을 최대화하는 방향으로 파라미터 를 경사 상승법으로 업데이트
  • 장점

    • 연속적인 행동 공간(Continuous Action Space) 처리에 유리, 확률적 정책 학습 가능
  • REINFORCE 알고리즘

    • 몬테카를로 기반의 가장 기본적인 정책 경사 알고리즘
  • 베이스라인 (Baseline)

    • 리턴에서 특정 값(베이스라인, 주로 )을 빼주어 학습의 분산(Variance)을 줄이는 기법
  • Actor-Critic (액터-크리틱)

    • Actor: 정책을 업데이트 (행동 결정)
    • Critic: 가치 함수를 학습하여 Actor에게 피드백 제공 (평가)
  • 발전된 알고리즘

    • TRPO (Trust Region Policy Optimization): 정책이 너무 급격하게 변하지 않도록 KL Divergence 제약 조건을 둠 (단조로운 성능 향상 보장)
    • PPO (Proximal Policy Optimization): TRPO의 복잡한 계산을 단순화(Clipping)하여 성능과 구현 용이성을 모두 잡은 현재 가장 대중적인 알고리즘