05 강화학습

1. MDP and Planning (MDP와 계획)

규칙을 완벽히 알 때의 최적 전략 찾기

강화학습의 기초가 되는 마르코프 결정 과정(MDP)과 이를 해결하는 고전적인 방법론을 다룬다.

순차적 의사결정 (Sequential Decision Making)
- 에이전트(Agent)가 환경(World)과 상호작용하며 보상(Reward)의 총합을 최대화하는 행동(Action)을 선택하는 과정이다.
마르코프 결정 과정 (MDP)
- 구성요소: 상태( $S$ ), 행동( $A$ ), 전이 확률( $P$ ), 보상( $R$ ), 감가율( $γ$ )
- 마르코프 성질: 미래는 오직 현재 상태에만 의존하며 과거와는 무관하다는 가정
가치 함수 (Value Function)
- 상태 가치 함수 $V (s)$ : 특정 상태에서 시작했을 때 기대되는 미래 보상의 총합
- 벨만 방정식 (Bellman Equation): 현재 가치와 미래 가치 사이의 관계식
계획 (Planning) 알고리즘
- ==환경의 모델( $P, R$ )을 완벽히 알 때 최적 정책을 찾는 방법== (Dynamic Programming)
- 정책 반복 (Policy Iteration): 정책 평가(Evaluation)와 정책 발전(Improvement)을 반복하여 수렴
- 가치 반복 (Value Iteration): 벨만 최적 방정식을 이용해 가치 함수를 반복적으로 업데이트하여 최적 가치와 정책을 도출

규칙을 모를 때, 직접 해보면서 이 상황이 얼마나 좋은지 평가하기

환경의 모델(전이 확률, 보상 함수)을 모르는 상태에서 경험(데이터)을 통해 정책의 가치를 평가하는 방법을 다룬다.

몬테카를로 (Monte Carlo, MC)
- 에피소드가 끝날 때까지 기다린 후, 실제 얻은 리턴( $G_{t}$ )의 평균으로 가치를 추정
- 특징: 비편향(Unbiased) 추정량이지만 분산(Variance)이 높음. 에피소드가 끝나야만 학습 가능
시간차 학습 (Temporal Difference, TD)
- 에피소드가 끝나지 않아도 다음 스텝의 추정치를 이용해 현재 가치를 업데이트 (Bootstrapping)
- 특징: 편향(Biased)되지만 분산이 낮음, 실시간 학습 가능
MC vs TD
- MC는 전체 에피소드 완료 필요, 높은 분산, 편향 없음
- TD는 매 스텝 학습 가능, 낮은 분산, 초기에는 편향 존재

평가를 바탕으로 더 나은 행동 선택하기

모델 없이 최적의 정책(Policy)을 찾아내는 알고리즘을 다룬다.

탐험(Exploration) vs 활용(Exploitation)
- 이미 알고 있는 좋은 행동만 할 것인가(활용), 새로운 가능성을 시도할 것인가(탐험)의 딜레마
- ( $ϵ$ -greedy 정책 사용)
SARSA (On-Policy)
- 현재 정책을 따르면서 얻은 경험 ( $s, a, r, s^{'}, a^{'}$ )을 이용해 Q함수를 업데이트
- 자신이 수행하는 정책을 평가하고 개선함
Q-Learning (Off-Policy)
- 행동은 탐험적 정책을 따르지만, 학습은 최적 가치(max Q)를 목표로 함 ( $s, a, r, s^{'}$ )
- Maximization Bias: 최대값을 추정치로 사용하기 때문에 가치를 과대평가하는 경향이 있음
- → Double Q-Learning으로 해결 (평가와 선택을 분리)

상태 공간이 너무 커서 테이블(표) 형태로 가치를 저장할 수 없을 때, 함수(주로 신경망)를 이용해 근사하는 방법을 다룬다.

필요성
- 바둑이나 자율주행처럼 상태가 무수히 많은 경우 테이블로 $Q (s, a)$ 를 모두 저장할 수 없음
선형 함수 근사 (Linear VFA)
- 상태를 특징 벡터(Feature Vector)로 변환하고 가중치와의 선형 결합으로 가치를 근사
최적화
- 실제 가치(또는 타겟)와 근사한 가치의 차이(MSE)를 줄이는 방향으로 경사 하강법(SGD) 사용
Deadly Triad (죽음의 3요소)
- 다음 3가지가 결합되면 학습이 발산(불안정)할 위험이 있음
1. 함수 근사 (Function Approximation)
2. 부트스트래핑 (Bootstrapping, 예: TD)
3. 오프 폴리시 (Off-Policy) 학습

딥러닝(Neural Networks)을 강화학습에 성공적으로 적용한 DQN과 그 발전 모델들을 다룬다.

DQN (Deep Q-Network)
- 딥러닝을 이용해 Q함수를 근사. 아타리(Atari) 게임에서 인간 수준 성능 달성
DQN의 핵심 기술 (불안정성 해결)
1. Experience Replay (경험 재사용)
  - 데이터를 버퍼에 저장하고 무작위로 샘플링하여 학습
  - 데이터 간의 상관관계(Correlation)를 끊음
2. Fixed Q-Targets (타겟 고정)
  - 타겟 값을 계산하는 네트워크를 일정 기간 고정시켜 학습 목표가 흔들리는 것을 방지
발전된 알고리즘
- Double DQN: Q-Learning의 과대평가 문제 해결
- Prioritized Experience Replay: 중요한(오차가 큰) 데이터를 더 자주 학습
- Dueling DQN: 가치 함수를 상태 가치( $V$ )와 어드밴티지( $A$ )로 나누어 학습

행동(정책) 자체를 직접 조정

가치 함수를 거치지 않고, 정책(Policy) 자체를 파라미터화하여 직접 최적화하는 방법을 다룬다.

기본 개념
- 정책 $π_{θ} (a ∣ s)$ 를 신경망 등으로 만들고, 보상을 최대화하는 방향으로 파라미터 $θ$ 를 경사 상승법으로 업데이트
장점
- 연속적인 행동 공간(Continuous Action Space) 처리에 유리, 확률적 정책 학습 가능
REINFORCE 알고리즘
- 몬테카를로 기반의 가장 기본적인 정책 경사 알고리즘
베이스라인 (Baseline)
- 리턴에서 특정 값(베이스라인, 주로 $V (s)$ )을 빼주어 학습의 분산(Variance)을 줄이는 기법
Actor-Critic (액터-크리틱)
- Actor: 정책을 업데이트 (행동 결정)
- Critic: 가치 함수를 학습하여 Actor에게 피드백 제공 (평가)
발전된 알고리즘
- TRPO (Trust Region Policy Optimization): 정책이 너무 급격하게 변하지 않도록 KL Divergence 제약 조건을 둠 (단조로운 성능 향상 보장)
- PPO (Proximal Policy Optimization): TRPO의 복잡한 계산을 단순화(Clipping)하여 성능과 구현 용이성을 모두 잡은 현재 가장 대중적인 알고리즘