- Causality
- 서울대학교 이상학 교수님
1. Basics
1.1. 인과관계(Causality)란 무엇인가?
단순히 A와 B가 같이 움직이는 것(상관관계)이 아니라, “A를 바꾸면 B도 변하는가?”를 따지는 것이다. 단순히 패턴을 찾는 것(머신러닝)을 넘어, 어떤 행동을 해야 목표를 달성할지 판단하기 위해 필요하다.
-
정의
- 하나의 사건, 상태, 객체(원인)가 다른 것(결과)의 생성에 기여하는 영향력이다.
- 원인은 결과에 부분적으로 책임이 있으며, 결과는 원인에 부분적으로 의존한다.
- 단순한 연관성(Association, Linked to)과는 다르며, ‘증가시킨다’, ‘감소시킨다’와 같은 변화를 의미한다.
-
왜 공부하는가?
- 과학(Science)의 정의 자체가 일반적인 진리나 법칙(Laws)의 작동을 다루는 지식 체계이며, 여기서 법칙은 곧 인과적 메커니즘을 의미한다.
- 자연과학뿐만 아니라 사회과학, 경제학, 공중보건, 그리고 정밀한 제어가 필요한 공학(Engineering)에서도 필수적이다.
-
AI/ML/DS와의 관계
- Machine Learning
- 주로 상관관계(Correlation, )를 학습한다.
- 하지만 연관성은 인과성이 아니다.
- Artificial Intelligence
- 목표 달성을 위해 행동(Action)을 취하는 에이전트(예: 강화학습)를 다루므로 인과적 사고가 필요하다.
- Data Science
- 데이터로부터 인과적 결론을 도출하는 것이 중요하다.
- Machine Learning
1.2. Pearl의 인과 계층 (Causal Hierarchy)
Judea Pearl 교수가 제시한 인과관계의 3단계 계층이다.
-
Level 1: 관측 (Associational/Observational)
- 보는 것
- “서로 관련이 있는가?”
- (상관관계)
-
Level 2: 개입 (Interventional/Experimental)
- 하는 것
- “내가 이것을 하면 어떻게 되는가?”
- (도구 사용, 실험)
-
Level 3: 반사실 (Counterfactual)
- 상상하는 것
- “만약 내가 다르게 했더라면 어떻게 되었을까?”
- (상상, 후회)
- 이게 가장 어렵고 중요하다.
1.3. 심슨의 역설 (Simpson’s Paradox)
관찰된 데이터만으로는 잘못된 결론을 내릴 수 있음을 보여주는 대표적인 사례이다. 숨겨진 요인(교란 변수)이 데이터를 왜곡했기 때문이다.
-
사례: 신장 결석(Kidney Stone) 환자에게 처방 A와 B 중 어느 것이 더 효과적인가?
- 전체 데이터: 처방 B의 성공률이 더 높아 보임
- 그룹별 데이터 (결석 크기 작음/큼): 각 그룹에서는 처방 A의 성공률이 더 높음
-
원인
- 결석 크기(Stone Size)가 처방 선택과 치료 결과 모두에 영향을 미치는 교란 변수(Confounding Variable)로 작용했기 때문이다.
- (의사들이 상태가 심각한 큰 결석 환자에게 처방 A를 더 많이 사용함)
-
해결
- 무작위 배정(Randomized): 처방을 무작위로 결정하면(), 결석 크기가 처방 선택에 영향을 주지 못하므로 진정한 인과 효과(A가 더 좋음)를 파악할 수 있다.
-
교훈
- 인과 분석은 데이터만으로는 불가능하며 배경지식(Subject-matter knowledge)이 필요하다.
- 동일한 데이터라도 인과 구조가 다르면 다르게 분석해야 한다.
- 순수하게 통계적인 규칙만으로는 인과 분석을 수행할 수 없다.
1.4. 인과 추론의 형식화 (Formalizing Causality)
현실의 인과관계를 수학적으로 모델링하기 위한 두 가지 주요 프레임워크가 있다.
A. 잠재적 결과 프레임워크(PO)
둘 중 하나만 경험한다. 나머지 하나는 알 수 없다. 이를 결측치(Missing Data) 문제로 보고 푼다.
-
잠재적 결과 프레임워크(Potential Outcome Framework, PO)
- Neyman과 Rubin에 의해 발전됨 (Neyman-Rubin Causal Model)
-
핵심 개념
- 잠재적 결과 (): 각 개체(Unit)에 대해 처치(Treatment)를 받지 않았을 때의 결과 와 받았을 때의 결과 이 존재한다고 가정한다.
-
인과 추론의 근본적 문제 (Fundamental Problem of Causal Inference)
- 현실에서는 각 개체에 대해 와 중 하나만 관측할 수 있다. 나머지 하나는 결측치(Missing Data)가 된다.
- 따라서 인과 추론은 본질적으로 결측 데이터 문제(Missing Data Problem)로 볼 수 있다.
B. 구조적 인과 모델(SCM)
변수들의 관계를 그래프(화살표)로 그린다. do(⋅) 연산으로 그래프에서 특정 원인을 강제로 고정했을 때의 파급 효과를 계산한다.
-
구조적 인과 모델(Structural Causal Model, SCM)
- Judea Pearl에 의해 발전됨
-
핵심 개념
- 구조적 방정식: 변수들 간의 관계를 결정론적 함수로 표현한다. () 여기서 는 부모 변수(직접적 원인), 는 외생 변수(노이즈)이다.
- 인과 그래프 (Causal Diagram/DAG): 변수 간의 인과관계를 화살표로 시각화한다.
-
개입 (Intervention) - 연산자
- 는 변수 를 특정 값으로 강제로 고정하는 행위이다.
- 그래프 상에서는 로 들어오는 모든 화살표를 제거하고 의 값을 로 고정하는 것으로 표현된다. 이는 관찰(Seeing)과 개입(Doing)의 차이를 명확히 보여준다.
-
특징: 데이터 생성 과정을 구조적으로 모델링하며, 반사실적 추론과 개입을 명시적으로 지원한다.
2. Two Causal Frameworks
- 요약 (Summary)
- 조정(Adjustment): PO의 비교란 가정과 SCM의 조정 기준(백도어 등)은 모두 공변량 조정을 통해 인과 효과를 식별하기 위한 논리적 근거를 제공한다.
- ATE와 CATE: CATE는 특정 공변량 조건 하의 효과이며, 이를 전체 분포에 대해 평균 내면 ATE가 된다.
- 추정 기법: 성향 점수를 활용한 IPW, 그리고 회귀 모델과 IPW를 결합하여 안정성을 높인 이중 강건(Doubly Robust) 추정량이 널리 사용된다.
2.1. 잠재적 결과 프레임워크(PO)
처치(Treatment) 전후의 잠재적 결과를 비교하는 데 초점을 둔다.
-
SUTVA (Stable Unit Treatment Value Assumption)
- 인과 추론을 위해 필요한 기본적인 가정이다.
- 상호 간섭 없음 (No Interference)
- 나의 결과가 타인의 처치 여부에 영향을 받지 않아야 한다.
- (위반 사례: 백신 접종의 집단 면역 효과, SNS 상의 전파 등)
- 처치의 일관성 (Consistency)
- 처치의 ‘버전’이 하나여야 한다.
- 관측된 처치()가 동일하다면, 관측된 결과()는 해당 잠재적 결과()와 같아야 한다.
-
인과적 추정량 (Causal Estimands)
- ATE (Average Treatment Effect)
- 전체 집단에 대한 평균 처치 효과 ()
- CATE (Conditional ATE)
- 특정 공변량()을 가진 집단의 평균 처치 효과
- ATT
- 처치를 받은 집단에 대한 평균 처치 효과
- ATE (Average Treatment Effect)
-
무작위 배정 (Randomized Experiments)
- 무작위 배정은 관측된 공변량()뿐만 아니라 관측되지 않은 공변량()까지 균형을 맞춘다.
- Unconfoundedness (교란 없음)
- 처치가 잠재적 결과와 독립임을 보장한다. ()
- 따라서 연관성이 곧 인과성을 의미하게 된다.
-
관찰 연구(Observational Studies)에서의 가정
- No Unmeasured Confounding (비교란 가정)
- 공변량 를 통제했을 때, 처치는 마치 무작위로 배정된 것과 같아야 한다. ()
- Positivity (Overlap, 긍정성/중첩)
- 모든 공변량 값에 대해 처치군과 대조군이 존재할 확률이 0이나 1이 아니어야 한다. ()
- No Unmeasured Confounding (비교란 가정)
-
식별 (Identification)
- 위 두 가정을 만족하면, 인과 효과(ATE)를 관측된 데이터의 조건부 기댓값 차이로 계산할 수 있다.
2.2. 구조적 인과 모델(SCM)
그래프(DAG)를 통해 변수 간의 인과 관계와 가정을 명확히 시각화한다.
-
인과 그래프와 연산
- 모델이 미지수일 때, 그래프()를 통해 (관측 분포)에서 (개입 분포)를 도출하는 것이 목표이다.
- Truncated Factorization: 마르코프 가정 하에서, 변수 에 개입()하면 로 들어오는 화살표가 제거되고, 나머지 조건부 확률들의 곱으로 분포가 표현된다.
-
d-separation
- 그래프 상에서의 분리(Separation)는 확률 분포 상의 조건부 독립(Conditional Independence)을 의미한다.
-
백도어 기준 (Back-door Criterion)
- 관측된 연관성(Association)은 ‘인과(Causal)‘와 ‘교란(Confounding)‘이 섞여 있다.
- 변수 집합 가 다음 두 조건을 만족하면 백도어 기준을 충족하며, 이를 통해 교란을 제거하고 인과 효과를 식별할 수 있다.
- 의 어떤 노드도 의 후손(descendant)이 아님 (인과 경로를 방해하지 않음)
- 가 로 들어가는 화살표를 포함한 모든 경로(교란 경로)를 차단함
-
조정 기준 (Adjustment Criterion)
- 백도어 기준보다 더 일반적이고 완전한 기준이다.
- SCM의 그래프적 기준은 PO의 ‘Unconfoundedness’ 가정과 수학적으로 동치이다.
2.3. 효율적인 추정을 위한 방법론 (Estimation Methods)
인과 효과를 식별한 후, 실제 데이터로 값을 추정하는 방법들이다.
-
회귀 분석 기반 추정 (Regression Estimator)
- 처치군()과 대조군() 각각에 대해 결과()를 예측하는 회귀 모델()을 학습하여 차이를 계산한다.
-
역확률 가중치 (Inverse Probability Weighting, IPW)
- 성향 점수 (Propensity Score, )를 사용한다.
- 각 샘플에 처치를 받을 확률의 역수를 가중치로 부여하여, 마치 무작위 실험을 한 것과 같은 가상의 모집단을 만들어 ATE를 추정한다.
-
이중 강건 추정량 (Doubly Robust Estimator)
- 회귀 분석 모델과 IPW 방식을 결합한 방법이다.
- 장점: ==결과 예측 모델()이나 성향 점수 모델() 중 하나만이라도 정확하면 일관된(consistent) 추정치를 얻을 수 있어, 모델 설정 오류(misspecification)에 강건한다.==
3. Various Methods and Their Characteristics
- 요약 (Summary)
- 인과 추론을 위한 다양한 도구들을 상황에 맞게 선택해야 함을 강조한다.
- Matching: 관측된 공변량이 유사한 대조군을 찾아 비교
- IV: 외부적 변동(도구 변수)을 이용해 내생성(교란) 문제 해결
- DiD: 집단 간의 시간 경과에 따른 변화량 차이를 비교
- RDD: 임계값 기반의 처치 할당 규칙을 활용하여 국소적 효과 추정
- SCM: 여러 대조군을 조합하여 최적의 가상 대조군을 생성해 비교
3.1. 매칭 (Matching)
-
개념
- 처치군(Treated unit)과 유사한 특성을 가진 대조군(Control unit)을 찾아 비교함으로써 반사실(Counterfactual)을 추론하는 비모수적(nonparametric) 방법이다.
-
목적
- 주로 처치 집단에 대한 평균 처치 효과(ATT)를 추정하는 데 사용된다.
-
전제 조건
- 결과가 관측되기 전에 비교 가능한 대조군을 식별해야 한다.
- Unconfoundedness (비교란 가정): 관측된 변수들만으로 교란 요인을 통제할 수 있다고 가정한다.
-
방법
- 연구자가 매칭 비율(1:1 vs 1:N), 복원 여부, 유사성 척도(거리, 성향 점수 등)를 결정하여 수행한다.
-
사례
- NSW 직업 훈련 프로그램 (실험 데이터와 관측 데이터를 매칭하여 비교)
3.2. 도구 변수 (Instrumental Variables, IV)
-
동기
- 처치 변수()와 결과 변수() 사이에 관측되지 않은 교란 변수(Unobserved Confounder)가 존재하여 내생성(Endogeneity) 문제가 발생할 때 사용한다.
-
핵심 요소
- 도구 변수()는 다음 두 조건을 만족해야 한다.
- 관련성(Relevance): 도구 변수는 처치 변수()에 영향을 미쳐야 한다.
- 배제 제약(Exclusion Restriction): 도구 변수는 오직 처치 변수를 통해서만 결과 변수()에 영향을 미쳐야 하며, 직접적으로 영향을 주면 안 된다.
-
추정 방법 (2SLS):
- 1단계: 를 로 회귀분석하여 의 변동 중 로 설명되는 부분(외생적 부분)을 분리해낸다.
- 2단계: 1단계에서 얻은 예측값()으로 를 회귀분석한다.
-
LATE (Local Average Treatment Effect)
- 처치가 도구 변수에 의해 결정되는 집단(Compliers)에 대한 국소적 평균 처치 효과를 추정한다.
3.3. 회귀 불연속 설계 (Regression Discontinuity Design, RDD)
-
개념: 처치 여부가 특정 변수(Running variable)의 임계값(Cutoff)을 기준으로 불연속적으로 결정되는 상황을 이용하는 준실험적 설계이다.
-
가정: 임계값 근처에 있는 개체들은 처치 여부를 제외하고는 서로 매우 유사하다(관측되지 않은 교란 변수들이 임계값 근처에서 부드럽게 변한다)고 가정한다.
-
추정: 임계값 바로 위와 아래의 데이터를 비교하여 국소적 인과 효과(Local ATE)를 추정한다.
-
사례: 시험 점수 커트라인에 따른 장학금 수여 효과, 득표율 50% 기준 당락에 따른 정당의 영향력 분석 등.
3.4. 이중 차분법 (Differences-in-Differences, DiD)
-
개념: 두 집단(처치군, 대조군)의 두 시점(전, 후) 데이터를 이용하여, 시간의 흐름에 따른 변화량의 차이를 비교한다.
-
핵심 가정 (평행 추세 가정, Parallel Trends): 만약 처치가 없었다면, 처치군의 결과 변수 추세는 대조군과 동일하게 변했을 것이라는 가정이다.
-
계산: (처치군의 전후 차이) - (대조군의 전후 차이)를 통해 인과 효과를 산출한다.
-
사례: Card & Krueger (1994)의 최저임금 인상이 고용에 미치는 영향 연구 (뉴저지 vs 펜실베이니아)
3.5. 합성 대조군 방법 (Synthetic Control Method, SCM)
-
동기: 단일 처치 단위(예: 특정 주, 국가)만 존재하고, 비교할만한 명확한 단일 대조군이 없거나 평행 추세 가정이 의심스러울 때 사용한다.
-
방법: ==여러 잠재적 대조군(Donor pool)들의 가중 평균(Weighted average)을 통해 처치군과 처치 이전 시점의 특성이 가장 유사한 가상의 합성 대조군을 생성한다.==
-
추정: 처치 시점 이후, 실제 처치군과 합성 대조군의 결과 차이를 인과 효과로 본다.
-
사례: 캘리포니아 담배 규제 정책(Proposition 99)의 효과 분석 (다른 주들의 데이터를 조합하여 ‘합성 캘리포니아’를 생성 후 비교)