메모
-
상관도
- 두 변량 사이의 관계를 대략적으로 파악할 수 있는 그래프
-
상관관계의 통계량
- 상관도 모양이 대체로 직선인 경우: 단순상관계수
- 상관도 모양이 곡선인 경우: 상관비
-
상관분석
- 상관계수를 이용하여 변수와 변수 사이의 직선 관계를 분석하는 것
-
회귀분석
- 독립변수와 종속변수의 구체적인 함수 형태를 찾고, 독립변수로부터 종속변수를 예측
- 독립변수: 이때 두 변수 중 다른 변수에 영향을 주는 변수
- 단순회귀분석: 독립변수가 한 개일 때
- 종속변수: 영향을 받는 변수
-
단순선형회귀분석
- 독립변수와 종속변수의 관계가 직선
-
선형회귀
- 원인()과 결과() 사이의 관계를 가장 잘 설명하는 직선 하나를 긋는 것
-
선형방정식
- 변수()의 차수(power)가 1인 방정식
1. 상관분석
1.1. 표본상관계수
-
정의 및 개념
- 두 변수 사이의 선형적인 관계(방향과 강도)를 측정하는 지표이다.
- 모집단의 모상관계수()를 추정하기 위해 표본으로부터 구한 통계량()이다.
- 피어슨 상관계수(Pearson correlation coefficient)가 가장 일반적으로 사용된다.
-
공식
- 공분산을 각 변수의 표준편차의 곱으로 나눈 값이다.
-
성질
- 단위(Scale)의 영향을 받지 않는다.
- 항상 과 사이의 값을 가진다. ()
- : 양의 상관관계 (하나가 증가하면 다른 하나도 증가)
- : 음의 상관관계 (하나가 증가하면 다른 하나는 감소)
- : 선형 상관관계가 존재하지 않음 (무상관)
- 변수의 위치가 바뀌거나 선형 변환을 해도 상관계수 값은 변하지 않는다.
-
스피어만 상관계수
- 데이터가 서열 척도(순위)일 때 사용하는 비모수적 방법이다.
1.2. 상관계수의 검정
-
가설 설정
- 귀무가설(): (두 변수 사이에 상관관계가 없다)
- 대립가설(): (두 변수 사이에 상관관계가 있다)
-
검정통계량
- 상관계수 자체의 분포를 알 수 없으므로, t-분포를 따르는 통계량으로 변환하여 사용한다.
- (자유도 인 t-분포를 따름)
-
판정
- 산출된 t값의 절댓값이 임계값보다 크거나, p-value가 유의수준보다 작으면 귀무가설을 기각한다.
-
상관분석의 한계
- 인과성(Causality)을 입증하지 않는다.
- 비선형 관계(곡선 등)는 반영하지 못한다.
- 이상치(Outlier)나 데이터 구조(분리된 소표본)에 민감할 수 있다.
- 허위상관(제3의 변수에 의한 상관) 가능성을 주의해야 한다. (이 경우 편상관계수 활용)
2. 회귀분석
2.1. 단순선형회귀모형
-
정의
- 독립변수(원인, )와 종속변수(결과, ) 사이의 인과관계를 직선 형태의 함수로 규명하는 분석 방법이다.
-
모형의 식
- ()
- : 절편 (Intercept), : 기울기 (Slope, 회귀계수)
- : 오차항 (Error term)
-
기본 가정
- 오차항()은 서로 독립적이며, 평균이 0이고 분산이 인 정규분포를 따른다. ()
- 독립변수 는 확정된 상수값으로 가정한다.
2.2. 추정한 회귀직선의 정확도
-
변동의 분해 (ANOVA 개념)
- 총제곱합(SST) = 회귀제곱합(SSR) + 오차(잔차)제곱합(SSE)
-
결정계수 (, Coefficient of Determination)
- 추정된 회귀직선이 전체 데이터를 얼마나 잘 설명하는지를 나타내는 지표이다.
- 의 범위를 가지며, 1에 가까울수록 설명력이 높다.
- 단순회귀분석에서 결정계수는 표본상관계수의 제곱()과 같다.
-
표준오차와 분산 추정
- 오차항의 분산 의 추정량인 평균제곱오차(MSE, )를 사용한다.
- 추정의 표준오차(SE of estimate):
-
F 검정: 모형 전체의 적합도를 검정한다. ()
3. 회귀계수의 추정과 검정
3.1. 회귀계수의 추정
-
점추정 (Point Estimation)
- 최소제곱법 (LSE, Least Squares Method): 잔차의 제곱합()을 최소화하는 와 를 찾는다.
- 추정 공식
- 기울기 추정량:
- 절편 추정량:
- 추정 회귀식:
-
구간추정 (Interval Estimation)
- 회귀계수 및 평균반응값 에 대한 신뢰구간을 구한다.
- 회귀계수의 추정량은 정규분포를 따르며, 모분산을 모를 경우 t-분포를 이용하여 신뢰구간을 계산한다.
3.2. 회귀계수의 검정
-
검정 개요: 독립변수 가 종속변수 에 유의한 영향을 미치는지 확인하기 위해 기울기 에 대한 가설검정을 수행한다.
-
가설
- (영향이 없다)
- (영향이 있다)
-
검정통계량 (t-검정)
- 여기서 (기울기의 표준오차)
- 자유도 인 t-분포를 따른다.
-
가정의 검증: 회귀분석의 신뢰성을 위해 잔차 분석을 통해 다음을 확인해야 한다.
- 정규성: 잔차가 정규분포를 따르는가?
- 독립성: 잔차들 간에 상관관계가 없는가? (Durbin-Watson 통계량 등으로 자기상관 확인)
- 등분산성: 값에 관계없이 잔차의 분산이 일정한가?
3.3. 상관계수와 회귀계수의 관계
-
부호의 일치
- 단순선형회귀에서 회귀계수(기울기) 와 상관계수 은 항상 같은 부호를 가진다.
- (양의 상관관계)
- (음의 상관관계)
- (무상관)
-
함수 관계
- 회귀계수와 상관계수는 다음 식의 관계를 가진다.
- (여기서 는 각 변수의 표본표준편차)
- 따라서 회귀계수의 유의성 검정() 결과는 상관계수의 유의성 검정() 결과와 동일하다.