메모

  • 상관도

    • 두 변량 사이의 관계를 대략적으로 파악할 수 있는 그래프
  • 상관관계의 통계량

    • 상관도 모양이 대체로 직선인 경우: 단순상관계수
    • 상관도 모양이 곡선인 경우: 상관비
  • 상관분석

    • 상관계수를 이용하여 변수와 변수 사이의 직선 관계를 분석하는 것
  • 회귀분석

    • 독립변수와 종속변수의 구체적인 함수 형태를 찾고, 독립변수로부터 종속변수를 예측
    • 독립변수: 이때 두 변수 중 다른 변수에 영향을 주는 변수
      • 단순회귀분석: 독립변수가 한 개일 때
    • 종속변수: 영향을 받는 변수
  • 단순선형회귀분석

    • 독립변수와 종속변수의 관계가 직선
  • 선형회귀

    • 원인()과 결과() 사이의 관계를 가장 잘 설명하는 직선 하나를 긋는 것
  • 선형방정식

    • 변수()의 차수(power)가 1인 방정식

1. 상관분석

1.1. 표본상관계수

  • 정의 및 개념

    • 두 변수 사이의 선형적인 관계(방향과 강도)를 측정하는 지표이다.
    • 모집단의 모상관계수()를 추정하기 위해 표본으로부터 구한 통계량()이다.
    • 피어슨 상관계수(Pearson correlation coefficient)가 가장 일반적으로 사용된다.
  • 공식

    • 공분산을 각 변수의 표준편차의 곱으로 나눈 값이다.
  • 성질

    • 단위(Scale)의 영향을 받지 않는다.
    • 항상 사이의 값을 가진다. ()
    • : 양의 상관관계 (하나가 증가하면 다른 하나도 증가)
    • : 음의 상관관계 (하나가 증가하면 다른 하나는 감소)
    • : 선형 상관관계가 존재하지 않음 (무상관)
    • 변수의 위치가 바뀌거나 선형 변환을 해도 상관계수 값은 변하지 않는다.
  • 스피어만 상관계수

    • 데이터가 서열 척도(순위)일 때 사용하는 비모수적 방법이다.

1.2. 상관계수의 검정

  • 가설 설정

    • 귀무가설(): (두 변수 사이에 상관관계가 없다)
    • 대립가설(): (두 변수 사이에 상관관계가 있다)
  • 검정통계량

    • 상관계수 자체의 분포를 알 수 없으므로, t-분포를 따르는 통계량으로 변환하여 사용한다.
    • (자유도 인 t-분포를 따름)
  • 판정

    • 산출된 t값의 절댓값이 임계값보다 크거나, p-value가 유의수준보다 작으면 귀무가설을 기각한다.
  • 상관분석의 한계

    • 인과성(Causality)을 입증하지 않는다.
    • 비선형 관계(곡선 등)는 반영하지 못한다.
    • 이상치(Outlier)나 데이터 구조(분리된 소표본)에 민감할 수 있다.
    • 허위상관(제3의 변수에 의한 상관) 가능성을 주의해야 한다. (이 경우 편상관계수 활용)

2. 회귀분석

2.1. 단순선형회귀모형

  • 정의

    • 독립변수(원인, )와 종속변수(결과, ) 사이의 인과관계를 직선 형태의 함수로 규명하는 분석 방법이다.
  • 모형의 식

    • ()
    • : 절편 (Intercept), : 기울기 (Slope, 회귀계수)
    • : 오차항 (Error term)
  • 기본 가정

    • 오차항()은 서로 독립적이며, 평균이 0이고 분산이 인 정규분포를 따른다. ()
    • 독립변수 는 확정된 상수값으로 가정한다.

2.2. 추정한 회귀직선의 정확도

  • 변동의 분해 (ANOVA 개념)

    • 총제곱합(SST) = 회귀제곱합(SSR) + 오차(잔차)제곱합(SSE)
  • 결정계수 (, Coefficient of Determination)

    • 추정된 회귀직선이 전체 데이터를 얼마나 잘 설명하는지를 나타내는 지표이다.
    • 의 범위를 가지며, 1에 가까울수록 설명력이 높다.
    • 단순회귀분석에서 결정계수는 표본상관계수의 제곱()과 같다.
  • 표준오차와 분산 추정

    • 오차항의 분산 의 추정량인 평균제곱오차(MSE, )를 사용한다.
    • 추정의 표준오차(SE of estimate):
  • F 검정: 모형 전체의 적합도를 검정한다. ()

3. 회귀계수의 추정과 검정

3.1. 회귀계수의 추정

  • 점추정 (Point Estimation)

    • 최소제곱법 (LSE, Least Squares Method): 잔차의 제곱합()을 최소화하는 를 찾는다.
    • 추정 공식
      • 기울기 추정량:
      • 절편 추정량:
    • 추정 회귀식:
  • 구간추정 (Interval Estimation)

    • 회귀계수 및 평균반응값 에 대한 신뢰구간을 구한다.
    • 회귀계수의 추정량은 정규분포를 따르며, 모분산을 모를 경우 t-분포를 이용하여 신뢰구간을 계산한다.

3.2. 회귀계수의 검정

  • 검정 개요: 독립변수 가 종속변수 에 유의한 영향을 미치는지 확인하기 위해 기울기 에 대한 가설검정을 수행한다.

  • 가설

    • (영향이 없다)
    • (영향이 있다)
  • 검정통계량 (t-검정)

    • 여기서 (기울기의 표준오차)
    • 자유도 인 t-분포를 따른다.
  • 가정의 검증: 회귀분석의 신뢰성을 위해 잔차 분석을 통해 다음을 확인해야 한다.

    • 정규성: 잔차가 정규분포를 따르는가?
    • 독립성: 잔차들 간에 상관관계가 없는가? (Durbin-Watson 통계량 등으로 자기상관 확인)
    • 등분산성: 값에 관계없이 잔차의 분산이 일정한가?

3.3. 상관계수와 회귀계수의 관계

  • 부호의 일치

    • 단순선형회귀에서 회귀계수(기울기) 와 상관계수 은 항상 같은 부호를 가진다.
    • (양의 상관관계)
    • (음의 상관관계)
    • (무상관)
  • 함수 관계

    • 회귀계수와 상관계수는 다음 식의 관계를 가진다.
    • (여기서 는 각 변수의 표본표준편차)
    • 따라서 회귀계수의 유의성 검정() 결과는 상관계수의 유의성 검정() 결과와 동일하다.