메모

  • 비모수 분석
    • 모집단이 특정 확률 분포(주로 정규분포)를 따른다는 가정을 하지 않거나, 매우 약한 가정만으로 실시하는 통계 분석 기법

1. 적합도 검정 (Goodness of Fit Test)

  • 정의: 관측된 값들이 어떤 이론적 분포(특정 비율이나 확률분포)를 따르는지 검정하는 방법이다.
  • 특징: 단일 범주형 변수에 대해 사용하며, 관측도수(Observed)와 기대도수(Expected)의 차이를 이용한다.
  • 귀무가설(): 관측값은 특정 이론적 분포를 따른다. (예: )
  • 검정통계량: , 자유도 (: 범주의 수)

예제 9-1 (TV 방송사 시청률)

  • 문제: A, B, C 방송사의 알려진 시청률(30%, 40%, 30%)과 실제 조사된 시청자 수(310명, 420명, 270명, 총 1,000명)가 일치하는지 유의수준 5%로 검정
  • 가설:
  • 계산
    • 기대도수: A(300), B(400), C(300)
    • 검정통계량
  • 결과: 임계값 보다 작으므로 기각 실패
  • 결론: 조사된 시청률은 기존 알려진 비율과 차이가 있다고 할 수 없다. (잘 조사되었다)

예제 9-2 (자동차 색상 선호도)

  • 문제: 흰색, 검정색, 은색, 금색 4가지 자동차 색에 대한 선호도가 모두 똑같은지(동일한 비율인지) 200대를 대상으로 조사하여 유의수준 5%로 검정
  • 가설:
  • 계산
    • 관측도수: 70, 30, 40, 60
    • 기대도수: 각 50 (200 1/4)
    • 검정통계량
  • 결과: 임계값 보다 크므로 기각
  • 결론: 자동차 색에 따라 인기도(선호도)에 차이가 있다.

예제 9-3 (요일별 자동차 접촉 사고)

  • 문제: 일주일 동안 발생한 210건의 접촉 사고가 요일별로 무관한지(즉, 요일별 발생 비율이 동일한지) 유의수준 5%로 검정
  • 데이터: 월(22), 화(33), 수(25), 목(25), 금(37), 토(35), 일(33)
  • 해석: 요일별로 사고 발생 확률이 1/7로 동일한지를 검정하는 적합도 검정 문제이다.

2. 동질성 검정 (Test of Homogeneity)

  • 정의: 미리 고정된 표본 크기를 가진 두 개 이상의 모집단(부분집단)에서, 각 범주에 속하는 비율이 동일한지를 검정한다.
  • 특징: ‘속성 간 비교’를 수행하며, 분할표를 사용합니다. 열(또는 행)의 합계(sub-population 크기)가 고정되어 있다.
  • 귀무가설(): 각 모집단에서 범주의 분포(비율)는 동일하다.
  • 검정통계량: 독립성 검정과 동일한 통계량 사용, 자유도

예제 9-4 (백신 종류별 항체 형성 비율)

  • 문제: 백신 A와 B를 접종한 그룹(각 300명, 500명)에서 1차, 2차, 3차 접종 시 항체가 형성된 비율이 두 백신 간에 동일한지 유의수준 5%로 검정
  • 가설: 백신 A와 B의 접종 차수별 항체 형성 비율 분포는 같다.
  • 계산
    • 합동표본비율을 이용해 기대도수 계산
    • 검정통계량
  • 결과: 임계값 보다 크므로 기각
  • 결론: 백신 A, B의 접종에 대한 항체 형성 비율은 동일하지 않다. (차이가 있다)

예제 9-5 (공장별 제품 만족도)

  • 문제: 세 곳의 공장(공장 1, 2, 3)에서 생산된 제품에 대해 소비자 만족도(매우 만족, 만족, 보통, 불만족, 매우 불만족)의 분포에 차이가 있는지 유의수준 1%로 검정
  • 데이터: 각 공장에서 임의로 추출하여 조사(총 270명)
  • 해석: 공장(모집단) 별로 만족도(범주)의 분포가 같은지를 보는 동질성 검정이다.

예제 9-6 (공장별 불량률 비교)

  • 문제: 세 공장에서 각각 300개, 200개, 200개의 제품을 추출하여 양품과 불량품의 개수를 조사했을 때, 공장 간 불량률에 차이가 있는지 유의수준 5%로 검정
  • 데이터: 불량품 수(21, 15, 20), 양품 수(279, 185, 180)
  • 특이사항: 예제 7-16(모비율 차이 검정 등)과의 차이를 묻고 있으며, 여기서는 3개 이상의 집단이므로 카이제곱 동질성 검정을 사용해야 함을 시사한다.

3. 독립성 검정 (Test of Independence)

  • 정의: 하나의 모집단에서 표본을 추출하여 두 개의 범주형 변수(속성)를 조사했을 때, 두 변수가 서로 독립인지(관련성이 없는지) 검정한다.
  • 특징: 전체 표본 크기()만 고정되어 있고, 행과 열의 합계는 확률변수이다.
  • 귀무가설(): 두 변수(속성 A, B)는 서로 독립이다. ()
  • 검정통계량: 동질성 검정과 계산 방식은 같으나, 데이터 수집 과정과 해석(연관성 유무)이 다르다.

예제 9-7 (카페 선호도와 성별의 관계)

  • 문제: 소비자 200명을 대상으로 성별(남, 여)과 선호하는 카페 유형(대형 프랜차이즈, 드라이브 스루, 개인카페)을 조사하여, 성별과 카페 선호도가 서로 독립인지 유의수준 5%로 검정
  • 가설: 카페 선호도와 성별은 서로 독립이다.
  • 계산
    • 전체 을 기준으로 기대도수 계산 ()
    • 검정통계량
  • 결과: 임계값 보다 훨씬 크므로 기각
  • 결론: 성별과 카페 선호도는 서로 독립이 아니다. (관련이 있다)

예제 9-8 (연령별 TV 프로그램 선호도)

  • 문제: 400명의 TV 시청자를 대상으로 연령대(20대 미만, 20대, 30대, 40대, 50대, 60대 이상)와 선호 프로그램(드라마, 연예/오락, 다큐, 영화, 코미디, 가요)을 조사하여, 두 변수가 독립인지 유의수준 5%로 검정
  • 해석: 연령이라는 변수와 프로그램 선호도라는 변수 사이에 연관성이 있는지(특정 연령대가 특정 장르를 더 선호하는지 등)를 확인하는 독립성 검정이다.