Archive

❯

❯

03 Probability and Statistics

❯

09 비모수 분석

09 비모수 분석

2025년 11월 25일9 min read

2-2/확률및통계학

메모

비모수 분석
- 모집단이 특정 확률 분포(주로 정규분포)를 따른다는 가정을 하지 않거나, 매우 약한 가정만으로 실시하는 통계 분석 기법

1. 적합도 검정 (Goodness of Fit Test)

정의: 관측된 값들이 어떤 이론적 분포(특정 비율이나 확률분포)를 따르는지 검정하는 방법이다.
특징: 단일 범주형 변수에 대해 사용하며, 관측도수(Observed)와 기대도수(Expected)의 차이를 이용한다.
귀무가설( $H_{0}$ ): 관측값은 특정 이론적 분포를 따른다. (예: $p_{1} = p_{10}, p_{2} = p_{20}, \dots$ )
검정통계량: $χ^{2} = \sum \frac{( O _{i} - E _{i} ) ^{2}}{E _{i}}$ , 자유도 $df = k - 1$ ( $k$ : 범주의 수)

예제 9-1 (TV 방송사 시청률)

문제: A, B, C 방송사의 알려진 시청률(30%, 40%, 30%)과 실제 조사된 시청자 수(310명, 420명, 270명, 총 1,000명)가 일치하는지 유의수준 5%로 검정
가설: $H_{0} : p_{1} = 0.3, p_{2} = 0.4, p_{3} = 0.3$
계산
- 기대도수: A(300), B(400), C(300)
- 검정통계량 $χ^{2} \approx 2.667$
결과: 임계값 $χ_{0.05}^{2} (2) = 5.911$ 보다 작으므로 $H_{0}$ 기각 실패
결론: 조사된 시청률은 기존 알려진 비율과 차이가 있다고 할 수 없다. (잘 조사되었다)

예제 9-2 (자동차 색상 선호도)

문제: 흰색, 검정색, 은색, 금색 4가지 자동차 색에 대한 선호도가 모두 똑같은지(동일한 비율인지) 200대를 대상으로 조사하여 유의수준 5%로 검정
가설: $H_{0} : p_{1} = p_{2} = p_{3} = p_{4} = 0.25$
계산
- 관측도수: 70, 30, 40, 60
- 기대도수: 각 50 (200 $\times$ 1/4)
- 검정통계량 $χ^{2} = 20$
결과: 임계값 $χ_{0.05}^{2} (3) = 7.815$ 보다 크므로 $H_{0}$ 기각
결론: 자동차 색에 따라 인기도(선호도)에 차이가 있다.

예제 9-3 (요일별 자동차 접촉 사고)

문제: 일주일 동안 발생한 210건의 접촉 사고가 요일별로 무관한지(즉, 요일별 발생 비율이 동일한지) 유의수준 5%로 검정
데이터: 월(22), 화(33), 수(25), 목(25), 금(37), 토(35), 일(33)
해석: 요일별로 사고 발생 확률이 1/7로 동일한지를 검정하는 적합도 검정 문제이다.

2. 동질성 검정 (Test of Homogeneity)

정의: 미리 고정된 표본 크기를 가진 두 개 이상의 모집단(부분집단)에서, 각 범주에 속하는 비율이 동일한지를 검정한다.
특징: ‘속성 간 비교’를 수행하며, $r \times c$ 분할표를 사용합니다. 열(또는 행)의 합계(sub-population 크기)가 고정되어 있다.
귀무가설( $H_{0}$ ): 각 모집단에서 범주의 분포(비율)는 동일하다.
검정통계량: 독립성 검정과 동일한 $χ^{2}$ 통계량 사용, 자유도 $df = (r - 1) (c - 1)$

예제 9-4 (백신 종류별 항체 형성 비율)

문제: 백신 A와 B를 접종한 그룹(각 300명, 500명)에서 1차, 2차, 3차 접종 시 항체가 형성된 비율이 두 백신 간에 동일한지 유의수준 5%로 검정
가설: $H_{0} :$ 백신 A와 B의 접종 차수별 항체 형성 비율 분포는 같다.
계산
- 합동표본비율을 이용해 기대도수 계산
- 검정통계량 $χ^{2} \approx 7.111$
결과: 임계값 $χ_{0.05}^{2} (2) = 5.991$ 보다 크므로 $H_{0}$ 기각
결론: 백신 A, B의 접종에 대한 항체 형성 비율은 동일하지 않다. (차이가 있다)

예제 9-5 (공장별 제품 만족도)

문제: 세 곳의 공장(공장 1, 2, 3)에서 생산된 제품에 대해 소비자 만족도(매우 만족, 만족, 보통, 불만족, 매우 불만족)의 분포에 차이가 있는지 유의수준 1%로 검정
데이터: 각 공장에서 임의로 추출하여 조사(총 270명)
해석: 공장(모집단) 별로 만족도(범주)의 분포가 같은지를 보는 동질성 검정이다.

예제 9-6 (공장별 불량률 비교)

문제: 세 공장에서 각각 300개, 200개, 200개의 제품을 추출하여 양품과 불량품의 개수를 조사했을 때, 공장 간 불량률에 차이가 있는지 유의수준 5%로 검정
데이터: 불량품 수(21, 15, 20), 양품 수(279, 185, 180)
특이사항: 예제 7-16(모비율 차이 검정 등)과의 차이를 묻고 있으며, 여기서는 3개 이상의 집단이므로 카이제곱 동질성 검정을 사용해야 함을 시사한다.

3. 독립성 검정 (Test of Independence)

정의: 하나의 모집단에서 표본을 추출하여 두 개의 범주형 변수(속성)를 조사했을 때, 두 변수가 서로 독립인지(관련성이 없는지) 검정한다.
특징: 전체 표본 크기( $n$ )만 고정되어 있고, 행과 열의 합계는 확률변수이다.
귀무가설( $H_{0}$ ): 두 변수(속성 A, B)는 서로 독립이다. ( $P (A \cap B) = P (A) \times P (B)$ )
검정통계량: 동질성 검정과 계산 방식은 같으나, 데이터 수집 과정과 해석(연관성 유무)이 다르다.

예제 9-7 (카페 선호도와 성별의 관계)

문제: 소비자 200명을 대상으로 성별(남, 여)과 선호하는 카페 유형(대형 프랜차이즈, 드라이브 스루, 개인카페)을 조사하여, 성별과 카페 선호도가 서로 독립인지 유의수준 5%로 검정
가설: $H_{0} :$ 카페 선호도와 성별은 서로 독립이다.
계산
- 전체 $n = 200$ 을 기준으로 기대도수 계산 ( $E_{ij} = \frac{n _{i} \times n _{j}}{n}$ )
- 검정통계량 $χ^{2} \approx 49.21$
결과: 임계값 $χ_{0.05}^{2} (2) = 5.99$ 보다 훨씬 크므로 $H_{0}$ 기각
결론: 성별과 카페 선호도는 서로 독립이 아니다. (관련이 있다)

예제 9-8 (연령별 TV 프로그램 선호도)

문제: 400명의 TV 시청자를 대상으로 연령대(20대 미만, 20대, 30대, 40대, 50대, 60대 이상)와 선호 프로그램(드라마, 연예/오락, 다큐, 영화, 코미디, 가요)을 조사하여, 두 변수가 독립인지 유의수준 5%로 검정
해석: 연령이라는 변수와 프로그램 선호도라는 변수 사이에 연관성이 있는지(특정 연령대가 특정 장르를 더 선호하는지 등)를 확인하는 독립성 검정이다.

그래프 뷰

메모
1. 적합도 검정 (Goodness of Fit Test)
예제 9-1 (TV 방송사 시청률)
예제 9-2 (자동차 색상 선호도)
예제 9-3 (요일별 자동차 접촉 사고)
2. 동질성 검정 (Test of Homogeneity)
예제 9-4 (백신 종류별 항체 형성 비율)
예제 9-5 (공장별 제품 만족도)
예제 9-6 (공장별 불량률 비교)
3. 독립성 검정 (Test of Independence)
예제 9-7 (카페 선호도와 성별의 관계)
예제 9-8 (연령별 TV 프로그램 선호도)