모분산

모분산은 모집단 전체의 평균에서 각 값의 편차 제곱을 평균낸 산포 지표다.

모분산은 모집단 전체의 데이터를 기준으로 값들이 평균에서 얼마나 퍼져 있는지 나타내는 산포 지표다.^[1]^[2] 표본으로 모집단을 추정할 때 쓰는 표본분산과는 계산 목적이 다르며, 같은 데이터라도 무엇을 알고 싶은지에 따라 해석이 달라진다.^[5]^[7]

1. 개요

모분산은 통계학에서 데이터의 변동성을 설명하는 기본 개념이다.^[1]^[3] 각 관측치의 편차를 제곱해 모두 더한 다음 모집단의 크기 N으로 나누어 계산하므로, 중심으로부터의 거리를 평균적으로 요약한다고 볼 수 있다.^[2]^[4] 값이 작을수록 관측치가 평균 주변에 모여 있고, 값이 클수록 분포가 더 넓게 퍼져 있다는 뜻이다.^[3]^[6]

통계 분석에서는 모분산 자체보다 그것이 보여 주는 분포의 안정성과 불확실성이 중요하다.^[1]^[2] 특히 분산분석처럼 집단 간 차이를 살필 때는 집단 내부의 산포가 기준이 되므로, 모분산은 해석의 출발점 역할을 한다.^[1]^[5] 그래서 모분산은 단순한 계산값이 아니라 모집단의 성격을 읽는 기준으로 다뤄진다.^[4]^[7]

2. 수학적 정의와 계산식

모분산은 보통 $σ^{2} = \frac{\sum ( x _{i} - μ ) ^{2}}{N}$ 로 쓴다.^[2]^[4] 여기서 $x_{i}$ 는 각 관측치, $μ$ 는 모평균, $N$ 은 모집단의 전체 크기다.^[2] 편차를 그대로 합하면 양수와 음수가 상쇄되므로, 제곱을 통해 거리의 크기만 남겨 평균하는 방식이다.^[3]^[5]

이 정의 때문에 모분산의 단위는 원자료의 단위가 아니라 제곱 단위가 된다.^[1]^[6] 예를 들어 길이가 미터라면 분산은 제곱미터로 표시된다.^[2]^[4] 원자료와 같은 단위로 해석하려면 보통 표준편차를 함께 본다.^[1]^[3]

모집단 전체가 아니라 일부 데이터만 있으면 표본분산을 사용한다.^[5]^[7] 이때는 분모를 $n - 1$ 로 두는데, 이는 표본 평균을 이미 데이터로부터 추정했기 때문에 생기는 편향을 줄이기 위한 보정이다.^[6]^[8] 같은 수식처럼 보여도 분모가 달라지므로, 모분산과 표본분산은 계산 목적부터 다르다.^[2]^[5]

3. 모분산과 표본분산의 차이

모분산은 모집단의 실제 산포를 나타내는 모수이고, 표본분산은 그 모수를 추정하기 위한 통계량이다.^[2]^[5] 전수조사가 가능하면 모분산을 직접 계산할 수 있지만, 실제 분석에서는 표본을 통해 모집단을 추론하는 경우가 더 많다.^[1]^[7] 이때 표본분산을 그대로 모분산처럼 취급하면 추정이 흔들릴 수 있다.^[6]^[8]

표본분산에서 $n - 1$ 을 쓰는 이유는 자유도 보정 때문이다.^[5]^[7] 표본 평균을 계산하는 순간 데이터 하나의 정보가 이미 평균 추정에 사용되므로, 남은 정보량을 반영해 분모를 조정해야 한다.^[2]^[6] 이렇게 하면 표본분산의 기댓값이 모분산에 더 가깝게 맞춰진다.^[1]^[8]

4. 통계적 의미와 해석

모분산은 데이터의 불확실성을 수치로 표현하는 도구다.^[1]^[3] 값의 퍼짐이 작으면 예측 가능성이 높고, 퍼짐이 크면 결과가 더 들쭉날쭉할 가능성이 크다.^[4]^[6] 그래서 모분산은 분포를 읽는 가장 기본적인 기준 중 하나로 쓰인다.^[1]^[5]

집단 비교에서는 평균만 보는 것보다 산포를 함께 봐야 한다.^[1]^[2] 평균이 비슷해 보여도 분산이 크게 다르면 실제 해석은 달라질 수 있기 때문이다.^[5]^[7] 이런 이유로 모분산은 평균을 보조하는 값이 아니라 해석의 조건을 정해 주는 값에 가깝다.^[1]^[4]

모분산은 또한 확률-변수의 분포 특성을 이해하는 데도 쓰인다.^[2]^[3] 분포가 중심에 몰려 있으면 분산이 작아지고, 이상치나 긴 꼬리가 있으면 분산이 커진다.^[4]^[6] 따라서 분산은 데이터의 형태가 얼마나 안정적인지를 점검하는 데 유용하다.^[1]^[7]

5. 분산 분석에서의 역할

분산분석(ANOVA)은 여러 집단의 평균 차이를 검증할 때 쓰는 방법이다.^[1]^[5] 이 절차에서는 집단 내부 변동과 집단 간 변동을 분리해 보는데, 그 출발점이 되는 개념이 바로 분산이다.^[1]^[2] 모분산은 이런 비교에서 데이터가 자연스럽게 흔들릴 수 있는 수준을 가늠하게 해 준다.^[4]^[6]

관찰된 차이가 우연인지 실제 차이인지를 판단하려면, 평균만이 아니라 변동의 크기도 함께 봐야 한다.^[1]^[5] 모분산이 작으면 작은 차이도 눈에 띄고, 모분산이 크면 같은 차이라도 상대적으로 덜 의미 있게 보일 수 있다.^[2]^[7] 그래서 분산은 가설검정의 해석을 받쳐 주는 기초 정보로 기능한다.^[1]^[8]

6. 실무적 활용과 한계

실무에서는 모집단 전체를 확인하기 어려운 경우가 대부분이다.^[2]^[5] 그래서 실제로는 표본을 뽑아 표본분산과 표준편차를 함께 계산하고, 그 값을 통해 모집단의 산포를 추론한다.^[6]^[7] 이때 표본과 모집단을 구분하지 않으면 해석 오류가 생기기 쉽다.^[1]^[8]

모분산은 이상치에 민감하다.^[1]^[4] 편차를 제곱하기 때문에 극단값이 있으면 산포가 급격히 커질 수 있다.^[3]^[6] 따라서 데이터 분포를 해석할 때는 평균뿐 아니라 중앙 경향값과 이상치 여부도 함께 살피는 편이 안전하다.^[5]^[7]

또한 모분산은 원자료의 단위를 제곱한 값으로 나타나므로 직관성이 떨어진다.^[2]^[4] 이런 이유로 실무나 교육에서는 분산보다 표준편차를 더 자주 함께 사용한다.^[1]^[3] 분산은 수학적 정의를 명확하게 해 주고, 표준편차는 해석의 편의를 제공한다.^[2]^[6]

7. 관련 문서

이 문서는 분산의 정의와 추정 맥락을 함께 살펴볼 때 가장 유용하다.^[1]

8. 인용 및 각주

^[1] 4.4 Analysis of Variance (ANOVA) - Principles of Data Science | OpenStax, Oopenstax.org(새 탭에서 열림)

^[2] 4.5 – Why Are the Variance Formulas Different?, Oopen.maricopa.edu(새 탭에서 열림)

^[3] Population Variance, Wwww.geeksforgeeks.org(새 탭에서 열림)

^[4] Sample Variance vs. Population Variance, Wwww.geeksforgeeks.org(새 탭에서 열림)

^[5] Sample Variance vs. Population Variance: What's the Difference?, Wwww.statology.org(새 탭에서 열림)

^[6] 표본분산의 이해, Wwww.geogebra.org(새 탭에서 열림)

^[7] [통계] Sample Variance (표본분산)을 구할 때 n-1을 나누어주는 이유, Ddeeesp.github.io(새 탭에서 열림)

^[8] 모분산 VS 표본분산, Ddacon.io(새 탭에서 열림)

목차