단순 무작위 추출은 통계학에서 모집단의 각 단위가 표본으로 선택될 기회를 동일하게 갖도록 설계하는 가장 기본적인 확률 표본추출 방법이다.[1][2] 연구자는 이 방식을 통해 모집단의 일부인 표본을 얻고, 그 결과를 바탕으로 모집단의 특성을 추론한다.[3] 따라서 단순 무작위 추출의 핵심은 편의적 선택이 아니라, 모든 단위에 같은 선택 확률을 부여하는 데 있다.[1]
현실에서는 국가의 모든 개인, 특정 대학의 전체 학생, 또는 넓은 지리적 영역 전체를 전수 조사하기 어렵기 때문에, 연구자는 표본을 먼저 뽑아 실험이나 관찰 연구를 수행한다.[1] 이때 표본이 모집단을 체계적인 편향 없이 대표해야 통계적 추론이 성립하므로, 단순 무작위 추출은 가장 널리 알려진 출발점이 된다.[2][11]
1. 정의 및 기본 원리
단순 무작위 추출은 확률 표본추출의 한 유형으로, 모집단 내 모든 개별 단위가 동일한 선택 확률을 갖도록 하는 절차를 말한다.[1][2] 모집단의 크기를 , 표본의 크기를 이라고 하면, 연구자는 미리 정해진 규칙에 따라 개의 단위를 무작위로 선택한다.[3] 이때 중요한 것은 결과가 우연에 맡겨진다는 점이 아니라, 우연이 공정하게 작동하도록 절차가 설계된다는 점이다.[2]
실무에서는 난수표, 난수 생성기, 또는 컴퓨터 프로그램을 사용해 선택 과정을 수행한다.[2][11] 이러한 절차는 연구자가 특정 단위를 의도적으로 고르지 못하게 막아 주며, 표본이 특정 성향에 치우치는 위험을 줄인다.[1] 단순 무작위 추출이 통계 분석의 기초로 자주 언급되는 이유도 여기에 있다.[3]
2. 표본 추출의 분류와 위치
통계학의 표본 추출 방법은 크게 확률적 표본추출과 비확률적 표본추출로 나뉜다.[12] 단순 무작위 추출은 이 가운데 확률적 표본추출의 대표적인 형태이며, 다른 표본 추출 방법을 설명할 때 기준점처럼 사용된다.[2][11] 따라서 이 방법을 이해하면 층화추출이나 군집추출처럼 더 복잡한 설계와의 차이도 함께 파악할 수 있다.[12]
공간 자료를 다루는 경우에도 단순 무작위 추출의 원리는 적용될 수 있다. 예를 들어 공간적-표본추출에서는 조사 구역을 격자나 점 집합으로 나눈 뒤, 각 지점이 동일한 확률로 선택되도록 설계해 특정 구역에 데이터가 몰리는 현상을 줄인다.[10] 이런 접근은 공간적 분포를 왜곡하지 않으면서 표본을 확보하려는 목적에서 유용하다.[10]
3. 주요 유형 및 방식
단순 무작위 추출은 복원-추출과 비복원-추출로 나누어 설명할 수 있다.[3][11] 복원-추출은 한 단위를 선택한 뒤 다시 모집단에 포함시켜 다음 추출에 영향을 주지 않도록 하는 방식이고, 비복원-추출은 이미 선택된 단위를 다시 뽑지 않는 방식이다.[3] 일반적인 설문조사나 표본조사에서는 비복원-추출이 더 자주 쓰이지만, 수학적 성질을 설명할 때는 복원-추출이 더 단순한 모형으로 활용되기도 한다.[11]
중요한 점은 표본의 모든 가능한 조합이 동일한 확률 구조를 가져야 한다는 것이다.[3][11] 모집단의 크기가 이고 표본의 크기가 이라면, 어떤 개체가 다른 개체보다 구조적으로 더 유리하거나 불리하지 않게 선택되어야 한다.[2] 이 원리가 지켜져야 통계적 추론에서 표본의 의미가 유지된다.[1]
4. 단순 무작위 추출의 필요성
연구자가 모집단 전체를 직접 조사하는 것은 비용과 시간 때문에 현실적으로 어렵다.[1] 그래서 연구는 보통 일부만을 뽑아 수행되며, 그 표본이 모집단을 얼마나 잘 대변하는지가 결과의 신뢰도를 좌우한다.[2][12] 단순 무작위 추출은 이 문제를 다루는 가장 기본적인 방법으로, 대표성 확보를 위한 출발점이 된다.[11]
또한 이 방법은 자원 배분 측면에서도 의미가 있다. 전수조사 대신 표본조사를 택하면 분석에 필요한 시간과 비용을 줄일 수 있고, 그 대신 추출 규칙의 공정성을 높이는 데 집중할 수 있다.[1][3] 연구자가 특정 집단을 임의로 고르면 결과가 왜곡될 수 있지만, 무작위 선택을 적용하면 그런 위험을 줄일 수 있다.[2]
5. 사용 시 주의사항 및 오류
단순 무작위 추출은 원리상 단순하지만, 실제로는 표본틀이 부정확하거나 일부 단위가 누락되면 쉽게 오류가 발생한다.[1][11] 모집단의 구성원이 모두 추출 대상에 포함되어 있어야 선택 확률의 균등성이 성립하므로, 명단 누락이나 중복 기록은 곧바로 대표성 문제로 이어질 수 있다.[2] 표본이 실제 모집단을 충분히 반영하지 못하면 추론 결과도 함께 흔들린다.[1]
또 다른 위험은 실행 단계에서 생기는 편향이다. 연구자가 무작위 절차를 따르지 않거나, 응답 거절과 같은 이유로 특정 집단이 지속적으로 배제되면 계통적-편향이 생길 수 있다.[12] 따라서 단순 무작위 추출을 적용할 때는 절차의 공정성뿐 아니라, 실제 집행 과정에서도 같은 원칙이 유지되는지 점검해야 한다.[3]