이산형 변수는 가능한 값이 서로 떨어져 있어 한 번에 하나씩 셀 수 있는 확률변수이다.[1] 주사위 눈금, 사건 횟수, 설문 응답 수처럼 개별 값이 분리되어 나타나는 현상을 설명하는 데 자주 쓰인다.[2]
1. 개요
이산형 변수는 값의 집합이 유한하거나 셀 수 있는 무한 집합으로 이루어진다.[1] 따라서 각 값에 대해 발생 가능성을 따로 나눠 살펴볼 수 있으며, 값 사이에 연속적인 중간값을 두지 않는다는 점에서 연속형 변수와 구별된다.[2]
통계 분석에서는 이산형 변수가 어떤 데이터를 나타내는지 먼저 확인한 뒤, 그 성격에 맞는 확률분포를 선택한다.[7] 같은 수치라도 개수를 세어 얻은 값인지, 측정으로 얻은 값인지에 따라 해석 방식이 달라지기 때문이다.[3]
이산형 변수의 정의를 이해하면 현실 세계의 사건을 수학적으로 다루는 기본 틀이 보인다.[8] 중심 경향성과 산포도를 함께 살피면 값들이 어디에 모여 있고 얼마나 퍼져 있는지도 더 명확하게 읽을 수 있다.[7]
2. 확률변수의 정의와 수학적 구조
확률변수는 확률실험의 결과를 실수 값에 대응시키는 함수이다.[1] 표본공간의 각 원소를 하나의 수치로 보내므로, 무작위적 결과를 계산 가능한 형태로 바꿔 준다.[2]
확률변수가 취할 수 있는 모든 값의 집합은 치역 또는 범위라고 부른다.[1] 이 집합을 살피면 어떤 값이 가능한지, 그리고 어떤 값들은 서로 얼마나 떨어져 있는지를 함께 볼 수 있다.[2]
이산형 확률변수에서는 각 가능한 값 에 대해 그 값이 나타날 확률이 따로 정해진다.[7] 이 구조 덕분에 각 값의 발생 가능성을 직접 합산하거나 비교할 수 있고, 이후의 통계 계산도 값별 가중합으로 정리된다.[8]
3. 이산형 변수와 연속형 변수의 차이
이산형 변수와 연속형 변수를 구분하는 핵심은 값이 끊어져 있는지 여부다.[1] 이산형 변수는 개수를 세는 방식으로 나타나는 경우가 많고, 연속형 변수는 특정 구간 안에서 임의의 실수 값을 가질 수 있다.[3]
범주형 변수의 일부는 이산적인 성격을 보인다.[2] 예를 들어 차량 유형이나 출생 국가처럼 명확한 범주로 나뉘는 값은 연속적인 수치보다 구분 자체가 중요하다.[1]
데이터가 어떻게 수집되었는지도 중요하다. 개수를 세어 얻은 값은 이산형 변수로 다루는 것이 자연스럽고, 측정을 통해 얻은 값은 연속형 변수로 읽는 것이 보통이다.[3] 이런 구분은 적절한 분석 모델을 고르는 출발점이 된다.[8]
4. 확률질량함수와 확률분포
이산형 확률변수의 분포를 설명할 때는 확률질량함수의 개념이 핵심이다.[7] 각 값에 대응하는 확률을 하나씩 적어 두면, 그 변수의 전체적인 성질을 한눈에 볼 수 있다.[8]
확률분포는 변수가 가질 수 있는 값들과 그 값들의 발생 가능성을 함께 묶어 보여 준다.[7] 이산형 변수에서는 각 값의 확률을 직접 다루기 때문에 분포의 형태를 직관적으로 파악하기 쉽다.[8]
연속형 변수와 달리 이산형 변수는 특정 구간의 넓이를 적분하기보다 개별 값의 확률을 더 중요하게 본다.[2] 그래서 이산형 변수의 분포를 읽을 때는 어떤 값이 자주 나타나는지, 그리고 그 값들이 얼마나 치우쳐 있는지를 함께 확인한다.[7]
5. 이산확률변수의 통계적 특성
6. 이변량 이산확률변수
두 개의 이산형 변수가 한 번의 확률실험에서 함께 관찰되면 이변량 이산확률변수로 다룬다.[5] 이때는 한 변수만 보는 것이 아니라 두 변수의 조합이 어떤 양상으로 나타나는지를 함께 살펴야 한다.[2]
두 변수의 결합 확률은 결합확률질량함수로 정리한다.[5] 이 함수는 특정 값 쌍이 동시에 나타날 가능성을 보여 주며, 두 변수의 관계가 독립인지 아닌지도 판단하는 데 쓰인다.[5]
이변량 구조를 보면 변수 사이의 상관관계와 의존성을 더 분명하게 볼 수 있다.[5] 그래서 이산형 데이터가 여러 축으로 동시에 관찰될 때는 단변량 분포보다 결합 분포를 먼저 살펴보는 편이 해석에 유리하다.[2]
8. 인용 및 각주
[1] Variables, Australian Bureau of Statistics, www.abs.gov.au(새 탭에서 열림)
[2] 4.2: Probability Distributions for Discrete Random Variables, LibreTexts, stats.libretexts.org(새 탭에서 열림)
[3] Discrete & Continuous Variables With Examples, Outlier, articles.outlier.org(새 탭에서 열림)
[5] Chapter 7 📝 Bivariate Discrete Random Variables | 🃏 Probability I, University of Geneva, bookdown.org(새 탭에서 열림)
[7] 4.1 Probability Distribution Function (PDF) for a Discrete Random Variable - Statistics | OpenStax, OpenStax, openstax.org(새 탭에서 열림)
[8] 4.2: Probability Distributions for Discrete Random Variables, LibreTexts, stats.libretexts.org(새 탭에서 열림)