이산형 변수

이산형 변수는 값이 서로 떨어져 있어 개별적으로 셀 수 있는 확률변수이다.

이산형 변수는 가능한 값이 서로 떨어져 있어 한 번에 하나씩 셀 수 있는 확률변수이다.^[1] 주사위 눈금, 사건 횟수, 설문 응답 수처럼 개별 값이 분리되어 나타나는 현상을 설명하는 데 자주 쓰인다.^[2]

1. 개요

이산형 변수는 값의 집합이 유한하거나 셀 수 있는 무한 집합으로 이루어진다.^[1] 따라서 각 값에 대해 발생 가능성을 따로 나눠 살펴볼 수 있으며, 값 사이에 연속적인 중간값을 두지 않는다는 점에서 연속형 변수와 구별된다.^[2]

통계 분석에서는 이산형 변수가 어떤 데이터를 나타내는지 먼저 확인한 뒤, 그 성격에 맞는 확률분포를 선택한다.^[7] 같은 수치라도 개수를 세어 얻은 값인지, 측정으로 얻은 값인지에 따라 해석 방식이 달라지기 때문이다.^[3]

이산형 변수의 정의를 이해하면 현실 세계의 사건을 수학적으로 다루는 기본 틀이 보인다.^[8] 중심 경향성과 산포도를 함께 살피면 값들이 어디에 모여 있고 얼마나 퍼져 있는지도 더 명확하게 읽을 수 있다.^[7]

확률변수는 확률실험의 결과를 실수 값에 대응시키는 함수이다.^[1] 표본공간의 각 원소를 하나의 수치로 보내므로, 무작위적 결과를 계산 가능한 형태로 바꿔 준다.^[2]

확률변수가 취할 수 있는 모든 값의 집합은 치역 또는 범위라고 부른다.^[1] 이 집합을 살피면 어떤 값이 가능한지, 그리고 어떤 값들은 서로 얼마나 떨어져 있는지를 함께 볼 수 있다.^[2]

이산형 확률변수에서는 각 가능한 값 $x$ 에 대해 그 값이 나타날 확률이 따로 정해진다.^[7] 이 구조 덕분에 각 값의 발생 가능성을 직접 합산하거나 비교할 수 있고, 이후의 통계 계산도 값별 가중합으로 정리된다.^[8]

이산형 변수와 연속형 변수를 구분하는 핵심은 값이 끊어져 있는지 여부다.^[1] 이산형 변수는 개수를 세는 방식으로 나타나는 경우가 많고, 연속형 변수는 특정 구간 안에서 임의의 실수 값을 가질 수 있다.^[3]

범주형 변수의 일부는 이산적인 성격을 보인다.^[2] 예를 들어 차량 유형이나 출생 국가처럼 명확한 범주로 나뉘는 값은 연속적인 수치보다 구분 자체가 중요하다.^[1]

데이터가 어떻게 수집되었는지도 중요하다. 개수를 세어 얻은 값은 이산형 변수로 다루는 것이 자연스럽고, 측정을 통해 얻은 값은 연속형 변수로 읽는 것이 보통이다.^[3] 이런 구분은 적절한 분석 모델을 고르는 출발점이 된다.^[8]

이산형 확률변수의 분포를 설명할 때는 확률질량함수의 개념이 핵심이다.^[7] 각 값에 대응하는 확률을 하나씩 적어 두면, 그 변수의 전체적인 성질을 한눈에 볼 수 있다.^[8]

확률분포는 변수가 가질 수 있는 값들과 그 값들의 발생 가능성을 함께 묶어 보여 준다.^[7] 이산형 변수에서는 각 값의 확률을 직접 다루기 때문에 분포의 형태를 직관적으로 파악하기 쉽다.^[8]

연속형 변수와 달리 이산형 변수는 특정 구간의 넓이를 적분하기보다 개별 값의 확률을 더 중요하게 본다.^[2] 그래서 이산형 변수의 분포를 읽을 때는 어떤 값이 자주 나타나는지, 그리고 그 값들이 얼마나 치우쳐 있는지를 함께 확인한다.^[7]

기댓값은 이산형 변수의 각 값에 해당 값이 나타날 확률을 곱해 모두 더한 값이다.^[7] 이 수치는 분포의 중심이 어디에 있는지 보여 주는 기준점 역할을 한다.^[8]

분산은 각 값이 기댓값에서 얼마나 떨어져 있는지를 나타낸다.^[7] 값들의 차이를 제곱해 가중 평균하므로, 데이터가 기댓값 주변에 몰려 있는지 아니면 넓게 퍼져 있는지를 수치로 확인할 수 있다.^[8]

표준편차는 분산의 제곱근으로, 원래 데이터와 같은 단위를 유지한다.^[7] 이 덕분에 산포도를 더 직관적으로 읽을 수 있고, 서로 다른 변수의 흩어짐 정도도 비교하기 쉽다.^[8]

두 개의 이산형 변수가 한 번의 확률실험에서 함께 관찰되면 이변량 이산확률변수로 다룬다.^[5] 이때는 한 변수만 보는 것이 아니라 두 변수의 조합이 어떤 양상으로 나타나는지를 함께 살펴야 한다.^[2]

두 변수의 결합 확률은 결합확률질량함수로 정리한다.^[5] 이 함수는 특정 값 쌍이 동시에 나타날 가능성을 보여 주며, 두 변수의 관계가 독립인지 아닌지도 판단하는 데 쓰인다.^[5]

이변량 구조를 보면 변수 사이의 상관관계와 의존성을 더 분명하게 볼 수 있다.^[5] 그래서 이산형 데이터가 여러 축으로 동시에 관찰될 때는 단변량 분포보다 결합 분포를 먼저 살펴보는 편이 해석에 유리하다.^[2]

^[1] Variables, Australian Bureau of Statistics, Wwww.abs.gov.au(새 탭에서 열림)

^[2] 4.2: Probability Distributions for Discrete Random Variables, LibreTexts, Sstats.libretexts.org(새 탭에서 열림)

^[3] Discrete & Continuous Variables With Examples, Outlier, Aarticles.outlier.org(새 탭에서 열림)

^[5] Chapter 7 📝 Bivariate Discrete Random Variables | 🃏 Probability I, University of Geneva, Bbookdown.org(새 탭에서 열림)

^[7] 4.1 Probability Distribution Function (PDF) for a Discrete Random Variable - Statistics | OpenStax, OpenStax, Oopenstax.org(새 탭에서 열림)

^[8] 4.2: Probability Distributions for Discrete Random Variables, LibreTexts, Sstats.libretexts.org(새 탭에서 열림)