포스트

[ AI Math ] 3. 이산 확률 분포 심화

딥러닝을 위한 통계학 - 이산 확률 분포 심화

안녕하세요, 이번 시간에는 이산 확률 분포에 대해 더 자세히 알아보도록 하겠습니다. 이산 확률 분포는 확률 변수가 가질 수 있는 값이 유한하거나 countable한 경우의 확률 분포를 말합니다. 지난 시간에 배운 내용을 바탕으로, 확률 질량 함수와 대표적인 이산 확률 분포인 베르누이 분포, 이항 분포, 포아송 분포에 대해 심화적으로 공부해보겠습니다.

1. 이산 확률 분포 심화

1-1. 확률 질량 함수 심화

확률 질량 함수(Probability Mass Function, PMF)는 이산 확률 변수가 특정 값을 가질 확률을 나타내는 함수입니다. 확률 질량 함수 $p(x)$는 다음과 같은 특성을 가집니다.

  1. $p(x) \geq 0$ for all $x$
  2. $\sum_{x} p(x) = 1$

첫 번째 특성은 확률이 음수가 될 수 없다는 것을 나타내며, 두 번째 특성은 모든 가능한 값에 대한 확률의 합이 1이 된다는 것을 나타냅니다.

1-2. 확률 질량 함수 예시

예를 들어, 주사위를 던질 때 나오는 눈의 수를 확률 변수 $X$라고 하면, 그 확률 질량 함수는 다음과 같이 정의할 수 있습니다.

$p(x) = P(X = x) = \frac{1}{6}, \quad x \in {1, 2, 3, 4, 5, 6}$

이 확률 질량 함수는 주사위의 각 면이 나올 확률이 $\frac{1}{6}$로 동일하다는 것을 나타냅니다.

1-2-1. 베르누이 확률분포 심화

베르누이 분포는 확률 변수가 두 가지 값(일반적으로 0과 1) 중 하나를 가지는 경우를 나타내는 분포입니다. 베르누이 분포는 성공 확률 $p$에 의해 결정됩니다.

1-2-2. 베르누이 확률분포의 확률 질량 함수

베르누이 분포의 확률 질량 함수는 다음과 같이 정의됩니다.

$P(X = 1) = p$ $P(X = 0) = 1 - p$

또는 하나의 수식으로 나타내면,

$p(x) = p^x (1-p)^{1-x}, \quad x \in {0, 1}$

베르누이 분포의 기대값(평균)은 $p$이며, 분산은 $p(1-p)$입니다.

1-3. 이항 분포 심화

이항 분포는 n번의 독립적인 베르누이 시행에서 성공의 횟수를 나타내는 분포입니다. 이항 분포는 시행 횟수 $n$과 각 시행에서의 성공 확률 $p$에 의해 결정됩니다.

1-3-1. 이항 분포 공식

이항 분포의 확률 질량 함수는 다음과 같이 정의됩니다.

$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, 2, …, n$

여기서 $\binom{n}{k}$는 이항 계수로, $\frac{n!}{k!(n-k)!}$로 계산됩니다.

이항 분포의 기대값은 $np$이며, 분산은 $np(1-p)$입니다.

1-3-2. 이항 분포 예시 1

동전을 10번 던져 앞면이 나오는 횟수를 확률 변수 $X$라고 하면, $X$는 이항 분포를 따릅니다. 이 경우, 시행 횟수 $n=10$이고, 각 시행에서 앞면이 나올 확률 $p=0.5$입니다. 따라서 $X$가 3일 확률은 다음과 같이 계산할 수 있습니다.

$P(X = 3) = \binom{10}{3} (0.5)^3 (1-0.5)^{10-3} \approx 0.1172$

1-3-3. 이항 분포 예시 2

어떤 공장에서 생산되는 제품의 불량률이 5%라고 합시다. 이 공장에서 생산된 20개의 제품을 검사할 때, 불량품의 개수를 확률 변수 $Y$라고 하면, $Y$는 이항 분포를 따릅니다. 이 경우, 시행 횟수 $n=20$이고, 각 시행에서 불량품이 나올 확률 $p=0.05$입니다. 따라서 $Y$가 2일 확률은 다음과 같이 계산할 수 있습니다.

$P(Y = 2) = \binom{20}{2} (0.05)^2 (1-0.05)^{20-2} \approx 0.0746$

1-4. 포아송 분포 심화

포아송 분포는 일정 시간 또는 공간 내에서 사건이 발생하는 횟수를 나타내는 분포입니다. 포아송 분포는 단위 시간 또는 공간 내에서 사건이 발생하는 평균 횟수 $\lambda$에 의해 결정됩니다. 포아송 분포의 확률 질량 함수는 다음과 같이 정의됩니다.

$P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, …$

포아송 분포의 기대값과 분산은 모두 $\lambda$입니다.

1-4-1. 포아송 분포 예시

어떤 콜센터에 1분당 평균 3건의 전화가 온다고 합시다. 5분 동안 걸려온 전화의 수를 확률 변수 $Z$라고 하면, $Z$는 포아송 분포를 따릅니다. 이 경우, 단위 시간(1분)당 평균 전화 수 $\lambda=3$이고, 관심 있는 시간 구간은 5분입니다. 따라서 5분 동안 전화가 10건 올 확률은 다음과 같이 계산할 수 있습니다.

$P(Z = 10) = \frac{(3 \times 5)^{10} e^{-(3 \times 5)}}{10!} \approx 0.0516$

마치며

이번 시간에는 이산 확률 분포, 특히 베르누이 분포, 이항 분포, 포아송 분포에 대해 더 자세히 알아보았습니다. 각 분포의 확률 질량 함수와 그 특성을 이해하고, 실제 예시를 통해 어떻게 활용될 수 있는지 살펴보았습니다. 이러한 이산 확률 분포는 딥러닝을 비롯한 다양한 분야에서 데이터를 모델링하고 분석하는 데 널리 사용됩니다. 다음 시간에는 연속 확률 분포에 대해 알아보도록 하겠습니다.

이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.