포스트

[ AI Math ] 2. 확률 변수와 확률 분포

딥러닝을 위한 통계학 - 확률 변수와 확률 분포

안녕하세요, 지난 시간에는 확률의 기초와 경우의 수에 대해 배웠습니다. 오늘은 딥러닝에서 중요한 역할을 하는 확률 변수와 확률 분포에 대해 알아보도록 하겠습니다. 이 개념들은 데이터를 모델링하고 불확실성을 다루는 데 필수적입니다. 그럼 시작해볼까요?

1. 시행과 사건

시행이란 어떤 실험이나 관찰을 수행하는 것을 말합니다. 예를 들어, 동전을 던지는 것, 주사위를 굴리는 것, 카드를 뽑는 것 등이 시행에 해당합니다. 시행의 결과로 나타나는 것을 사건이라고 합니다. 동전을 던졌을 때 앞면이 나오는 것, 주사위를 굴렸을 때 특정 숫자가 나오는 것, 카드를 뽑았을 때 특정 숫자나 무늬의 카드가 나오는 것 등이 사건의 예시입니다.

사건은 표본공간(sample space)이라는 집합의 부분집합으로 나타낼 수 있습니다. 표본공간은 시행의 모든 가능한 결과를 포함하는 집합입니다. 예를 들어, 동전 던지기의 표본공간은 {앞면, 뒷면}이며, 주사위 굴리기의 표본공간은 {1, 2, 3, 4, 5, 6}입니다.

2. 확률

확률은 어떤 사건이 일어날 가능성을 수치로 나타낸 것입니다. 확률은 0부터 1 사이의 값을 가지며, 사건이 절대로 일어나지 않는 경우에는 0, 항상 일어나는 경우에는 1의 값을 갖습니다.

2-1. 확률 변수

확률 변수는 표본공간의 각 원소에 실수 값을 할당하는 함수입니다. 확률 변수는 시행의 결과에 수치를 부여하여 수학적으로 다루기 쉽게 만들어줍니다. 예를 들어, 동전 던지기에서 앞면이 나오면 1, 뒷면이 나오면 0을 할당하는 것이 확률 변수의 예시입니다.

확률 변수는 discrete(이산)하거나 continuous(연속)할 수 있습니다. 이산 확률 변수는 가질 수 있는 값이 유한하거나 countable(셀 수 있는)한 경우를 말하며, 연속 확률 변수는 가질 수 있는 값이 구간 내에서 무한한 경우를 말합니다.

2-2. 확률 함수

확률 함수는 확률 변수가 특정 값을 가질 확률을 나타내는 함수입니다. 이산 확률 변수의 경우 확률 질량 함수(Probability Mass Function, PMF)라고 하며, 연속 확률 변수의 경우 확률 밀도 함수(Probability Density Function, PDF)라고 합니다.

확률 질량 함수 $p(x)$는 확률 변수 $X$가 특정 값 $x$를 가질 확률을 나타냅니다.

$p(x) = P(X = x)$

확률 밀도 함수 $f(x)$는 연속 확률 변수 $X$가 특정 값 $x$를 가질 확률의 밀도를 나타냅니다. 확률 밀도 함수의 값 자체는 확률이 아니며, 확률 밀도 함수를 적분한 값이 확률이 됩니다.

$P(a \leq X \leq b) = \int_{a}^{b} f(x) dx$

2-3. 확률 변수 예시

  • 동전 던지기: 확률 변수 $X$는 앞면(1)과 뒷면(0)이라는 두 가지 값을 가질 수 있습니다.
  • 주사위 던지기: 확률 변수 $Y$는 1, 2, 3, 4, 5, 6 중 하나의 값을 가질 수 있습니다.
  • 사람의 키: 확률 변수 $Z$는 연속적인 값을 가질 수 있습니다.

2-4. 확률 함수 예시

  • 동전 던지기: $P(X = 1) = 0.5$, $P(X = 0) = 0.5$
  • 주사위 던지기: $P(Y = y) = \frac{1}{6}$, $y \in {1, 2, 3, 4, 5, 6}$
  • 사람의 키: $Z$의 확률 밀도 함수 $f(z)$는 연속적인 값에 대해 정의됩니다.

3. 딥러닝 분야에서의 사건

딥러닝에서는 데이터를 사건으로 생각할 수 있습니다. 예를 들어, 이미지 분류 문제에서 각 이미지는 사건이며, 이미지의 레이블(고양이, 강아지 등)은 사건의 결과입니다. 언어 모델에서는 단어나 문장이 사건이 될 수 있으며, 각 단어나 문장의 등장 여부나 순서가 사건의 결과가 됩니다.

딥러닝 모델은 이러한 사건들의 확률을 추정하는 것을 목표로 합니다. 예를 들어, 이미지 분류 모델은 입력 이미지가 주어졌을 때 각 클래스(고양이, 강아지 등)에 속할 확률을 추정합니다. 언어 모델은 이전 단어들이 주어졌을 때 다음 단어가 나타날 확률을 추정합니다.

4. 상태공간

상태공간은 확률 변수가 가질 수 있는 모든 값의 집합입니다. 이산 확률 변수의 경우 상태공간은 유한하거나 countable합니다. 예를 들어, 동전 던지기의 상태공간은 {0, 1}, 주사위 던지기의 상태공간은 {1, 2, 3, 4, 5, 6}입니다. 연속 확률 변수의 경우 상태공간은 구간으로 나타냅니다. 예를 들어, 사람의 키를 나타내는 확률 변수의 상태공간은 (0, $\infty$)입니다.

5. 확률 분포

확률 분포는 확률 변수의 값과 그 값을 가질 확률을 나타내는 함수입니다. 확률 분포는 확률 변수가 특정 값을 가질 확률을 모든 가능한 값에 대해 나타냅니다.

5-1. 확률 분포 함수

확률 분포 함수(Cumulative Distribution Function, CDF)는 확률 변수 $X$가 특정 값 $x$ 이하일 확률을 나타내는 함수입니다. 수학적으로는 다음과 같이 정의합니다.

$F(x) = P(X \leq x)$

이산 확률 변수의 경우 확률 분포 함수는 계단 함수 형태를 가지며, 연속 확률 변수의 경우 연속 함수 형태를 가집니다.

6. 이산 확률 분포

이산 확률 분포는 확률 변수가 가질 수 있는 값이 유한하거나 countable한 경우의 확률 분포를 말합니다. 대표적인 예로는 베르누이 분포, 이항 분포, 포아송 분포 등이 있습니다.

6-1. 베르누이 분포

베르누이 분포는 확률 변수가 두 가지 값(일반적으로 0과 1) 중 하나를 가지는 경우를 나타내는 분포입니다. 예를 들어, 동전 던지기에서 앞면이 나올 확률이 $p$인 경우 확률 변수 $X$는 베르누이 분포를 따릅니다.

$P(X = 1) = p$, $P(X = 0) = 1 - p$

6-2. 이항 분포

이항 분포는 n번의 독립적인 베르누이 시행에서 성공의 횟수를 나타내는 분포입니다. 예를 들어, 동전을 10번 던져 앞면이 나오는 횟수는 이항 분포를 따릅니다.

$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}$

여기서 $\binom{n}{k}$는 이항 계수로, $\frac{n!}{k!(n-k)!}$로 계산됩니다.

6-3. 포아송 분포

포아송 분포는 일정 시간 또는 공간 내에서 사건이 발생하는 횟수를 나타내는 분포입니다. 예를 들어, 일정 시간 동안 특정 웹사이트에 접속하는 사용자의 수는 포아송 분포를 따를 수 있습니다.

$P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}$

여기서 $\lambda$는 단위 시간 또는 공간 내에서 사건이 발생하는 평균 횟수입니다.

7. 연속 확률 분포

연속 확률 분포는 확률 변수가 가질 수 있는 값이 구간 내에서 무한한 경우의 확률 분포를 말합니다. 대표적인 예로는 균일 분포, 정규 분포, 지수 분포 등이 있습니다.

7-1. 균일 분포

균일 분포는 확률 변수가 특정 구간 내에서 모든 값을 동일한 확률로 가지는 분포입니다. 예를 들어, 0부터 1 사이의 값을 균일하게 생성하는 random number generator의 출력값은 균일 분포를 따릅니다.

$f(x) = \begin{cases} \frac{1}{b-a} & \text{for } a \leq x \leq b, \ 0 & \text{otherwise} \end{cases}$

7-2. 정규 분포

정규 분포는 많은 자연 현상과 사회 현상에서 나타나는 대표적인 연속 확률 분포입니다. 정규 분포는 평균 $\mu$와 표준편차 $\sigma$에 의해 결정됩니다.

$f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

7-3. 지수 분포

지수 분포는 사건이 발생하는 시간 간격이 독립적이고 일정한 비율로 발생하는 경우를 모델링하는 분포입니다. 예를 들어, 전구의 수명, 기계의 고장 간격 등은 지수 분포를 따를 수 있습니다.

$f(x) = \begin{cases} \lambda e^{-\lambda x} & \text{for } x \geq 0, \ 0 & \text{for } x < 0 \end{cases}$

여기서 $\lambda$는 단위 시간 내에서 사건이 발생하는 평균 횟수의 역수입니다.

확률 변수와 확률 분포는 딥러닝을 포함한 많은 분야에서 활용됩니다. 데이터의 불확실성을 모델링하고, 모델의 출력을 확률적으로 해석하는 데 필수적인 개념입니다. 이 글에서는 이산 확률 분포와 연속 확률 분포의 차이, 그리고 각각의 대표적인 예시에 대해 알아보았습니다. 이러한 개념을 잘 이해하고 활용한다면 딥러닝 모델을 보다 효과적으로 설계하고 해석할 수 있을 것입니다. 다음 글에서는 더 심화된 내용을 다루도록 하겠습니다. 감사합니다!

이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.