티스토리 뷰
Chapter 5: The Normal Distribution
Vagabund.Gni 2025. 5. 2. 18:16목차
Chapter 5: 정규 분포(The Normal Distribution)
머신 비전에서 불확실성(uncertainty)을 표현하는 가장 일반적인 방법은
다변량 정규 분포(multivariate normal distribution)이다.
이 장에서는 다변량 정규 분포의 주요 성질을 다루며, 이는 책의 나머지 부분에서 광범위하게 활용된다.
3장에서 다룬 바와 같이, 다변량 정규 분포는 다음 두 가지 파라미터를 가진다:
- 평균(mean) $\mathbf{\mu}$
- $D \times 1$ 벡터로, 분포의 위치를 설명한다.
- 공분산 행렬(covariance matrix) $\mathbf{\Sigma}$
- $D \times D$ 대칭(symmetric) 양의 정부호(positive definite) 행렬이다.
- 이는 분포의 형상을 설명하며, 모든 실수 벡터 $\mathbf{z}$에 대해 $\mathbf{z}^T \mathbf{\Sigma} \mathbf{z} > 0$임을 의미한다.
다변량 정규 분포의 확률 밀도 함수는 다음과 같이 정의된다:
$$Pr(\mathbf{x})=\frac{1}{(2π)^{D/2}|\mathbf{Σ}|^{1/2}}\text{exp}\left ( -\frac{1}{2}(\mathbf{x}−\mathbf{μ})^T\mathbf{Σ}^{-1}(\mathbf{x}−\mathbf{μ}) \right ) \tag{5.1}$$
보다 간략하게 표기하면:
$$Pr(\mathbf{x})=\text{Norm}_\mathbf{x}[\mathbf{μ},\mathbf{Σ}]\tag{5.2}$$
5.1 공분산 행렬의 유형 (Types of Covariance Matrix)
다변량 정규 분포에서 공분산 행렬(covariance matrix)은 세 가지 형태를 가진다:
- 구형(spherical)
- 대각(diagonal)
- 완전(full)
이 장에서는 2차원(이변량, bivariate) 경우를 예시로 설명한다.
2차원에서의 세 가지 공분산 행렬 형태는 다음과 같다:
$$\mathbf{Σ}_{\text{spher}}= \begin{bmatrix} σ^2& 0 \\ 0& σ^2 \\ \end{bmatrix},\quad \mathbf{Σ}_{\text{diag}}= \begin{bmatrix} σ_1^2& 0 \\ 0& σ_2^2 \\ \end{bmatrix},\quad \mathbf{Σ}_{\text{full}}= \begin{bmatrix} σ_{11}^2& σ_{12}^2 \\ σ_{21}^2& σ_{22}^2 \\ \end{bmatrix}$$
- 구형 공분산 행렬(spherical covariance matrix):
항등 행렬(identity matrix)의 양수 배수로, 모든 대각 성분은 동일한 값 $\sigma^2$이며, 나머지 성분은 0이다. - 대각 공분산 행렬(diagonal covariance matrix):
대각 성분은 서로 다른 양의 값을 가지며, 나머지 성분은 0이다. - 완전 공분산 행렬(full covariance matrix):
모든 위치에 0이 아닌 값을 가질 수 있지만, 행렬은 여전히 대칭(symmetric)이고 양의 정부호(positive definite)이어야 한다.
2차원 예시에서는 $\sigma^2_{12} = \sigma^2_{21}$이 성립한다.

등확률 곡선 (Iso-probability Contours)

2차원 경우:
- 구형 공분산 → 원형 등확률 곡선(circular iso-density contours)
- 대각 공분산 → 좌표축에 정렬된 타원형 등확률 곡선(ellipsoidal iso-density contours aligned with the axes)
- 완전 공분산 → 임의의 방향을 가진 타원형 등확률 곡선
일반적으로 $D$차원에서는(그림 5.1 참조):
- 구형 공분산 → $D$차원 구체(D-spheres)
- 대각 공분산 → 좌표축에 정렬된 $D$차원 타원체(D-dimensional ellipsoids)
- 완전 공분산 → 일반적인 위치에 존재하는 $D$차원 타원체
독립성 (Independence)
공분산이 구형 또는 대각일 경우, 개별 변수들은 독립(independent)이다.
예를 들어, 이변량 대각 공분산과 평균이 0인 경우:
$$Pr(x_1,x_2)=\frac{1}{2π\sqrt{|Σ|}}\text{exp}\left ( -\frac{1}{2} \begin{bmatrix}x_1 & x_2 \\ \end{bmatrix} \mathbf{Σ}^{-1}\begin{bmatrix}x_1 \\ x_2\end{bmatrix} \right )$$
대각 공분산 $\Sigma$를 대입하면:
$$Pr(x_1,x_2)=\frac{1}{2πσ_1σ_2}\text{exp}\left ( -\frac{x_1^2}{2σ_1^2} \right ) \text{exp}\left ( -\frac{x_2^2}{2σ_2^2} \right )$$
이는 다음과 같이 인수분해(factorization) 된다:
$$Pr(x_1,x_2)=Pr(x_1)⋅Pr(x_2)\tag{5.4}$$
즉, 두 변수는 독립이다.
요약
- 공분산 행렬은 <분포의 형상과 변수 간의 관계>를 결정한다.
- 구형, 대각, 완전 형태는 각각 <독립성>과 <등확률 곡선의 형상>에 따라 차이를 보인다.
- 구형/대각 → 독립, 완전 → 종속성 존재.
5.2 공분산의 분해 (Decomposition of Covariance)

앞서 설명한 기하학적 직관을 바탕으로, 완전 공분산 행렬 $\Sigma_{\text{full}}$을 분해할 수 있다.
평균이 0인 정규 분포에서 완전 공분산 행렬을 가지면, 그 등확률 곡선(iso-contour)은 임의 방향으로 회전된 타원형을 이룬다.
이제, 좌표축이 이 타원의 주축(principal axes)에 정렬된 새로운 좌표계에서 분포를 바라보자 (그림 5.2 참조).
이 새로운 좌표계에서는 공분산 행렬이 대각 행렬 $\mathbf{\Sigma}'_{\text{diag}}$ 형태가 된다.
새로운 좌표계의 데이터 벡터는 $\mathbf{x}' = [x'_1, x'_2]^T$로 표기하고, 원래 좌표계와의 관계는 다음과 같다:
$$\mathbf{x}'=\mathbf{R}\mathbf{x}$$
여기서 $R$은 회전 행렬(rotation matrix)이다.
새로운 좌표계 $\mathbf{x}'$에서 확률 밀도 함수는 다음과 같다:
$$Pr(\mathbf{x}')=\frac{1}{(2π)^{D/2}|\mathbf{Σ}'_\text{diag}|^{1/2}}\text{exp}\left ( -\frac{1}{2}\mathbf{x}'^T\mathbf{Σ}'^{-1}_\text{diag}\mathbf{x}' \right )\tag{5.5}$$
이를 다시 원래 좌표계 $\mathbf{x}$로 변환하면:
$$Pr(\mathbf{x})=\frac{1}{(2π)^{D/2}|\mathbf{Σ}'_\text{diag}|^{1/2}}\text{exp}\left ( -\frac{1}{2}(\mathbf{Rx})^T\mathbf{Σ}'^{-1}_\text{diag}(\mathbf{Rx}) \right )$$
이를 전개하면:
$$Pr(\mathbf{x})=\frac{1}{(2π)^{D/2}|\mathbf{R}^T\mathbf{Σ}'_\text{diag}\mathbf{R}|^{1/2}}\text{exp}\left ( -\frac{1}{2}\mathbf{x}^T(\mathbf{R}^T\mathbf{Σ}'_\text{diag}\mathbf{R})^{-1}\mathbf{x} \right )\tag{5.6}$$
여기서, 행렬식의 성질에 의해:
$$\begin{align*} |\mathbf{R}^T\mathbf{Σ}'_\text{diag}\mathbf{R}| &= |\mathbf{R}^T|⋅|\mathbf{Σ}'_\text{diag}|⋅|\mathbf{R}| \\ &= 1⋅|\mathbf{Σ}'_\text{diag}|⋅1 \\ &= |\mathbf{Σ}'_\text{diag}|\end{align*}$$
식 (5.6)은 다변량 정규 분포의 확률 밀도 함수와 동일한 형태이며, 이를 통해 완전 공분산 행렬은 다음과 같이 표현된다:
$$\mathbf{Σ}_\text{full}=\mathbf{R}^T|\mathbf{Σ}'_\text{diag}|\mathbf{R}\tag{5.7}$
즉, 완전 공분산 행렬은 회전 행렬 $R$과 대각 공분산 행렬 $\Sigma'_{\text{diag}}$의 곱으로 분해될 수 있다.
의미 및 활용
- $R$: 타원의 주축 방향(principal directions)을 정의하며, 이 벡터들이 $R$의 열 벡터로 구성된다.
- $\Sigma'_{\text{diag}}$의 대각 성분: 각 주축 방향에서의 분산(variance)을 나타내며, 이는 타원의 폭을 결정한다.
따라서, 이 분해를 통해 공분산 행렬의 형태를 직관적으로 해석할 수 있다.
특정 방향에서의 불확실성(uncertainty)이 얼마나 큰지를 알 수 있으며,
이를 고유값 분해(eigen-decomposition) 또는 특이값 분해(singular value decomposition, SVD)를 통해 계산할 수 있다.
요약
- 완전 공분산 행렬($\Sigma_{\text{full}}$)은 회전 행렬 $R$과 대각 공분산 행렬 $\Sigma'_{\text{diag}}$의 곱으로 분해할 수 있다:
- 회전 행렬 $R$은 타원의 주축 방향(principal directions)을 나타내고,
$\Sigma'_{\text{diag}}$의 대각 성분은 각 축 방향에서의 분산(variance)을 나타낸다. - 이 분해는 고유값 분해(eigen-decomposition) 또는 특이값 분해(SVD)를 통해 계산할 수 있다.
- 이를 통해 분포가 어느 방향에서 더 불확실하고, 어느 방향에서 더 확실한지 직관적으로 파악할 수 있다.
- 등확률 곡선은 원래 좌표계에서는 임의 방향을 가진 타원이지만,
새로운 좌표계에서는 축에 정렬된 타원(대각 공분산)으로 표현된다.
변수의 선형 변환 (Linear Transformations of Variables)

다변량 정규 분포(multivariate normal distribution)는
선형 변환(linear transformation)을 적용해도 그 형태가 유지된다 (그림 5.3 참조).
즉, $\mathbf{y} = \mathbf{A x} + \mathbf{b}$와 같은 변환을 가해도, 결과 분포는 여전히 정규 분포이다.
만약 원래의 분포가 다음과 같이 주어진다면:
$$Pr(\mathbf{x})=\text{Norm}_{\mathbf{x}}[\mathbf{μ},\mathbf{Σ}]\tag{5.8}$$
변환된 변수 $\mathbf{y}$는 다음과 같은 분포를 가진다:
$$Pr(\mathbf{y})=\text{Norm}_{\mathbf{y}}[\mathbf{Aμ}+\mathbf{b},\mathbf{AΣA}^T]\tag{5.9}$$
즉:
- 평균은 $\mathbf{Aμ}+\mathbf{b}$로 변환되고,
- 공분산은 $\mathbf{AΣA^T}$로 변환된다.
샘플링 방법
이 관계는 특정 평균 $\mathbf{\mu}$와 공분산 $\mathbf{\Sigma}$를 가지는 정규 분포에서 샘플을 생성하는 간단한 방법을 제공한다:
- 표준 정규 분포(평균 0, 공분산 $\mathbf{I}$)에서 샘플 $\mathbf{x}$를 뽑는다.
- 이를 $\mathbf{\Sigma}^{1/2} \mathbf{x} + \mathbf{\mu}$로 변환한다.
여기서 $\mathbf{\Sigma}^{1/2}$는 $\mathbf{\Sigma}$의 행렬 제곱근(matrix square root)이며,
$\mathbf{A} = \mathbf{\Sigma}^{1/2}$와 $\mathbf{b} = \mathbf{\mu}$인 경우의 선형 변환을 의미한다.
이렇게 하면 $Pr(\mathbf{x}) = \text{Norm}_x[\mathbf{0}, \mathbf{I}]$에서 $Pr(y) = \text{Norm}_y[\mathbf{\mu}, \mathbf{\Sigma}]$로 변환된다.
요약
- 다변량 정규 분포는 선형 변환 후에도 정규성을 유지한다.
- 선형 변환은 평균과 공분산을 각각 $\mathbf{A\mu} + \mathbf{b}$, $\mathbf{A\Sigma A}^T$로 변환한다.
- 이를 이용하면 임의의 정규 분포에서 샘플을 효율적으로 생성할 수 있다.
5.4 주변 분포 (Marginal Distributions)

다변량 정규 분포(multivariate normal distribution)에서 임의의 변수 집합을 주변화(marginalize)하면,
남은 변수들의 분포 역시 정규 분포가 된다 (그림 5.4 참조).
이는 어떤 방향으로 적분(또는 합산)하더라도, 남는 분포가 여전히 정규성을 유지함을 의미한다.
변수 $\mathbf{x}$를 두 부분으로 나누자:
$$\mathbf{x}=\begin{bmatrix}\mathbf{x}_1 \\ \mathbf{x}_2\end{bmatrix}$$
이때, $\mathbf{x}_1$과 $\mathbf{x}_2$는 각각의 변수 집합이다. 이 분포는 다음과 같이 표현된다:
$$Pr\left ( \begin{bmatrix}\mathbf{x}_1 \\ \mathbf{x}_2\end{bmatrix} \right ) = \text{Norm}_{\mathbf{x}}\left ( \begin{bmatrix}\mathbf{μ}_1 \\ \mathbf{μ}_2\end{bmatrix}\begin{bmatrix}\mathbf{Σ}_{11} & \mathbf{Σ}_{21}^T \\\mathbf{Σ}_{21} & \mathbf{Σ}_{22} \\\end{bmatrix} \right )\tag{5.10}$$
- $\mathbf{μ}_1$, $\mathbf{μ}_2$는 각각 $\mathbf{x}_1$, $\mathbf{x}_2$의 평균.
- $\mathbf{\Sigma}_{11}$, $\mathbf{\Sigma}_{22}$는 각각 $\mathbf{x}_1$, $\mathbf{x}_2$에 해당하는 공분산 하위 행렬(submatrices).
- $\mathbf{\Sigma}_{21}$은 $\mathbf{x}_1$과 $\mathbf{x}_2$ 사이의 공분산.
이때 $\mathbf{x}_1$의 주변 분포는 다음과 같다:
$$Pr(\mathbf{x}_1)=\text{Norm}_{\mathbf{x}_1}[\mathbf{μ}_1,\mathbf{Σ}_{11}]\tag{5.11}$$
$\mathbf{x}_2$의 주변 분포도 마찬가지로:
$$Pr(\mathbf{x}_2)=\text{Norm}_{\mathbf{x}_2}[\mathbf{μ}_2,\mathbf{Σ}_{22}]\tag{5.11}$$
즉:
- 평균(mean) → 원래 평균 벡터에서 해당 부분만 추출.
- 공분산(covariance) → 원래 공분산 행렬에서 해당 하위 행렬만 추출.
요약
- 다변량 정규 분포는 부분 변수 집합에 대해서도 항상 정규 분포를 유지한다.
- 주변화된 분포의 평균과 공분산은 원래 분포에서 해당 요소를 그대로 추출하여 얻는다.
- 이는 베이지안 추론, 조건부 분포 계산 등에서 매우 유용하게 사용된다.
5.5 조건부 분포 (Conditional Distributions)

변수 $\mathbf{x}$가 다변량 정규 분포(multivariate normal)를 따른다면,
그 중 일부 변수 집합 $\mathbf{x}_1$에 대해 나머지 변수 $\mathbf{x}_2$가 고정된 값 $\mathbf{x}^*_2$를 가질 때의 조건부 분포는
여전히 다변량 정규 분포가 된다 (그림 5.5 참조).
변수 $\mathbf{x}$를 다음과 같이 나눈다:
$$\mathbf{x}=\begin{bmatrix}\mathbf{x}_1 \\ \mathbf{x}_2\end{bmatrix}$$
전체 분포는 다음과 같이 주어진다:
$$Pr\left ( \begin{bmatrix}\mathbf{x}_1 \\ \mathbf{x}_2\end{bmatrix} \right ) = \text{Norm}_{\mathbf{x}}\left ( \begin{bmatrix}\mathbf{μ}_1 \\ \mathbf{μ}_2\end{bmatrix}\begin{bmatrix}\mathbf{Σ}_{11} & \mathbf{Σ}_{21}^T \\\mathbf{Σ}_{21} & \mathbf{Σ}_{22} \\\end{bmatrix} \right )\tag{5.12}$$
여기서:
$\mathbf{μ}_1$, $\mathbf{μ}_2$는 각각 $\mathbf{x}_1$, $\mathbf{x}_2$의 평균.
$\mathbf{\Sigma}_{11}$, $\mathbf{\Sigma}_{22}$는 각각 $\mathbf{x}_1$, $\mathbf{x}_2$의 공분산.
$\mathbf{\Sigma}_{21}$은 $\mathbf{x}_1$과 $\mathbf{x}_2$ 사이의 공분산.
조건부 분포 공식
$\mathbf{x}_2 = \mathbf{x}^*_2$가 주어졌을 때 $x_1$의 조건부 분포:
$$Pr(\mathbf{x}_1|\mathbf{x}_2=\mathbf{x}_2^*=\text{Norm}_{\mathbf{x}_1}(\mathbf{μ}_1+\mathbf{Σ}^T_{21}\mathbf{Σ}^{-1}_{22}(\mathbf{x}^*_2-\mathbf{μ}_2),\mathbf{Σ}_{11}-\mathbf{Σ}^T_{21}\mathbf{Σ}^{-1}_{22}\mathbf{Σ}_{21})\tag{5.13}$$
$\mathbf{x}_1 = \mathbf{x}^*_1$가 주어졌을 때 $x_2$의 조건부 분포:
$$Pr(\mathbf{x}_2|\mathbf{x}_1=\mathbf{x}_1^*=\text{Norm}_{\mathbf{x}_2}(\mathbf{μ}_2+\mathbf{Σ}_{21}\mathbf{Σ}^{-1}_{11}(\mathbf{x}^*_1-\mathbf{μ}_1),\mathbf{Σ}_{22}-\mathbf{Σ}_{21}\mathbf{Σ}^{-1}_{11}\mathbf{Σ}^T_{21})\tag{5.13}$$
의미 해석
- 조건부 평균:
고정된 값($\mathbf{x}^*_2$ 또는 $\mathbf{x}^*_1$)에 따라 새롭게 조정된 평균을 가진다. - 조건부 공분산:
조건을 걸지 않은 부분의 공분산에서, 조건을 건 변수와의 상호작용 항을 빼서 구한다.
이 값은 조건을 건 값에 상관없이 고정된다.
요약
- 다변량 정규 분포는 조건부 분포에 대해서도 닫혀 있으며, 결과는 여전히 정규 분포이다.
- 조건부 평균은 고정한 값에 따라 변하지만, 조건부 공분산은 고정된 값에 독립적이다.
- 공분산이 구형 또는 대각일 경우, 변수 간 독립성으로 인해 조건부 평균과 공분산이 변하지 않는다.
5.6 두 정규 분포의 곱 (Product of Two Normals)

두 정규 분포의 곱은 세 번째 정규 분포에 비례한다 (그림 5.6 참조).
만약 두 분포가 각각 평균 $\mathbf{a}$, $\mathbf{b}$와 공분산 $\mathbf{A}$, $\mathbf{B}$를 가진다면, 다음이 성립한다:
$$\begin{align*}\text{Norm}_{\mathbf{x}}[\mathbf{a},\mathbf{A}]&\cdot\text{Norm}_{\mathbf{x}}[\mathbf{b},\mathbf{B}] \\ &= κ\cdot\text{Norm}_{\mathbf{x}}((\mathbf{A}^{-1}+\mathbf{B}^{-1})^{-1}(\mathbf{A}^{-1}\mathbf{a}+\mathbf{B}^{-1}\mathbf{b}),(\mathbf{A}^{-1}+\mathbf{B}^{-1})^{-1}) \end{align*}\tag{5.14}$$
여기서:
- 새로운 분포의 평균은 $\mathbf{a}$와 $\mathbf{b}$ 사이의 가중 평균이며,
- 새로운 공분산은 $\mathbf{A}$와 $\mathbf{B}$보다 작다.
곱의 결과에 포함된 정규화 상수 $\kappa$ 역시 정규 분포의 형태를 가진다:
$$κ=\text{Norm}_{\mathbf{a}}[\mathbf{b},\mathbf{A+B}]=\text{Norm}_{\mathbf{b}}[\mathbf{a},\mathbf{A+B}]\tag{5.15}$$
이는 두 분포의 평균 차이를 고려한 정규화 상수로, 전체 곱을 적분했을 때 1이 되도록 조정한다.
5.6.1 자기켤레성 (Self-conjugacy)
이 속성을 이용해 정규 분포가 자기켤레(self-conjugate)임을 증명할 수 있다.
즉, 평균 $\mu$에 대해 켤레 사전(conjugate prior)을 가지는 분포가 다시 정규 분포가 된다.
데이터 $\mathbf{x}$에 대한 정규 분포와, 평균 $\mathbf{\mu}$에 대한 두 번째 정규 분포를 고려하자:
$$\text{Norm}_{\mathbf{x}}[\mathbf{\mu},\mathbf{Σ}]\cdot\text{Norm}_{\mathbf{\mu}}[\mathbf{\mu}_p,\mathbf{Σ}_p]$$
이를 식 (5.14)에 적용하면:
$$\text{Norm}_{\mathbf{x}}[\mathbf{\mu},\mathbf{Σ}]\cdot\text{Norm}_{\mathbf{\mu}}[\mathbf{\mu}_p,\mathbf{Σ}_p]=κ\text{Norm}_{\mathbf{\mu}}[\tilde{\mathbf{\mu}},\tilde{\mathbf{Σ}}]\tag{5.16}$$
여기서 $\tilde{\mathbf{\mu}}$와 $\tilde{\mathbf{\Sigma}}$는 식 (5.14)에 따라 계산된다.
이는 켤레성(conjugacy)의 정의와 일치하며 (3.9절 참고),
정규 분포가 평균 $\mathbf{\mu}$에 대해 자기켤레임을 보여준다.
이 분석은 공분산 $\mathbf{\Sigma}$가 고정되어 있다는 가정 하에 진행된다.
만약 $\mathbf{\Sigma}$도 불확실한 값으로 다룬다면, 정규-역 Wishart(Normal-Inverse Wishart) 사전을 사용해야 한다.
요약
- 두 정규 분포의 곱은 다시 정규 분포의 형태를 유지하며, 이는 자기켤레성을 설명한다.
- 곱의 결과는 평균의 가중 평균과 더 작은 공분산을 가진다.
- 이는 베이지안 추론에서 사전 분포와 우도가 결합될 때, 사후 분포가 다시 정규 분포가 됨을 설명하는 수학적 근거이다.
5.7 변수 변환 (Change of Variable)

변수 $\mathbf{x}$에 대한 정규 분포의 평균이 어떤 다른 변수 $\mathbf{y|$의 선형 함수 $\mathbf{Ay} + \mathbf{b}$라고 하자.
이 분포는 $\mathbf{y}$에 대한 정규 분포로도 다시 표현될 수 있다. 이때 $\mathbf{y}$는 $\mathbf{x}$의 선형 함수 $\mathbf{A}'\mathbf{x} + \mathbf{b}'$를 평균으로 갖는다.
수식으로는 다음과 같다:
$$\text{Norm}_{\mathbf{x}}[\mathbf{Ay} + \mathbf{b},\mathbf{Σ}]=κ\cdot\text{Norm}_{\mathbf{y}}[\mathbf{A}'\mathbf{x} + \mathbf{b}',\mathbf{Σ}']\tag{5.17}$$
여기서 $\kappa$는 정규화 상수이며, 새로운 파라미터들은 다음과 같이 정의된다:
$$\begin{align*}\mathbf{Σ}' &= (\mathbf{A}^T\mathbf{\Sigma}^{-1}\mathbf{A})^{-1} \\ \mathbf{A}' &= (\mathbf{A}^T\mathbf{\Sigma}^{-1}\mathbf{A})^{-1}\mathbf{A}^T\mathbf{\Sigma}^{-1} \\ \mathbf{b}' &= -(\mathbf{A}^T\mathbf{\Sigma}^{-1}\mathbf{A})^{-1}\mathbf{A}^T\mathbf{\Sigma}^{-1}\mathbf{b} \end{align*}\tag{5.18}$$
이 관계는 수학적으로는 불투명하게 보이지만, $x$와 $y$가 스칼라 변수일 경우 그림 5.7을 통해 시각적으로 쉽게 이해할 수 있다.
실제로 이 관계는 베이즈 정리(Bayes' rule)를 적용하여
주어진 조건부 분포$Pr(\mathbf{x} | \mathbf{y})$에서 $Pr(\mathbf{y} | \mathbf{x})$로 전환할 때 자주 사용된다.
요약
- 평균이 선형 함수인 정규 분포는, 입력 변수와 출력 변수를 바꾸어도 정규 분포 형태를 유지한다.
- 이 변환은 베이즈 추론에서 핵심적으로 사용된다: $Pr(\mathbf{x} | \mathbf{y})$ → $Pr(\mathbf{y} | \mathbf{x})$.
- 새로운 평균과 공분산은 기존 $\mathbf{\Sigma}$와 $\mathbf{A}$, $\mathbf{b}$에 따라 정확하게 계산 가능하다.
- 선형 모델 기반 조건부 분포 간 변환을 수학적으로 정당화하는 기본 도구이다.
요약 (Summary)
이번 장에서는 다변량 정규 분포(multivariate normal distribution)의 여러 중요한 성질들을 다루었다.
그중에서도 핵심적인 성질은 주변 분포(marginal distribution)와 조건부 분포(conditional distribution)에 관한 것이다.
다변량 정규 분포에 대해,
- 일부 변수에 대해 주변화(marginalize)하거나,
- 일부 변수에 조건(condition)을 걸면,
결과는 여전히 정규 분포가 된다.
이러한 닫힘성(closed-form behavior)은 다변량 정규 분포의 가장 유용한 성질 중 하나이며,
컴퓨터 비전 알고리즘 전반에서 매우 자주 활용된다.
핵심 포인트
- 주변화된 분포는 정규 분포이다.
- 조건부 분포도 정규 분포이다.
- 선형 변환, 곱셈, 변수 치환과 같은 연산에서도 정규 분포는 형태를 유지한다.
- 이러한 성질들은 수학적으로 깔끔할 뿐만 아니라 알고리즘 설계에 직접적 응용이 가능하다.
이 장의 성질들은 이후 등장할 모델에서 예측, 추론, 추정 작업의 이론적 기반을 제공하며,
특히 베이지안 필터(Bayesian filter)나 확률적 그래픽 모델에서 반드시 이해해야 할 핵심 원리이다.
'ML+DL > Computer Vision By Simon J.D. Prince' 카테고리의 다른 글
| 주사위 던지기로 알아보는 ML, MAP, Bayesian 접근(2) (1) | 2025.05.19 |
|---|---|
| Chapter 4: Fitting probability models(3) (0) | 2025.04.21 |
| Chapter 4: Fitting probability models(2) (0) | 2025.04.21 |
| 기댓값(expectation)에 대하여 (0) | 2025.04.12 |
| 주사위 던지기로 알아보는 ML, MAP, Bayesian 접근(1) (0) | 2025.04.12 |
| MAP도 결국 베이지안 아닌가? (0) | 2025.04.12 |
- Total
- Today
- Yesterday
- a6000
- 맛집
- 야경
- 중남미
- 세계여행
- 남미
- 동적계획법
- 면접 준비
- 여행
- java
- BOJ
- 리스트
- 세계일주
- 스프링
- 파이썬
- Algorithm
- spring
- 지지
- 스트림
- 기술면접
- 칼이사
- 세모
- Backjoon
- 유럽여행
- 알고리즘
- RX100M5
- 백준
- 유럽
- Python
- 자바
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |