티스토리 뷰
확률 모델의 불확실성? 베이지안 관점에서의 하이퍼파라미터
Vagabund.Gni 2025. 3. 25. 20:46목차
들어가며
비전 인공지능에 대한 책을 공부하던 중 이런 문장을 만났다:
"모델을 데이터에 피팅할 때, 그 피팅의 불확실성을 확률 분포로 표현한다."
"파라미터 위에 또 하나의 확률 분포가 존재한다. 이를 하이퍼파라미터로 제어한다."
이건 또 무슨 말인가. 모델을 만들었으면 끝이지 왜 또 확률 분포가 등장하는 것인가.
이 글에서는 위 문장의 뜻을 내가 알아들을 수 있는 수준으로 파헤쳐본다.
비전 인공지능 모델 = 확률 모델
시각 인공지능, 즉 컴퓨터 비전 모델은 결국 이런 형태로 표현된다:
Pr(y∣x;θ)
- x: 입력 이미지 (예: 강아지 사진)
- y: 예측 결과 (예: "강아지" vs "고양이")
- θ: 모델 파라미터 (예: 신경망 weight)
즉, 확률 모델이란 "입력 x가 주어졌을 때 출력 y가 나올 확률"을 계산해 주는 모델이다.
이게 바로 우리가 학습시키는 분류기, 회귀모델, 객체 인식기 등 모든 비전 모델의 근본 구조이다.
Pr(y∣x;θ) ?
많은 책이나 논문에서는 Pr(y∣x,θ)를 Pr(y∣x;θ)처럼 쓰는 경우가 있다.
여기서 세미콜론(;)은 구분자 역할을 하며,
문맥상 "학습 대상이 아니라 모델 내부적으로 고정된 값"임을 나타내기 위해 일부러 쓰는 경우가 많다.
- x: 입력 (변할 수 있는 값)
- y: 출력 (예측 대상)
- θ: 모델 파라미터 (학습 이후 고정)
즉, 실질적으로 Pr(y∣x,θ)와 의미는 같지만,
세미콜론은 "모델링의 대상은 아니지만 함수 형태에 영향을 주는 값"을 암묵적으로 표현한 것이다.
그런데 왜 파라미터에 대한 '불확실성'이 필요하지?
예를 들어, 아래와 같은 분류 문제를 생각해 보자.
- 100장의 강아지 사진
- 100장의 고양이 사진
이 데이터를 이용해 모델을 학습하면 어떤 weight θ∗가 나올 것이다.
우리는 보통 이렇게 말한다:
"데이터에 가장 잘 맞는 최적의 파라미터 θ∗를 찾았다!"
그런데 잠깐. 이 θ∗는 정말 최선일까?
데이터가 충분하지 않다면, θ∗는 실제 데이터 분포와 많이 다를 수도 있다.
즉, 우리가 찾은 θ∗는 "확률적으로 볼 때, 좋은 파라미터일 가능성이 높은 것"일뿐이다.
이 불확실성을 정량적으로 다루기 위해 파라미터 θ를 고정된 값이 아닌 '확률 변수'로 본다.
파라미터 위에 또 하나의 확률 분포가 있다고?
안타깝게도 그렇다. 그리고 이제 바로 베이지안 관점의 핵심이다.
기존 방식 (최대우도법 등)에서 θ는 하나의 고정된 값이며, 우리는 이 값을 최대한 잘 찾는 것을 목표로 한다.
하지만 베이지안 관점에서는:
θ도 확률 변수이다.
그러므로 우리는 θ 자체에 대한 확률 분포 Pr(θ)를 정의한다.
그리고 이 분포를 바탕으로 최종 예측도 평균적으로 계산한다:
Pr(y∣x)=∫Pr(y∣x,θ)⋅Pr(θ)dθ
이게 바로 "파라미터 위에 또 하나의 확률 분포가 존재한다"는 의미다.
그러니까 한 마디로 말하자면, 베이지안 관점에서는 "모델의 파라미터도 확률 변수로 취급한다.".
그럼 하이퍼파라미터란 뭔가요?
하이퍼파라미터는, 역시 한 마디로 말하자면 파라미터의 분포를 정해주는 상위 개념이다.
예를 들자면
- 베르누이 확률 θ를 모델링할 때:
→ θ는 베타 분포 Beta(α,β)를 따른다고 가정
→ 여기서 α, β는 하이퍼파라미터 - 범주형 확률 벡터 θ를 모델링할 때:
→ 디리클레 분포 Dir(α)를 사용
→ α가 하이퍼파라미터
즉, 하이퍼파라미터는 "파라미터의 확률 분포의 모양"을 정한다.
그러니까 정리하자면 파라미터 자체를 확률 변수로 보았을 때,
하이퍼파라미터란 그 파라미터의 확률 분포(의 형태나 성질)를 정의하는 상위 파라미터이다.
요약
개념 | 설명 |
확률 모델 | 입력 x에 대해 출력 y의 확률을 예측하는 모델 (Pr(y∣x;θ)) |
파라미터의 불확실성 | 적은 데이터, 잡음, 모델 불확실성 등으로 인해 θ에 확신이 없음 |
파라미터 분포 Pr(θ) | 파라미터 자체를 확률 변수로 보고, 그 위에 분포를 정의함 |
하이퍼파라미터 | 이 파라미터 분포(Pr(θ))의 모양을 결정하는 상위 파라미터 |
'ML+DL > Computer Vision By Simon J.D. Prince' 카테고리의 다른 글
Chapter 3: Common Probability Distributions (0) | 2025.04.03 |
---|---|
감마 함수 (Gamma Function) (1) | 2025.03.26 |
확률 밀도 함수(Probability Density Function, pdf) (0) | 2025.03.25 |
Chapter 2: Introduction to probability (0) | 2025.03.21 |
베이즈 정리(Bayes' theorem) (0) | 2025.03.21 |
Part I: Probability (0) | 2025.03.19 |
- Total
- Today
- Yesterday
- 맛집
- 칼이사
- 파이썬
- Algorithm
- 중남미
- 지지
- RX100M5
- 면접 준비
- 자바
- 백준
- 유럽
- BOJ
- 리스트
- 세계여행
- spring
- Python
- a6000
- 스트림
- 기술면접
- Backjoon
- 야경
- 알고리즘
- 동적계획법
- 스프링
- 유럽여행
- 세모
- java
- 세계일주
- 여행
- 남미
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |