티스토리 뷰

728x90
반응형

 

들어가며

 

비전 인공지능에 대한 책을 공부하던 중 이런 문장을 만났다:

"모델을 데이터에 피팅할 때, 그 피팅의 불확실성을 확률 분포로 표현한다."

 

"파라미터 위에 또 하나의 확률 분포가 존재한다. 이를 하이퍼파라미터로 제어한다."

 

 

이건 또 무슨 말인가. 모델을 만들었으면 끝이지 왜 또 확률 분포가 등장하는 것인가.

 

이 글에서는 위 문장의 뜻을 내가 알아들을 수 있는 수준으로 파헤쳐본다.

 

비전 인공지능 모델 = 확률 모델

 

시각 인공지능, 즉 컴퓨터 비전 모델은 결국 이런 형태로 표현된다:

 

Pr(yx;θ)

 

  • x: 입력 이미지 (예: 강아지 사진)
  • y: 예측 결과 (예: "강아지" vs "고양이")
  • θ: 모델 파라미터 (예: 신경망 weight)

즉, 확률 모델이란 "입력 x가 주어졌을 때 출력 y가 나올 확률"을 계산해 주는 모델이다.

 

이게 바로 우리가 학습시키는 분류기, 회귀모델, 객체 인식기 등 모든 비전 모델의 근본 구조이다.

 

Pr(yx;θ) ?

 

많은 책이나 논문에서는 Pr(yx,θ)Pr(yx;θ)처럼 쓰는 경우가 있다.

 

여기서 세미콜론(;)은 구분자 역할을 하며, 

 

문맥상 "학습 대상이 아니라 모델 내부적으로 고정된 값"임을 나타내기 위해 일부러 쓰는 경우가 많다.

 

  • x: 입력 (변할 수 있는 값)
  • y: 출력 (예측 대상)
  • θ: 모델 파라미터 (학습 이후 고정)

즉, 실질적으로 Pr(yx,θ)와 의미는 같지만,

 

세미콜론은 "모델링의 대상은 아니지만 함수 형태에 영향을 주는 값"을 암묵적으로 표현한 것이다.

 

그런데 왜 파라미터에 대한 '불확실성'이 필요하지?

 

예를 들어, 아래와 같은 분류 문제를 생각해 보자.

  • 100장의 강아지 사진
  • 100장의 고양이 사진

이 데이터를 이용해 모델을 학습하면 어떤 weight θ가 나올 것이다.

 

우리는 보통 이렇게 말한다:

"데이터에 가장 잘 맞는 최적의 파라미터 θ를 찾았다!"

 

 

그런데 잠깐. 이 θ는 정말 최선일까?

 

데이터가 충분하지 않다면, θ는 실제 데이터 분포와 많이 다를 수도 있다.

 

즉, 우리가 찾은 θ는 "확률적으로 볼 때, 좋은 파라미터일 가능성이 높은 것"일뿐이다.

 

이 불확실성을 정량적으로 다루기 위해 파라미터 θ를 고정된 값이 아닌 '확률 변수'로 본다.

파라미터 위에 또 하나의 확률 분포가 있다고?

 

안타깝게도 그렇다. 그리고 이제 바로 베이지안 관점의 핵심이다.

 

기존 방식 (최대우도법 등)에서 θ는 하나의 고정된 값이며, 우리는 이 값을 최대한 잘 찾는 것을 목표로 한다.

 

하지만 베이지안 관점에서는:

θ도 확률 변수이다.
그러므로 우리는 θ 자체에 대한 확률 분포 Pr(θ)를 정의한다.

 

그리고 이 분포를 바탕으로 최종 예측도 평균적으로 계산한다:

 

Pr(yx)=Pr(yx,θ)Pr(θ)dθ

 

이게 바로 "파라미터 위에 또 하나의 확률 분포가 존재한다"는 의미다.

 

그러니까 한 마디로 말하자면, 베이지안 관점에서는 "모델의 파라미터도 확률 변수로 취급한다.".

 

그럼 하이퍼파라미터란 뭔가요?

 

하이퍼파라미터는, 역시 한 마디로 말하자면 파라미터의 분포를 정해주는 상위 개념이다.

 

예를 들자면

 

  • 베르누이 확률 θ를 모델링할 때:
    → θ는 베타 분포 Beta(α,β)를 따른다고 가정
    → 여기서 αβ는 하이퍼파라미터
  • 범주형 확률 벡터 θ를 모델링할 때:
    → 디리클레 분포 Dir(α)를 사용
    → α가 하이퍼파라미터

즉, 하이퍼파라미터는 "파라미터의 확률 분포의 모양"을 정한다.

 

그러니까 정리하자면 파라미터 자체를 확률 변수로 보았을 때,

 

하이퍼파라미터란 그 파라미터의 확률 분포(의 형태나 성질)를 정의하는 상위 파라미터이다.

 

요약

 

개념 설명
확률 모델 입력 x에 대해 출력 y의 확률을 예측하는 모델 (Pr(yx;θ))
파라미터의 불확실성 적은 데이터, 잡음, 모델 불확실성 등으로 인해 θ에 확신이 없음
파라미터 분포 Pr(θ) 파라미터 자체를 확률 변수로 보고, 그 위에 분포를 정의함
하이퍼파라미터 이 파라미터 분포(Pr(θ))의 모양을 결정하는 상위 파라미터

 

반응형
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함