티스토리 뷰

728x90
반응형

목차

    CNN에서는 합성곱 계층(Convolutional Layer)에서 활성화 함수(예: ReLU)를 적용한 후,

     

    완전 연결층(Fully Connected Layer)에서도 활성화 함수를 한 번 더 적용한다.

     

    이유는 완전 연결층이 수행하는 역할과 신경망의 학습 방식 때문이다.

     

    활성화 함수는 왜 여러 번 적용될까?

     

    CNN의 각 계층에서 활성화 함수를 적용하는 이유는 

     

    각 층이 독립적으로 의미 있는 표현(Feature Representation)을 학습해야 하기 때문이다.

     

    즉, 합성곱 계층과 완전 연결층이 담당하는 역할이 다르므로, 활성화 함수를 두 번 적용하는 것이 필수적이다.

     

     

    합성곱 계층(Convolutional Layer)에서 활성화 함수 역할

     

    합성곱 연산을 통해 CNN은 로우 레벨 특징(Low-level Features)을 추출한다.

    • 예: 가장자리(edge), 패턴(pattern), 색상 정보 등

     

    이때 ReLU 활성화 함수를 적용하면,

    • 비선형성을 추가하여 CNN이 단순한 선형 변환을 넘어서 다양한 패턴을 학습할 수 있도록 한다.
    • 음수를 제거하여 특정 특징이 강조되도록 한다.

     

    즉, 합성곱 계층에서는 이미지의 주요 특징을 강조하면서도, 비선형 변환을 추가하는 역할을 한다.

     

    합성곱 계층에서의 활성화 함수 적용 예시

    • 여기서 $W_{conv}$는 합성곱 필터(커널)
    • $Z_{conv}$는 합성곱의 결괏값
    • $A_{conv}$는 활성화 함수가 적용된 결과

    이 과정을 통해 CNN은 비선형 패턴을 더 잘 학습할 수 있다.

     

    완전 연결층(Fully Connected Layer)에서 활성화 함수 역할

     

    CNN의 마지막 단계인 완전 연결층(FC Layer)에서는

     

    합성곱 계층에서 추출된 특징을 조합하여 최종 분류(Classification)를 수행한다.

     

    이때, 완전 연결층이 여러 개의 층을 가진다면, 각 층에서도 활성화 함수를 적용해야 한다.

     

    이유: 깊은 신경망에서 비선형성을 유지하기 위해

     

    • 신경망은 여러 층을 쌓아갈수록 각 층이 서로 다른 표현을 학습해야 한다.
    • 만약 활성화 함수를 한 번만 적용하고, 뒤에서 다시 적용하지 않는다면?

      • 신경망 전체가 선형 변환에 가까워져 뉴런이 깊어도 같은 표현을 반복하게 된다.
      • 결국 "깊이 쌓아도 깊이 있는 학습이 안 되는 현상"이 발생한다.
      • 이를 방지하려면 완전 연결층에서도 비선형성을 추가해 표현력을 높여야 한다.

    완전 연결층에서의 활성화 함수 적용 예시

     

    • 여기서 $W_{fc}$는 완전 연결층의 가중치
    • $A_{fc}$는 활성화 함수가 적용된 값

    즉, 완전 연결층에서도 활성화 함수를 적용하지 않으면 네트워크가 충분한 표현력을 가지지 못한다.

     

    소프트맥스(Softmax)와 활성화 함수의 관계

     

    완전 연결층에서 ReLU 적용

     

    CNN의 완전 연결층은 보통 은닉층(Hidden Layer)출력층(Output Layer)으로 나뉜다.

    • 은닉층에서는 ReLU를 적용하여 표현력을 높인다.
    • 출력층에서는 Softmax를 적용하여 확률값을 만든다.

     

    즉, 은닉층에서는 ReLU, 출력층에서는 Softmax를 적용하는 것이 일반적이다.

     

    소프트맥스는 활성화 함수인가?

     

    소프트맥스(Softmax)는 확률 분포를 생성하는 함수이며, 출력층에서만 사용된다.

    여기서 소프트맥스는 최종적으로 분류 문제를 해결하기 위해 사용되는 함수이므로,

     

    ReLU처럼 중간층에서 표현력을 늘리는 기능을 하지는 않는다.

     

    CNN에서 활성화 함수 적용 흐름 정리

     

    활성화 함수가 적용되는 주요 지점

     

    1. 합성곱 계층 (Conv Layer)

      • 합성곱 수행 후 ReLU 적용하여 특징을 강조
      • 패턴을 학습하고, 비선형성을 추가함
    2. 완전 연결층 (FC Layer)

      • 은닉층에서는 ReLU 적용하여 표현력 향상
      • 출력층에서는 Softmax 적용하여 확률값 생성

    활성화 함수를 여러 번 적용하는 이유

     

    • 비선형성을 유지하여 신경망이 다양한 패턴을 학습할 수 있도록 함
    • 각 층이 고유한 특징을 학습하도록 도움
    • 출력층에서 확률값을 구하기 위해 Softmax를 사용

     

    결론적으로, CNN에서는 합성곱 계층과 완전 연결층에서 각각 활성화 함수를 적용하는 것이 필수적이다.

     

    이를 통해 네트워크가 충분한 표현력을 가지며, 최종적으로 정확한 분류를 수행할 수 있다.

     

     

    반응형
    댓글
    공지사항
    최근에 올라온 글
    최근에 달린 댓글
    Total
    Today
    Yesterday
    링크
    «   2025/03   »
    1
    2 3 4 5 6 7 8
    9 10 11 12 13 14 15
    16 17 18 19 20 21 22
    23 24 25 26 27 28 29
    30 31
    글 보관함