티스토리 뷰

728x90
반응형

목차

     

    서론

     

    컴퓨터 비전의 목표는 이미지에서 유용한 정보를 추출하는 것이다. 

     

    그러나 이는 예상보다 훨씬 어려운 문제로 밝혀졌으며, 

     

    지난 40년 동안 수많은 창의적이고 지적인 연구자들이 이 문제를 해결하려고 노력해 왔지만, 

     

    여전히 범용적인 "시각 기계(seeing machine)"를 구축하는 데에는 크게 미치지 못하고 있다.

     

    그림 1.1 다수의 객체가 포함된 시각적 장면으로, 이들 대부분은 부분적으로 가려져 있다. 빨간색 원 은 하늘과 건물 사이의 경계에서 밝기 변화가 거의 없는 부분을 나타낸다. 반면, 초록색 원 은 강한 명암 차이가 존재하는 영역을 가리키지만, 이는 실제 객체의 경계나 재질 변화 때문이 아니라 단순한 조명 효과로 인해 발생한 것이다.

    이러한 어려움의 근본적인 원인 중 하나는 시각 데이터의 복잡성이다. 

     

    예를 들어 그림 1.1을 살펴보면, 장면에는 수백 개의 객체가 존재하며, 

     

    이들 대부분은 "전형적인" 자세를 취하고 있지 않다. 

     

    또한 거의 모든 객체가 부분적으로 가려져 있다. 

     

    컴퓨터 비전 알고리즘의 관점에서 보면, 개별 객체의 경계를 명확하게 식별하는 것조차 쉽지 않다. 

     

    예를 들어, 하늘과 배경의 흰색 건물 사이에는 이미지 강도(intensity)의 변화가 거의 없다. 

     

    반면, 전경에 위치한 SUV의 뒷유리에서는 강한 명암 차이가 나타나지만, 

     

    실제로는 이 부분에 객체의 경계나 재질 변화가 존재하지 않는다.

     


     

    그럼에도 불구하고 컴퓨터 비전 알고리즘의 개발 가능성에 대한 희망을 잃지 않는 이유는 하나의 분명한 증거 때문이다. 

     

    인간의 시각 시스템은 이러한 복잡한 장면을 쉽게 처리할 수 있기 때문이다. 

     

    예를 들어, 그림 1.1에서 나무의 개수를 세거나 거리의 구조를 스케치하는 것은 어렵지 않다. 

     

    심지어 인종, 자동차 유형, 날씨 등의 미묘한 시각적 단서를 통해 이 사진이 촬영된 위치를 짐작할 수도 있다.

     


     

    즉, 컴퓨터 비전은 불가능한 것이 아니라 매우 어려운 문제라는 점이 명확해진다. 

     

    인간이 장면을 볼 때, 우리가 인식하는 정보는 이미 고도로 처리된 결과이다. 

     

    예를 들어, 밝은 태양 아래에서 석탄을 볼 때와 실내에서 흰 종이를 볼 때, 

     

    실제로 눈에 들어오는 광자의 양은 석탄 쪽이 훨씬 많지만, 우리는 여전히 석탄을 검은색, 종이를 흰색으로 인식한다. 

     

    이는 인간의 시각 시스템이 수행하는 다양한 보정 과정 덕분이지만, 

     

    컴퓨터 비전 알고리즘을 구축할 때 이러한 자연스러운 전처리 과정을 이용할 수는 없다.

     


     

    그럼에도 불구하고 최근 컴퓨터 비전 분야에서는 획기적인 발전이 이루어졌다. 

     

    지난 10년 동안 최초로 대규모 소비자용 컴퓨터 비전 기술이 실제로 적용되었으며, 

     

    대표적인 예로 대부분의 디지털카메라에 내장된 얼굴 인식 알고리즘을 들 수 있다. 

     

    또한, 마이크로소프트의 Kinect는 실시간으로 인간의 움직임을 추적할 수 있는 장치로, 

     

    당시 가장 빠르게 판매된 소비자 전자기기로 기네스 세계 기록을 세웠다. 

     

    본 책에서는 이러한 응용 분야의 원리를 설명한다.

     


     

    컴퓨터 비전이 최근 빠르게 발전한 이유는 여러 가지가 있다. 

     

    가장 명확한 이유는 컴퓨터의 연산 능력, 메모리 용량, 저장 공간이 기하급수적으로 증가했기 때문이다. 

     

    초기 컴퓨터 비전 연구자들이 고해상도 이미지를 메모리에 저장하는 것조차 어려웠다는 점을 고려하면, 

     

    당시의 한계를 감안할 필요가 있다. 

     

    또 다른 중요한 발전 요인은 기계 학습(machine learning) 도입이다. 

     

    지난 20년 동안 기계 학습 연구가 활발히 진행되었으며, 

     

    현재는 컴퓨터 비전 응용 프로그램에서 광범위하게 사용되고 있다.

     

    기계 학습은 유용한 도구를 제공할 뿐만 아니라 기존 알고리즘의 원리를 새로운 시각에서 이해하는 데에도 기여했다.

     


     

    컴퓨터 비전의 미래는 매우 기대할 만하다. 

     

    연구가 지속적으로 발전하고 있으며, 향후 10년 동안 인공지능 기반 시각 기술이 더욱 보편화될 것으로 예상된다. 

     

    그러나 이 분야는 여전히 초기 단계에 있다. 

     

    최근까지도 그림 1.1과 같이 복잡한 장면을 처리하는 것은 불가능에 가까운 것으로 여겨졌다. 

     

    Szeliski(2010)의 표현을 빌리면, 

     

    "컴퓨터가 사진 속 모든 객체의 이름을 붙이고 경계를 정확히 구분할 수 있으려면 
    아직도 오랜 시간이 필요할 것이다."

     

    본 책은 현재까지 이루어진 성과를 정리하고, 이러한 발전을 가능하게 한 핵심 원리를 설명하는 데 초점을 맞춘다.

     

    책의 구성

     

    그림 1.2: 장별 의존성(Chapter Dependencies) 책의 구성은 여섯 개의 주요 부분으로 나누어져 있으며, 각 부분은 이전에 배운 개념들을 바탕으로 점진적으로 발전한다. 첫 번째 부분은 확률론에 대한 개요를 다루며, 이후 모든 장의 기초가 된다. 책에서 소개하는 모델들은 확률적 개념을 기반으로 하기 때문에, 이 내용을 이해하지 않고서는 후속 내용을 따라가기 어렵다. 두 번째 부분에서는 머신러닝과 추론을 다룬다. 여기서는 생성 모델(generative models)과 판별 모델(discriminative models) 모두를 소개하며, 머신러닝을 통해 이미지 데이터에서 정보를 추출하는 방법을 설명한다. 세 번째 부분은 그래픽 모델(graphical models)에 초점을 맞춘다. 이는 대규모 모델에서 변수들 간의 확률적 종속 관계를 시각적으로 표현하는 기법으로, 데이터와 우리가 추정하려는 속성 간의 관계를 보다 효율적으로 모델링할 수 있도록 한다. 네 번째 부분에서는 이미지 전처리 기법을 설명한다. 비록 대부분의 모델을 이해하는 데 필수적인 요소는 아니지만, 실제 비전 시스템의 성능을 결정하는 데 있어 전처리 과정은 매우 중요한 역할을 한다. 다섯 번째 부분에서는 기하학적 컴퓨터 비전을 다룬다. 여기서는 투영 변환과 카메라 모델을 통해 3D 세계의 점이 이미지 평면 상에 어떻게 맺히는지를 설명하고, 카메라의 위치 추정 및 3D 모델 복원 기법을 소개한다. 마지막으로, 여섯 번째 부분에서는 다양한 비전 모델들을 살펴본다. 여기서는 얼굴 인식, 객체 추적, 객체 인식 등 컴퓨터 비전의 핵심 문제들을 해결하는 데 사용되는 대표적인 알고리즘들을 다룬다. 이러한 구성은 각 장이 서로 의존하는 방식으로 짜여 있으며, 앞선 개념을 확실히 이해해야만 후속 내용을 효과적으로 학습할 수 있도록 설계되었다.

    이 책의 구조는 그림 1.2에 나타나 있다. 

     

    총 여섯 개의 부분으로 나누어져 있으며, 각 부분은 컴퓨터 비전의 핵심 개념과 관련된 주제를 다룬다.

     

    1부: 확률론

     

    책의 첫 번째 부분은 확률론에 대한 배경 지식을 제공한다. 

     

    본문에서 다루는 모든 모델은 확률을 기반으로 표현되며, 이는 컴퓨터 비전 응용을 설명하는 데 매우 유용한 언어이다. 

     

    공학 수학에 대한 깊은 배경지식을 가진 독자라면 익숙한 내용이 많겠지만, 

     

    사용된 표기법을 다시 확인하는 차원에서라도 빠르게 훑어보는 것이 좋다. 

     

    반면, 이 배경지식이 부족한 독자는 이 장을 주의 깊게 읽어야 한다. 

     

    내용 자체는 비교적 단순하지만, 이후 등장하는 모든 개념의 기초를 형성하므로 반드시 이해해야 한다.

    컴퓨터 비전에 대한 논의가 시작되기 전에 50페이지에 걸친 수학 내용을 읽는 것이 답답할 수도 있지만, 

     

    이는 앞으로의 내용을 탄탄하게 이해하는 데 필수적인 기초를 제공할 것이다.

     

    2부: 머신러닝과 추론

     

    책의 두 번째 부분은 머신러닝을 활용한 컴퓨터 비전에 대해 설명한다. 

     

    여기서는 이미지를 통해 유용한 정보를 추출하는 핵심 원리를 다룬다. 

     

    본 장에서는 이미지 데이터와 우리가 추출하려는 정보 간의 관계를 설명하는 통계적 모델을 구축하는 방법을 학습한다. 

     

    이 내용을 소화한 후에는 대부분의 비전 문제에 대해 모델을 설계할 수 있는 능력을 갖추게 될 것이다. 

     

    물론, 처음에는 실용성이 떨어지는 모델일 수도 있지만, 이는 발전의 출발점이 된다.

     

    3부: 그래픽 모델

     

    세 번째 부분에서는 컴퓨터 비전을 위한 그래픽 모델을 소개한다. 

     

    그래픽 모델은 이미지 데이터와 우리가 추정하려는 속성 간의 관계를 단순화하는 프레임워크를 제공한다. 

     

    이미지 데이터와 대상 속성이 고차원인 경우, 이들 간의 통계적 관계는 지나치게 복잡해질 수 있다. 

     

    모델을 정의할 수는 있지만, 현실적으로 훈련 데이터를 확보하거나 계산 자원을 확보하는 것이 어렵다. 

     

    그래픽 모델은 이러한 관계를 효과적으로 간소화하여 모델을 실용적으로 만들 수 있는 수단을 제공한다.

     

    4부: 이미지 전처리

     

    네 번째 부분은 이미지 전처리에 관한 내용이다. 

     

    이 장을 이해하지 못하더라도 책에서 다루는 대부분의 모델을 학습하는 데에는 문제가 없다. 

     

    그러나, 이미지 전처리 방법의 선택은 모델 선택만큼이나 최종 성능을 결정하는 핵심 요소이다. 

     

    이미지 처리는 이 책의 주요 주제가 아니지만, 본 장에서는 실무적으로 가장 중요한 기법들을 간결하게 정리한다.

     

    5부: 기하학적 컴퓨터 비전

     

    다섯 번째 부분은 기하학적 컴퓨터 비전(Geometric Computer Vision)을 다룬다. 

     

    여기서는 투영식 핀홀 카메라 모델을 소개하는데, 

     

    이는 3D 세계의 특정 점이 카메라의 픽셀 배열 상에서 어디에 맺히는지를 기술하는 수학적 모델이다. 

     

    이 모델과 관련하여, 카메라의 위치를 장면 내에서 찾는 방법, 그리고 객체의 3D 모델을 복원하는 방법을 다룬다.

     

    6부: 주요 컴퓨터 비전 모델

     

    마지막 여섯 번째 부분에서는, 앞서 설명한 개념들을 기반으로 다양한 컴퓨터 비전 모델을 소개한다. 

     

    이 모델들은 얼굴 인식(face recognition), 트래킹(tracking), 객체 인식(object recognition) 등 

     

    컴퓨터 비전에서 가장 핵심적인 문제들을 해결하는 데 사용된다.

    반응형

    'ML+DL > Computer Vision By Simon J.D. Prince' 카테고리의 다른 글

    Part I: Probability  (0) 2025.03.19
    댓글
    공지사항
    최근에 올라온 글
    최근에 달린 댓글
    Total
    Today
    Yesterday
    링크
    «   2025/03   »
    1
    2 3 4 5 6 7 8
    9 10 11 12 13 14 15
    16 17 18 19 20 21 22
    23 24 25 26 27 28 29
    30 31
    글 보관함