이미지 검색의 시작 The Origin of an Image Retrieval

Prologue

여자친구와 메신저를 하던 중에, 작은 말다툼이 있었다. 예전에 예쁘고 먹음직스러운 ‘사과 an apple‘ 사진을 하드디스크 어딘가에 저장해 둔 기억이 어렴풋이 있는데 그 사진을 찾아서 토라진 여친에게 애교스럽게 ‘사과 an apology‘를 구해야 겠다.

그런데, 당최 그 파일을 어디 두었는지 찾을 수가 없다.

하나의 이미지가 필요할 때, 우리는 보통(적어도 지금까지는) 그것의 ‘이름’을 생각한다. 예를 들어 사과 사진을 웹에서 검색을 하고 싶을 때 우리는 ‘사과’라는 검색어를 이용하여 이미지를 검색하게 되는 것 처럼 말이다.

'apple' 검색 결과

그러나 검색의 대상이, 누군가 친절하게 검색에 용이한 정보(카테고리 또는 키워드)들을 입력해 둔 웹의 이미지서버가 아닌 내 컴퓨터 안의 이미지 파일들이라면 과연 이러한 검색이 가능할까? 심지어 내가 ‘사과’가 아닌 다른 이름으로 이미지를 저장해 둔 경우, 그리고 어떤 이름으로 저장을 해 두었는지 모를 경우 상황은 훨씬 답답해 진다. 그리고 언젠가는 저장해 두었을 그 ‘사과’ 사진을 잊은채 또다른 사과 사진을 하드디스크에 저장하게 될 지도 모른다.

touch me, baby!

앞서 이야기한 것 처럼 웹에서는 이러한 검색이 일부 가능하다. 친절한 검색엔진님 또는 이를 개발하고 다듬는 많은이들의 도움으로 비교적 쉽게 원하는 영상을 찾는 수 있는 것이다. 우리는 이러한 검색 방법을 텍스트기반 이미지 검색 Text-based Image Retrieval, TBIR이라고 부른다.

이러한 텍스트기반 이미지 검색을 이용하여 다양한 형태로 이미지 검색이 가능해 졌다. ‘녹색 사과’를 찾을 수 있고 Apple사의 로고와 같이 ‘깨물어 먹은 사과’ 사진도 검색이 가능하다.

텍스트기반 이미지 검색의 다양한 예

그러나 이러한 방법에도 문제는 있다. 이 ‘친절한’씨 들이 다량의 이미지들에 주석을 달고 데이터베이스를 구축하는데 들이는 시간과 비용이 엄청나고, ‘주관성’이라는 요소가 개입 되면서 같은 이미지가 전혀 다른 키워드로 분류될 수 있는 위험요소가 존재하는 것이다.

또한 앞서 이야기한 예에서 처럼 이런 방법으로 내 컴퓨터 속에 들어 있는 ‘필요’ 이미지를 찾아내는 것은 여전히 불가능해 보인다.

그래서 사람들은 다른 방법을 생각했다. 이미지의 색상, 질감, 모양 등 이미지를 구성하는 기본적인 요소들을 자동으로 추출하여 검색을 할 수는 없을까? 그리고 그러한 요소들을 수치화 해서 사용자의 주관을 배제한 객관화 된 검색 성능을 제공할 수는 없을까? 이러한 필요에 의해 내용기반 이미지 검색 Content-based Image Retrieval, CBIR이 세상에 모습을 나타내었다.

사람들은 환호했다. 내가 검색하고자 했던 이미지와 시각적으로 비슷한 영상들이 검색 결과로 주루룩 연결되어 나오는 모습은 정말 획기적이지않은가? 그 무엇보다도 놀라운 점은 이 모든것이 사람 손에 의해 분류된 것이 아닌 프로그램에 의해 ‘자동’으로 추출된 특징에 의한 검색 결과이기 때문이다. 검색 프로그램은 다양한 색상과 모양을 가지는 이미지들을 쿼리로 하여 같은 색상, 모양을 가지는 이미지들을 결과로 쏟아내었다. 그리고 이는 분명히 이전의 검색방식들에 비하여 훨씬 성능이 좋은 검색 결과를 제공하고 또 편의를 제공할 것이라고 여겨졌다.

그러나 이러한 비약적인 발전에도 불구하고, 내용기반 이미지 검색방식은 풍운의 꿈을 안고 서울생활을 시작한 시골 촌뜨기의 꿈처럼 금세 깨어져 버렸다. 본디 이미지라고 하는 것은 말로는 다 설명할 수 없는 ‘장면’과 누구나 다르게 표현 가능한 ‘느낌’이라는 것을 담고 있기 마련이다. 사람들은 언어를 초월한, 내가 원하는 사람 또는 사물이 있는, 내가 원하는 장면이 있는 이미지 검색 결과를 보기를 원한다.

이미지에서 추출할 수 있는 색상, 질감 등의 원시적인 특징정보와 사람들이 원하는 추상적이고 논리적이며 복합적인 특징정보 사이의 차이를 우리는 Semantic Gap [1]이라 부른다. 이제부터는 이러한 Semantic Gap을 줄이기 위한 노력이 계속 된다.