-
과목 설명CS/SimilaritySearch 2023. 5. 27. 07:58
본 카테고리에서 다루는 내용은 'Similarity Searching in Multimedia Data'라는 과목의 시험을 준비하며 공부한 내용을 기록한 것이다.
모든 내용은 prof. Ing. Pavel Zezula, CSc. 교수의 강의자료에서 발췌하였다.
이 과목의 목차는 다음과 같다.
Part 1 : Metric searching in a nutshell
- Foundations of metric space searching
- Survey of existing approaches
Part 2 : Metric searching in large collections
- Centralized index structures
- Approximate similarity search
- Parallel and distributed indexes
배운 내용의 서술에 앞서, similarity search가 무엇인지와 metric space의 사용 이유에 대한 이유를 간단히 얘기해보자 한다.
과목의 분량이 방대하였기 때문에, 시험을 대비하기 위해서 어디부터 손을 대야할지 막막하였다.
결국 교수님께 메일로 평가범위와 방식에 대한 질문을 드렸고,
이에 대한 답변을 다음 수업시간에 들을 수 있었는데,
이 설명을 듣고 비로소 내가 무엇을 배우고 있는지,
또 Metric space가 무엇이고 왜 사용하는지를 알 수 있었다.
다음은 교수님이 설명해주신 내용의 녹음본을 다시 들으며 간단하게 의역한 내용이다.
similarity search는 중요한 패러다임이다.
우리는 기본적인 priciple of similarity search는 wep searching등을 통해서 알고 있다.
과거에는 존재하지 않았던 디지털 데이터들이 있기에 similariy search는 더 많은 domain으로 확장할 수 있고,
확장하고 있다.
특히 이미지같은 complex한 data들은 너무 복잡해서 similarity search가 필요하다.
exact level에서 비교하는 traditional searching method로는 할 수 없기 때문이다.
이러한 similarity search는 metric space model에 based on 하는데,
그 이유 중 하나는, 컴퓨터에서 implement하기 위해서 formal model이 필요하기 때문이다.
나는 너희가 metric space가 뭔지, metric space의 varity를 알고 있는지, 최소한 뭐를 위해 존재하는지(vector나 set이나 string같은),
등을 알고있기를 바란다.
이 강의는 mandatory한 강의가 아니라는 것을 알고 있고, 너희들이 그냥 새로운 패러다임을 익히기 위해 이곳에 앉아있다는것을 이해하고 있다.
따라서 너희들을 문제로 torture할 생각은 없으며, 매우 basic한 문제들을 물어볼것이다.
(라고 하시고 실제로는 꽤 깊게 물어보셨다..
게쉙히)너희들이 metric space의 데이터를 가지고 무엇을 할수 있는지 생각해봐라.
가장 큰 문제는 강의 초반부에 말한, 'there's no sorting'이다.
전통적인 데이터 프로세싱 테크닉들이 sorting에 based on 하였다.
하지만 4차원 벡터로 예를 들어 생각하면, 모든 것은 상대적이기 때문에 sorting 할 수가 없다.
블라블라..
내가 중요하다고 생각하는 핵심 정리
- 결국 우리가 하고자 하는 것은, '방대한 데이터 속에서 우리가 원하는 데이터 찾기' 이다.
- 데이터를 찾기 위해서 query문을 사용한다. 쿼리란' 데이터베이스나 파일의 내용 중 원하는 내용을 검색하기 위하여 몇 개의 코드(code)나 키(Key)를 기초로 질의하는 것을 말한다.'
- 데이터를 찾는다는 것은, 내가 요구하는 조건을 데이터들과 '비교'하며 해당하는 데이터를 뽑아내는 것이다.
- 데이터가 많을수록, 또 복잡할수록 이 조건을 일일이 검사하는 과정은 오래걸리고, 이를 최적화 하는 방법이 알고리즘에 달려있다.
- 우리는 그 알고리즘을 배우는 것이다.
'CS > SimilaritySearch' 카테고리의 다른 글
Policies to Avoid Distance Computations - (1) (0) 2023.05.27 Principles of Similarity Query Execution (0) 2023.05.27 Basic partitioning principles (0) 2023.05.27 Similarity queries (0) 2023.05.27 Metric Space - 거리 공간 (0) 2023.05.27