Semantic and Interactive Content-based Image Retrieval
Author | : Björn Barz |
Publisher | : Cuvillier Verlag |
Total Pages | : 322 |
Release | : 2020-12-23 |
ISBN-10 | : 9783736963467 |
ISBN-13 | : 3736963467 |
Rating | : 4/5 (67 Downloads) |
Book excerpt: Content-based Image Retrieval (CBIR) ist ein Verfahren zum Auffinden von Bildern in großen Datenbanken wie z. B. dem Internet anhand ihres Inhalts. Ausgehend von einem vom Nutzer bereitgestellten Anfragebild, gibt das System eine sortierte Liste ähnlicher Bilder zurück. Der Großteil moderner CBIR-Systeme vergleicht Bilder ausschließlich anhand ihrer visuellen Ähnlichkeit, d.h. dem Vorhandensein ähnlicher Texturen, Farbkompositionen etc. Jedoch impliziert visuelle Ähnlichkeit nicht zwangsläufig auch semantische Ähnlichkeit. Zum Beispiel können Bilder von Schmetterlingen und Raupen als ähnlich betrachtet werden, weil sich die Raupe irgendwann in einen Schmetterling verwandelt. Optisch haben sie jedoch nicht viel gemeinsam. Die vorliegende Arbeit stellt eine Methode vor, welche solch menschliches Vorwissen über die Semantik der Welt in Deep-Learning-Verfahren integriert. Als Quelle für dieses Wissen dienen Taxonomien, die für eine Vielzahl von Domänen verfügbar sind und hierarchische Beziehungen zwischen Konzepten kodieren (z.B., ein Pudel ist ein Hund ist ein Tier etc.). Diese hierarchiebasierten semantischen Bildmerkmale verbessern die semantische Konsistenz der CBIR-Ergebnisse im Vergleich zu herkömmlichen Repräsentationen und Merkmalen erheblich. Darüber hinaus werden drei verschiedene Mechanismen für interaktives Image Retrieval präsentiert, welche die den Anfragebildern inhärente semantische Ambiguität durch Einbezug von Benutzerfeedback auflösen. Eine der vorgeschlagenen Methoden reduziert das erforderliche Feedback mithilfe von Clustering auf einen einzigen Klick, während eine andere den Nutzer kontinuierlich involviert, indem das System aktiv nach Feedback zu denjenigen Bildern fragt, von denen der größte Erkenntnisgewinn bezüglich des Relevanzmodells erwartet wird. Die dritte Methode ermöglicht dem Benutzer die Auswahl besonders interessanter Bildbereiche zur Fokussierung der Ergebnisse. Diese Techniken liefern bereits nach wenigen Feedbackrunden deutlich relevantere Ergebnisse, was die Gesamtmenge der abgerufenen Bilder reduziert, die der Benutzer überprüfen muss, um relevante Bilder zu finden. Content-based image retrieval (CBIR) aims for finding images in large databases such as the internet based on their content. Given an exemplary query image provided by the user, the retrieval system provides a ranked list of similar images. Most contemporary CBIR systems compare images solely by means of their visual similarity, i.e., the occurrence of similar textures and the composition of colors. However, visual similarity does not necessarily coincide with semantic similarity. For example, images of butterflies and caterpillars can be considered as similar, because the caterpillar turns into a butterfly at some point in time. Visually, however, they do not have much in common. In this work, we propose to integrate such human prior knowledge about the semantics of the world into deep learning techniques. Class hierarchies serve as a source for this knowledge, which are readily available for a plethora of domains and encode is-a relationships (e.g., a poodle is a dog is an animal etc.). Our hierarchy-based semantic embeddings improve the semantic consistency of CBIR results substantially compared to conventional image representations and features. We furthermore present three different mechanisms for interactive image retrieval by incorporating user feedback to resolve the inherent semantic ambiguity present in the query image. One of the proposed methods reduces the required user feedback to a single click using clustering, while another keeps the human in the loop by actively asking for feedback regarding those images which are expected to improve the relevance model the most. The third method allows the user to select particularly interesting regions in images. These techniques yield more relevant results after a few rounds of feedback, which reduces the total amount of retrieved images the user needs to inspect to find relevant ones.