Effiziente Erstellung aufgabenspezifischer Bilderkennungssysteme

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: https://repositorium.ub.uni-osnabrueck.de/handle/urn:nbn:de:gbv:700-2014072912641
Titel: Effiziente Erstellung aufgabenspezifischer Bilderkennungssysteme
Autor(en): Möhrmann, Julia Mandy
Erstgutachter: Prof. Dr. Gunther Heidemann
Zweitgutachter: Prof. Dr. Daniel Weiskopf
Prof. Dr. Kai-Uwe Kühnberger
Zusammenfassung: Die Entwicklung von Bilderkennungssystemen ist ein hochkomplexer Prozess, der derzeit fast ausschließlich von Experten mit entsprechenden Fachkenntnissen bewältigt werden kann. Bilderkennungssysteme haben durch die allgegenwärtige Verfügbarkeit an Bilddaten und ihren kostenneutralen Einsatz das Potential, eine wichtige Rolle in der digitalisierten Gesellschaft zu spielen. Jedoch ist ihr Einsatz effektiv durch den nicht vorhandenen Zugang zu entsprechenden Entwicklungswerkzeugen limitiert. Diese Arbeit verfolgt das Ziel, ein Software-Framework bereitzustellen, das von Anwendern ohne Fachkenntnisse genutzt werden kann. Hierfür werden die einzelnen Schritte des Entwicklungsprozesses betrachtet und an diese Zielgruppe adaptiert. Im Detail bedeutet dies für das in dieser Arbeit präsentierte Software-Framework FOREST (Flexible Object Recognition System), dass - der Entwicklungsprozess größtmöglich automatisiert abläuft, - nicht automatisierbare Komponenten vereinfacht werden - und eine intuitive Benutzungsoberfläche bereitgestellt wird, die keine Einarbeitungszeit und Fachkenntnisse erfordert. Im Gegensatz zu existierenden Entwicklungswerkzeugen ist das Ziel von FOREST nicht die Entwicklung eines speziellen Bilderkennungssystems, sondern die Adaption an die vom Anwender intendierte Erkennungsaufgabe. Allein durch die Auswahl einer Bilddatenquelle und der Annotation der Bilder lernt FOREST einen Klassifikator, der die Erkennungsaufgabe löst. Das resultierende Bilderkennungssystem wird auch als aufgabenspezifisches Bilderkennungssystem bezeichnet, da es speziell auf die gestellte Erkennungsaufgabe trainiert wurde. Beispielsweise kann eine Webcam genutzt werden, um geöffnete Fenster zu detektieren und so Wetterschäden oder einen Einbruch zu vermeiden. Die Bereitstellung eines Entwicklungswerkzeugs für Anwender ohne Fachkenntnisse wird durch die automatische Bildverarbeitung mit einer großen Menge an Operatoren für die Merkmalsdetektion und die Merkmalsextraktion realisiert. Die Auswahl diskriminativer Merkmalsdeskriptoren für die Klassifikation aus dem Merkmalsdatensatz wird während des Trainingsprozesses durch einen Boosting-Klassifikator geleistet. Die modulare und erweiterbare Struktur des Frameworks ist entscheidend für den langfristig erfolgreichen Einsatz des Systems. FOREST stellt spezifizierte Schnittstellen für den Zugriff auf das System durch Benutzungsschnittstellen und die Erweiterung der Erkennungsfunktionalität bereit. Die Komponenten des Systems können zentral bereitgestellt werden und erlauben so die Nutzung ohne eine lokale Installation durch den Anwender. Die Definition der Erkennungsaufgabe findet durch die Annotation der Bilder, also der Zuweisung einer Kategorie zu jedem Bild, statt. Die Annotation ist ein sehr aufwändiger Prozess, da sie manuell durchgeführt werden muss. Die Qualität der Trainingsdaten und die Qualität der Annotationen, also die Korrektheit, haben direkten Einfluss auf die Ergebnisse des resultierenden Bilderkennungssystems. Der Annotationsaufwand wird mit Hilfe eines semi-automatischen Prozesses reduziert, indem Bilder ihrer Ähnlichkeit nach vorsortiert und in einer optimierten Benutzungsoberfläche dargestellt werden. Die Annotation ganzer Cluster in einem Zug ermöglicht eine effiziente Annotation des Datensatzes. Die Vorsortierung stellt aufgrund der unbekannten Natur der Bilder eine große Schwierigkeit dar, die durch die Integration verschiedener Bildmerkmale in einen Bag-of-Features (BoF) Histogramm-Merkmalsvektor gelöst werden kann. Die Vorsortierung der Bilder kann während des Annotationsprozesses weiter verbessert werden, indem partiell verfügbare Annotationen in einem semi-überwachten Lernprozess eingesetzt werden. Anhand partieller Annotationen wird die Gewichtung der Bildmerkmale so angepasst, dass die Ähnlichkeit innerhalb einer Kategorie erhöht wird. Zusätzlich erlaubt die Identifikation diskriminativer Bildmerkmale eine Visualisierung relevanter Bildregionen, die Anwendern als Qualitätsmaß für die neu berechnete Vorsortierung der Bilder dienen kann. Die Benutzungsschnittstellen sind auf eine visuelle Informationsdarstellung ausgelegt. FOREST erlaubt Laien-Anwendern die Entwicklung aufgabenspezifischer Bilderkennungssysteme in einem einfach gehaltenen Entwicklungsprozess, der notwendige Interaktionen auf ein Minimum beschränkt. Dennoch ist FOREST für Experten-Anwender nutzbar. Neue Operatoren können leicht in das System integriert und effizient evaluiert werden. Die Ergebnisse aufgabenspezifischer Erkennungssysteme, die mit FOREST entwickelt wurden, sind mit den Ergebnissen spezialisierter Systeme vergleichbar. Die detaillierte Analyse der Klassifikation zeigt zudem, dass trotz der Annotation ganzer Bilder mit einer Kategorie relevante Objektstrukturen erkannt und automatisiert für die Erkennung herangezogen werden. Der Entwicklungsaufwand für die Erstellung eines aufgabenspezifischen Bilderkennungssystems ist nicht mit der gemeinhin bekannten Entwicklung von Bilderkennungssystemen vergleichbar, da das System keine Programmierkenntnisse, kein Fachwissen und keine Eigenentwicklung erwartet. FOREST bietet daher für fachfremde Anwender ein Entwicklungswerkzeug und ermöglicht die Entwicklung von Bilderkennungssystemen für alltägliche Aufgaben. Damit legt FOREST den Grundstein für einen breiten Einsatz von Bilderkennungsanwendungen im Alltag.
URL: https://repositorium.ub.uni-osnabrueck.de/handle/urn:nbn:de:gbv:700-2014072912641
Schlagworte: Computer Vision; Bilderkennung; Annotation; Ground Truth Daten; Semi-überwachtes Lernen
Erscheinungsdatum: 29-Jul-2014
Enthalten in den Sammlungen:FB08 - E-Dissertationen

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat 
thesis_moehrmann.pdfPräsentationsformat21,32 MBAdobe PDFMiniaturbild
Öffnen/Anzeigen


Diese Ressource wurde unter folgender Copyright-Bestimmung veröffentlicht: Lizenz von Creative Commons Creative Commons