Objekterkennung

Aus Psycho
Wechseln zu: Navigation, Suche

Anfänge der Objekterkennung

Tradtioneller Ansatz von David Marr

Man soll interdisziplinär vorgehen Bild wird in Helligkeitswerte umgerechnet. Diese Werte werden in eine Zahlenmatrix eingetragen.. Dank einem Algorithmus konnten Kanten detektiert werden (Algorythmen orientieren sich an den Simple Cells aus unseren Augen) Primal Sketch De Computer kann Balken und Flecken erkennen. Mit Zwei Kameras kann die Tiefe via Disparität berechnet werden, man erhält Tiefeninformationen. Danach errechnete das Programm ein 2.5 D Sketch welcher die Flächen, sowie die räumliche Tiefe kennt. Danach werden Objekte aus verschiedenen Grundobjekten zusammengesetzt gebaut Ein Objekt wird als Teile wahrgenomen und verglichen mit was im "Gedächtnis" gespeichert ist.

Recognition by Components nach Biederman

Alltagsobjekte lassen sich durch einfache geometrische Grundelemente beschreiben. diese Grundelemente nanne Biederman Geone. Folie319

Fehler beim Erstellen des Vorschaubildes: Datei fehlt

Grundelemente sollen Stabil und invariabel erkannt werden. Sogenannte Invariante Eingenschaften. Objekte (Kategorie (Haus, Tisch etc.)) können erkannt werden durch das erkennen von invarianten Eingenschaften.

Non accidental Properties (Invariante Eigenschaften)

Erfunden und entdeckt von Lowe

Fehler beim Erstellen des Vorschaubildes: Datei fehlt

Wie können Objekte in verschiednene Ansichten erkannt werden, auch wenn eine bestimmte Ansicht noch nire gesehen wurde. Er suchet invariante Eigentschaften und anhand von diesen die Objekte zu erkennen. W 131210.2.png

Ansatz von Lowe

Lowe nimmt an, das wir im Gedächtnis eine 3D Representation des Objekts gespeichert haben. Der Computer findet nachher Linien und Invariante eigenschaften, danach rotiert der Coputer seine gespeicherten 3d-Modelle und vergleicht diese mit deinen Linien. Folie 324 Objekte werden Top-Down anhand der 3d Modelle erkannt.

Ullman & Basri

Anhand von meheren Seiten oder Frontalansichten kann ein dazwischen liegendes Bild gemorpht werden W 131210.4.png LC ist das Morphbild zwischen M1 und M2, N das Original, wie man sieht ist LC2 sehr ähnlich wie n

Man hat etwa zeitgleich herausgefunden das im Hirn Objekte anhand der verschiednenen Sndichten geseichert werden, es gibt nervenzellen, welche genau auf dieses 2d-Bild reagieren, wir haben verschiedenen Nervenzellen für die verschiedenen ansichten, wenn man ein Objekt also z.B rotiert, so reagieren unterschiedliche Nervenzellengruppen unterschiedlich stark. Danach werden die Outputs dieser Zellengruppen zusammenaddiert. Wir haben nervenzellen die ansich wirklich Objekte einzeln abspeichern.

Key-Frme Modell nach Schwaninger, Wallraven, Bülthoff

Folie329 Der Input ist kein einzelbild sondern ein Videostromaus dem invariante erkmale extrahiert werden diese trackt man dann, bis die ansicht nicht mer übereinstimmt damit was gespeichert ist. sbald die übereinstimmung nicht mehr genügend gross ist wird ein neues Keyframe gespeichert. Somit können die einzelnen invariablen merkmale und die richtungen iund ihre zeitliche reihenfolge werden abgespeichert.

Test

das Gesicht wurde von -60° bis nach 60° gedrehet und nach oben und unten 45° Bei der Froantalen undd seitlichen sollte eine gute erkennungsleistung vorhanden sein, bei hoch und runter sollte die erkennungsleitung stark abnehmen. Dieses so spezifische Muster lässt sich nur mit dem Keyframe Modell vorhersagen, daher nmmt nman an das es stimmt.

Gesichtserkennung ist orientierungsabhängig

Thatchertäuschung

Da unser hirn die Merkmale als Struktur abspeichert ist unsere Wahrnehmung Orientierungsabhängig

Rock's Hypothese

7 Jahre vor der Thatchertäuschung, um ein Gesicht das aauf dem Kopf steht zu erkennen müssten wir ganz viele Merkmale simlutan im gehrin rotieren, was ein enormer kogitiver aufwand ist. Folie 335 Hypothese von Rock erklärt das rotierte Gesichter anhand ihrer Teile verarbeitet werden und unsere kognitiven Prozesse überfordern.

Testen von Rock's Hypothese

Getestet von Schwaninger & Mast Augen und Mund wurde ausgetauscht (Komponenten ändern) und die Abstände zwisschen augen und Mund verändert (konfiguration) Wenn es also stimmt und wir die gesichter anhand ihrer Teile verarbeiten sollten veränderte Komponenten bei rotierten Gesichtern schnell erkennt werden. Bei veränderten abständen sollte die erkennungsrate stark abnehmen. Bei komponentenveränderung werden sehr wenig Fehler gemacht, relativ unabhängig von der Rotation. Bei 90° sehr schlechte erkennung, bei 180° wieder bessere Erkennung (letzteres lässt sich durch Keyframe Ansatz erklären W 131210.5.png

Integratives Modell

Abstände zwischen Keypoints werden verarbeitet und die Teile an sich werden abgespeichert. Ob die metrisch spatioale Relation im Dorsalen Strom bei der Gesichtserkennung nicht von wichtigkeit. Man geht nicht mehr von linienzeichnungen aus, sondern von einzelnen Feautures

Diskussion

Noch heute (und vorallem in den 90er Jahren) gibt es Forscher, welche beahupten das Gesichter nur holisitsch verarbeitet werden (als ganzes), also keine Komponenten separat gespeichert werden.

Test davon (Schwaninger und co.)

Es wurden 10 Gesichter Gezeitgt, beim Test wurde das Gesicht in die Einzelteile zerlegt, danach mussten die Leute sagen ob das ein bekanntes oder ein unbekanntes Gesicht ist. Wenn man das Gesicht nun also als genazes speichtert sollte es unmöglich sein die zerschnittenen Gesichter zu erkennen. Das war aber nicht der Fall, Gesichter werden auch anhand der Teile erkannt. Wird das gescambelte Gesicht unscharf gezeichnet , die Lokale Information der Teile wird zerstört. Wenn man nun den gleichen Filter auf das gesamte Gesicht anwendet, hat mean ein Stimulus, bei dem nur die Konfigurationale Kompnente enthalten ist. dier Erkennungsrate bei gesamten Gesichtern ist aber stark. Beide Kanäle wurde nachgewiesen, zum einen die Komponenten und zum andern die Konfigurationale Kinformation.

Experiment 2

Lerngesichter waren den Versuchspersonen bekannt Wenn Gesichter bekannt sind, sind sie wesentlich genauer gespeichert, überall wird die Erkennungsrate erhöht.

Zusammenfassung

Der Input wird in separaten Kanälen verarbeitet, das ganze ist input für das visuelle Gedächtnis Im visuellen Gedächtnis werdne die verschiedenen Ansichten geseichert. Einige Neuronalen Netze sind für die Details verantwortlich. Neurophysiologische Befunde

Beispiele

Im Ventralen Strom werden die Ansichten imme rWeiter bis hin als View-tuned models gespeichter, was in Schwanis etwa den Keyframes entsprechen würde.

Kolumnare rganisation

Es wird z.B erkannt wie Linien geminsam enden, es gibt Zellen die auf Schattierungen reagerne, und es gibt Zellen, welche auf Gesichter reagieren.

Abhängigkeit von der Grösse

Folie 363 Je nach Reizen sind die Zellen Disrtanzabhängig oder auch nicht distanzabhängig. Folie 364 Orientierungsabhängigkeit zeigt das geon-ansicht eigentlich falsch ist.

Folie 365** Zusammenfassung zu repräsentation von Objekten

Abbildungsmuster ist verantwortlich für dei erkennung. Verschiedene Zellen werde Aktiviert und anhand von Merkmalskarten werden spezifische Gebiete im Gehirn aktiviert und so reagiert das gehirn auf untershciedliche Muster. Verschiedene Gebiete im ventralen Strom sind aktiv, der Dorsale Strom wirkt nur ganz leicht mit.

Grafik zur Zusammenfassung auf Folie 367