Theory of Visual Attention

Theory of Visual Attention

Die Theory of Visual Attention (TVA, Bundesen 1990) ist eine moderne Theorie visueller Aufmerksamkeit, die mit Hilfe mathematischer Gleichungen formuliert ist. Durch ihre Komplexität kann sie viele psychologische Befunde erklären, auch solche aus Experimenten, die sich nicht mit visueller Aufmerksamkeit beschäftigen.

Die TVA ist eine vereinte Theorie des Erkennens (engl. „recognition“) und der Selektion. Während viele Theorien visueller Aufmerksamkeit diese Prozesse sowohl zeitlich als auch strukturell trennen, geht die TVA davon aus, dass beide Prozesse in einem vereinigten Mechanismus in Form eines Wettlaufs realisiert sind. Mit anderen Worten: Wenn ein Objekt im visuellen Feld erkannt wird, wird es gleichzeitig auch selektiert und vice versa.

Mit der Vereinigung von Selektion und Erkennen versucht die TVA die lange diskutierte Problematik aufzulösen, ob Selektion früh (d. h. vor dem Erkennen von Reizen, siehe Broadbent, 1958) oder spät (d. h. nach z. B. inhaltlicher Analyse der Reize, siehe Deutsch & deutsch, 1963) stattfindet.

Die TVA erklärt Aufmerksamkeit durch zwei aufeinanderfolgende Prozesse, Filtern und Kategorisieren („pigeonholing“). Auf der ersten Stufe werden die perzeptorischen Merkmale repräsentiert und gewichtet, während auf der zweiten Stufe diese Merkmale kategorisiert werden (zum Beispiel „Objekt X hat Merkmal i“ oder „Objekt X gehört zur Kategorie A“).

Während des Filterns treten alle im visuellen Feld befindlichen Objekte in einer Art Wettlauf gegeneinander an, das sich durchsetzende Objekt kann daraufhin erst kategorisiert werden. Eine solche Kategorisierung bedeutet gleichzeitig, dass das Objekt in das visuelle Kurzzeitgedächtnis (VSTM, engl. „visual short term memory“) enkodiert wurde. Ist im VSTM kein Platz vorhanden, kann das Objekt nicht kategorisiert werden und wird daher nicht bewusst verarbeitet.

Inhaltsverzeichnis

Filtern

Auf dieser ersten Stufe werden zunächst alle im rezeptiven Feld befindlichen Objekte gewichtet. Dabei ist das Gewicht eines Objektes wx


w_x = \sum_{j\in R} \eta(x,j) \cdot \pi_j
,

wobei

  • R die Menge aller (visuellen) Kategorien ist
    • eine visuelle Kategorie kann eine bestimmte Farbe, Form, Orientierung etc. sein
    • alle Kategorien werden „auf gleicher Ebene“ berechnet, also nicht nach Dimensionen sortiert/gewichtet
  • η(x,j) die sensorische Evidenz dafür ist, dass das Objekt x zur Kategorie j gehört
    • die sensorische Evidenz kann z. B. durch eine verschwommene Darstellung des Objektes verringert sein
    • die sensorische Evidenz kann z. B. durch Ähnlichkeit zu beachtenden Kategorien auch erhöht sein
  • πj die Relevanz der Kategorie j für den Beobachter ist
    • solche Kategorien, die für den Beobachter wichtiger sind, fallen mehr ins Gewicht

Somit wird top-down-Prozessen insofern Rechnung getragen, als die Relevanz einer bestimmten Kategorie für den Beobachter in die Gewichtung mit einfließt. Gleichzeitig werden durch die sensorische Evidenz auch bottom-up-Prozessen berücksichtigt.

Beispiele

Beispiel 1 Bei einer Suchaufgabe soll ein Proband angeben, welche rote Ziffern dargeboten werden. Als Distraktoren dienen rote Buchstaben sowie blaue Ziffern und Buchstaben.

Nun kann man das attentionale Gewicht dieser Objekte berechnen:

w_x = \eta(Objekt-ist-rot) \cdot \pi_{rote-Objekte} + \eta(Objekt-ist-blau) \cdot \pi_{blaue-Objekte}

Theoretisch müssten auch alle anderen Kategorien miteinfließen, sie werden hier der Einfachheit halber weggelassen, da ihre Relevanz 0 ist und sie daher keinen Einfluss auf die Werte haben.

In diesem einfachen Beispiel lassen sich die Gewichte der einzelnen Objekte leicht berechnen. Gehen wir zunächst davon aus, dass das Gewicht der Kategorie „rot“ 0,9 und die der Kategorie „blau“ 0,1 ist. Die sensorische Evidenz sei der Einfachheit halber 1 oder 0 (d. h. rot wird immer als rot wahrgenommen, blau nie als rot etc.).

  • w_{roter Buchstabe} = 1 \cdot 0{,}9 +  0 \cdot 0{,}1 = 0{,}9
  • w_{rote Ziffer} = 1 \cdot 0{,}9 +  0 \cdot 0{,}1 = 0{,}9
  • w_{blauer Buchstabe} = 0 \cdot 0{,}9 +  1 \cdot 0{,}1 = 0{,}1
  • w_{blaue Ziffer} = 0 \cdot 0{,}9 +  1 \cdot 0{,}1 = 0{,}1

Die blauen Objekte erhalten also nur ein sehr geringes Gewicht, während alle roten Objekte ein hohes Objekt Gewicht erhalten. Wichtig ist, dass hier Antwortkategorien wie „Ziffer“ oder „Buchstabe“ noch keine Rolle spielen, sondern nur Filterkategorien „rot“ oder „blau“.

Dieses Beispiel ist denkbar einfach, da nur Objekte einer Kategorie („rot“) zur Auswahl der Antwort berücksichtigt werden müssen. In Beispiel 2 werden nun verschiedene Kategorien zu berücksichtigen sein.

Beispiel 2 Bei einer Suchaufgabe soll ein Proband entschieden, ob ein rotes Dreieck auf der Spitze steht oder die Spitze nach oben zeigt. Als Distraktoren dienen blaue Dreiecke, blaue Kreise und rote Kreise, die gleichzeitig mit dem roten Dreieck dargeboten werden.

Nun kann man wiederum das attentionale Gewicht dieser Objekte berechnen:

w_x = \eta(Objekt-ist-rot) \cdot \pi_{rote-Objekte} + \eta(Objekt-ist-Dreieck) \cdot \pi_{Dreiecke} +\eta(Objekt-ist-blau) \cdot \pi_{blaue-Objekte} + \eta(Objekt-ist-Kreis) \cdot \pi_{Kreise}

Gehen wir davon aus, dass die Relevanz der Kategorie „rot“ 0,9, für „blau“ 0,1 für „Dreieck“ 0,6 und für „Kreis“ 0,01 ist. Die sensorische Evidenz sei der Einfachheit halber wieder 1 oder 0 (d. h. rot wird immer als rot wahrgenommen, ein Dreieck nie als Kreis etc.). Dadurch ergeben sich für die vier Objekte folgende attentionale Gewichte:

  • w_{rotes Dreieck} = 1 \cdot 0{,}9 + 1 \cdot 0{,}6 + 0 \cdot 0{,}1 + 0 \cdot 0{,}01 = 1{,}5
  • w_{roter Kreis} = 1 \cdot 0{,}9 + 0 \cdot 0{,}6 + 0 \cdot 0{,}1 + 1 \cdot 0{,}01 = 0{,}91
  • w_{blaues Dreieck} = 0 \cdot 0{,}9 + 1 \cdot 0{,}6 + 1 \cdot 0{,}1 + 0 \cdot 0{,}01 = 0{,}7
  • w_{blauer Kreis} = 0 \cdot 0{,}9 + 0 \cdot 0{,}6 + 1 \cdot 0{,}1 + 1 \cdot 0{,}01 = 0{,}11

Somit hat also das rote Dreieck das höchste Gewicht und wird mit größerer Wahrscheinlichkeit weiterverarbeitet als alle anderen im Sichtfeld befindlichen Objekte. Es steht allerdings noch keineswegs fest, welches Objekt das „Rennen“ gewinnt oder wie dieses kategorisiert wird. Dies wird im Kategorisierungsprozess ermittelt.

Kategorisierung

Im Rennen um Kategorisierung wird die Verarbeitungsgeschwindigkeit einer jeden Objektkategorisierung wie folgt berechnet: v(x,i) = \eta(x,i) \cdot \beta_i \cdot \frac {w_x} { \sum_{z\in S} w_z}

wobei

  • v(x,i) die Geschwindigkeit der Kategorisierung „Objekt x ist i“ ist
    • theoretisch gibt es für jede Objekt-Kategorie-Kombination eine Verarbeitungsgeschwindigkeit
    • die Verarbeitungsgeschwindigkeit entspricht der Wahrscheinlichkeit, dass das Objekt x als i kategorisiert wird (und somit in das VSTM enkodiert wird)
  • η(x,i) die sensorische Evidenz dafür ist, dass das Objekt x zur Kategorie i gehört
  • βi eine wahrnehmungsbezogene Antwortverzerrung bezogen auf die Kategorie i ist
    • 0 \le \beta_i \ge
    • solche Kategorien, die für die Antwortgabe relevant sind, werden höher gewichtet
  • \frac {w_x} { \sum_{z\in S} w_z} der Anteil des Gewichts von Objekt x am Gesamtgewicht aller Objekte ist

Man beachte, dass nicht jedes Objekt eine Verarbeitungsgeschwindigkeit hat, sondern jede Objekt-Kategorisierungs-Kombination. Es gibt also eine Verarbeitungsgeschwindigkeit für die Kategorisierung „Objekt x ist a“ und für die Kategorisierung „Objekt x ist b“. Jedoch wird tatsächlich das Objekt, dessen Objekt-Kategorisierungs-Kombination das Rennen gewinnt, auch in das VSTM enkodiert.

Beispiel

Dem obigen Beispiel 1 der visuellen Suchaufgabe folgend wird nun in der Kategorisierungsphase die Verarbeitungsgeschwindigkeit betrachtet, mit der die Kategorisierungen am „Rennen“ teilnehmen (Achtung: Nicht die die Objekte selbst, sondern die Objekte mit einer bestimmten Objektkategorisierung konkurrieren um einen Platz im VSTM!). Das Gesamtgewicht \sum_{z\in S} w_z ist in unserem Beispiel 0,9 + 0,9 = 1,8 Somit ergibt sich als relatives Gewicht \frac {w_x} { \sum_{z\in S} w_z}für die beiden roten Objekte \frac {0{,}9}{1{,}8} = \frac{1}{2} und für die beiden blauen Objekte \frac {0}{1{,}8} = 0.

Da die Aufgabe des Probanden darin besteht, anzugeben, welche(r) Buchstabe (unter den roten Objekten) zu finden ist, kann die Antwort des Probanden, insofern er sich an die Instruktionen hält, in eine der 26 (weil 26 verschiedene Buchstaben) möglichen Antwortkategorien fallen. Hier sind also nicht mehr Kategorie „rot“ und „blau“ von Bedeutung, sondern lediglich „a“, „b“, „c“ etc. Folglich sind 26 βi-Werte, z. B. βa und βf hoch, hingegen sind die βi-Werte für Ziffern (oder vollkommen andere Kategorien wie „Blume“) sehr niedrig.

Für eine solche Kategorisierung ist außerdem wiederum die physikalische Reizqualität η(x,i) entscheidend. Zu beachten ist hier, dass beispielsweise eine „2“ einem „Z“ ähneln kann und somit eine relativ hohe sensorische Evidenz für eine der Antwortkategorien, nämlich „Z“ haben kann, obwohl es sich nicht um einen Zielreiz handelt.

Berechnen wir nun einige Verarbeitungsgeschwindigkeiten aus unserem Beispiel. Dabei sei die physikalische Reizqualität wieder perfekt und η(x,i) somit 0 oder 1. Ausnahme sei in unserem Beispiel die „2“. Für sie gelte η(2,z) = 0,4. Die perzeptuelle Entscheidungsverzerrung βi sei für Buchstaben 0,8 und für Ziffern 0,05.

Damit ergibt sich:

  • v_\text{rotes a wird als „a“ kategorisiert} = 1 \cdot 0{,}8 \cdot \frac {1}{2} = 0{,}4
  • v_\text{rotes f wird als „a“ kategorisiert} = 0 \cdot 0{,}8 \cdot \frac {1}{2} = 0
  • v_\text{rote 3 wird als „a“ kategorisiert} = 0 \cdot 0{,}8 \cdot \frac {1}{2} = 0
  • v_\text{rote 3 wird als „3“ kategorisiert} = 1 \cdot 0{,}05 \cdot \frac {1}{2} = 0{,}05
  • v_\text{rotes a wird als „3“ kategorisiert} = 0 \cdot 0{,}05 \cdot \frac {1}{2}= 0
  • v_\text{blaues a wird als „a“ kategorisiert} = 1 \cdot 0{,}8 \cdot 0 = 0
  • v_\text{blaue 3 wird als „3“ kategorisiert} = 1 \cdot 0{,}05 \cdot 0 = 0
  • v_\text{rote 2 wird als „2“ kategorisiert} = 1 \cdot 0{,}05 \cdot \frac {1}{2} = 0{,}025
  • v_\text{rote 2 wird als „z“ kategorisiert} = 0,4 \cdot 0{,}8 \cdot \frac {1}{2} = 0{,}32

NTVA

2005 wurde von Bundesen, Habekost und Kyllingsbæk die TVA zur NTVA (Neural Theory of Visual Attention) weiterentwickelt. Die zuvor kritisierte nicht vorhandene Erklärung der TVA auf neuronaler Ebene wurde hierbei hergestellt.


Wikimedia Foundation.

Игры ⚽ Нужна курсовая?

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Attention — is the cognitive process of paying attention to one aspect of the environment while ignoring others. Attention is one of the most intensely studied topics within psychology and cognitive neuroscience. In 1890, William James, in his textbook… …   Wikipedia

  • Theory of mind — is the ability to attribute mental states beliefs, intents, desires, pretending, knowledge, etc. to oneself and others and to understand that others have beliefs, desires and intentions that are different from one s own.[1] Though there are… …   Wikipedia

  • attention — attentional, adj. n. /euh ten sheuhn/; interj. /euh ten shun /, n. 1. the act or faculty of attending, esp. by directing the mind to an object. 2. Psychol. a. a concentration of the mind on a single object or thought, esp. one preferentially… …   Universalium

  • Visual search — In theory of cognition, visual search is a type of perceptual task requiring attention. Visual search involves an active scan of the visual environment for a particular object or feature (the target) among other objects or features (the… …   Wikipedia

  • Visual short term memory — In the study of vision, visual short term memory (VSTM) is one of three broad memory systems including iconic memory and long term memory. VSTM is a type of short term memory, but one limited to information within the visual domain. The term VSTM …   Wikipedia

  • Visual memory — Close up of the human eye, where vision begins. Visual memory describes the relationship between perceptual processing and the encoding, storage and retrieval of the resulting neural representations. Visual memory occurs over a broad time range… …   Wikipedia

  • Visual cortex — Brain: Visual cortex View of the brain from behind. Red = Brodmann area 17 (primary visual cortex); orange = area 18; yellow = area 19 …   Wikipedia

  • Attention-deficit hyperactivity disorder controversies — Methylphenidate (Ritalin) 10mg Pill (Ciba/Novartis), a drug commonly prescribed to treat ADHD The causes, diagnosis, and the treatment of attention deficit hyperactivity disorder (ADHD) have been the subject of active debate at least since the… …   Wikipedia

  • Attention versus memory in prefrontal cortex — A widely accepted theory regarding the function of the brain s prefrontal cortex is that it serves as a store of short term memory. This idea was first formulated by Jacobsen, who reported in 1935 that damage to the primate prefrontal cortex… …   Wikipedia

  • Visual routine — A visual routine is a means of extracting information from a visual scene. In his studies on human visual cognition, Shimon Ullman proposed that the human visual system s task of perceiving shape properties and spatial relations is split into two …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”