- Operante Konditionierung
-
Instrumentelle oder operante Konditionierung ist ein Paradigma der behavioristischen Lernpsychologie und betrifft das Erlernen von Reiz-Reaktions-Mustern (Stimulus-Response) aus ursprünglich spontanem Verhalten. Die Häufigkeit eines Verhaltens wird durch seine angenehmen oder unangenehmen Konsequenzen nachhaltig verändert. In der Alltagssprache ist das „Lernen am Erfolg“.
Man unterscheidet diese Art des Lernens von der Klassischen Konditionierung, die ausgelöstes Verhalten betrifft (der lernende Organismus hat keine Kontrolle über den Reiz oder seine Reaktion).
Inhaltsverzeichnis
Geschichte
Die Erforschung der instrumentellen Konditionierung beginnt mit den Tierversuchen von Edward Lee Thorndike, die er im Rahmen seiner Doktorarbeit (1898) an der Columbia University machte. Er setzte Hühner, Katzen und Hunde in selbstgebaute Rätselkäfige (puzzle boxes) verschiedener Schwierigkeitsgrade und maß die Zeit, die die Versuchstiere zur Selbstbefreiung benötigten. Als Anreiz legte er, für die Tiere sichtbar, Futter neben den Käfig. Nachdem das Tier Erfolg hatte und mit Futter belohnt worden war, setzte er das Tier zurück in den Käfig und maß erneut die Zeit bis zur Käfigöffnung (sog. discrete trial procedure). Eine durchschnittliche Katze benötigte bei einer einfachen puzzle box anfangs 160 Sekunden, wurde jedoch immer schneller und benötigte nach 24 Versuchen nur noch 7 Sekunden. Die Ergebnisse seiner Versuche fasste Thorndike in seinem "Gesetz der Wirkung" (law of effect) zusammen: "Von allen Reaktionen in einer gegebenen Situation werden ... jene Reaktionen, die für das Tier von Befriedigung begleitet oder gefolgt werden, stärker mit der Situation verbunden, sodass, wenn die Situation erneut eintritt, auch jene Reaktionen erneut auftreten; solche Reaktionen, die für das Tier ... von Unbehagen begleitet oder gefolgt wurden, verlieren ihre Bindung an die Situation, sodass diese Reaktionen, wenn die Situation erneut eintritt, seltener auftreten." [1]
Thorndikes Reiz-Reaktions-Modell legte, mit Pawlows Experimenten zur Klassischen Konditionierung, die Grundlage für den von John B. Watson begründeten Behaviorismus, der jahrzehntelang die psychologische Forschung beherrschen sollte.
Geprägt wurden die behavioristische Forschung von niemandem so sehr wie von Burrhus Frederic Skinner, der Thorndikes und Watsons Arbeit fortsetzte und weiterentwickelte. Seine Käfige, die Skinner-Boxen, enthalten die Möglichkeit, das Zielverhalten (z. B. einen Hebel zu drücken) jederzeit auszuführen (sog. free operant procedure). Nach einem festgelegten Verstärkerplan hat dieses Verhalten für das Tier bestimmte Konsequenzen. Der Unterschied zwischen instrumenteller und operanter Konditionierung ist also minimal und eher historischer Natur.
Grundbegriffe
Da Behavioristen sich auf Beobachtbares beschränken, fassen sie alle inneren Zustände wie eventuelle Wahrnehmungen, Gefühle und Gedanken in einer „Black Box“ zusammen. Auf diese Black Box wirken nun Umweltreize (Stimulus) in der Weise, dass Verhalten (Response) hervorgerufen wird. Diese Antwort hat eine Konsequenz (Outcome), die als Feedback auf das Verhalten wirkt.
Wenn also in einem bestimmten Kontext (Stimulus) irgendeine beliebige Handlung gezeigt wird, wird diese Handlung künftig (unter gleichen Umständen) häufiger ausgeführt, wenn die Konsequenz angenehm war und seltener, wenn die Konsequenz unangenehm war. Im ersten Fall spricht man von "Verstärkung", im zweiten Fall von "Bestrafung".
Verstärkung geschieht, wenn die Konsequenz des Verhaltens ein angenehmer Reiz (positive Verstärkung) oder der Wegfall eines unangenehmen Reizes ist (negative Verstärkung). Entsprechend geschieht Bestrafung, wenn die Konsequenz ein unangenehmer Reiz (positive Bestrafung) oder der Wegfall eines angenehmen Reizes ist (negative Bestrafung, omission training oder "DRO" = Differential Reinforcement of Other behavior).
Die Begriffe "angenehm/unangenehm" bzw. "appetitiv/aversiv" sind nicht als subjektiv erlebte Zustände zu verstehen - als solche hätten sie in einer behavioristischen Theorie keinen Platz - sondern als Ausdruck dafür, ob diese Zustände gesucht oder gemieden werden. Thorndike definierte wie folgt: "Mit angenehmer Zustand ist ein Zustand gemeint, den das Tier nicht vermeidet, oft sogar aufsucht und aufrecht erhält. Unangenehm bezeichnet einen Zustand, den das Tier normalerweise meidet oder verlässt."[2]
Verstärker
Verstärker sorgen beim operanten Konditionieren dafür, dass das Auftreten einer bestimmten Reaktion (sog. instrumentelle oder operante Reaktion) begünstigt oder erschwert wird. Verstärker können in den einzelnen Fällen recht unterschiedliche Dinge sein, für ein Kind vielleicht etwas Schokolade, bei einem Erwachsenen kann auch Kopfnicken oder Schulterklopfen Verstärkung genug sein (sozialer Verstärker). Was letztendlich als Verstärker funktioniert, bestimmt jedoch die Versuchsperson (also die Person, bei der eine bestimmte Verhaltensweise verstärkt werden soll). Wichtig ist, dass die Verstärker kontingent (also unmittelbar, erkennbar, regelhaft) und motivationsadäquat sind und Bedürfnisse (z. B. Hunger, Aktivitätsbedürfnis) befriedigen. Bei einem Verstärker, der erst Stunden nach der gewünschten Reaktion eintritt, ist nicht mehr erkennbar, wofür er vergeben wurde, und er hat deshalb keine Wirkung. Auch wird eine satte Ratte für eine Futterpille nichts mehr veranstalten – die Bedürfnisspannung fehlt. Um einer Verfettung von Laborratten vorzubeugen, benutzt man in der Forschung Erkenntnisse der Klassischen Konditionierung: Der Reiz „Verstärker“ (hier: Futter) wird mit einem anfangs neutralen Reiz (z. B. einem Pfiff) gekoppelt, wodurch der Pfiff durch klassische Konditionierung zum bedingten Reiz wird, der dann – wie Futter – ebenfalls die Wirkung einer Belohnung hat (diskriminativer Hinweisreiz).
Das Kontingenzschema
Positive Verstärkung bedeutet die Erhöhung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten einen angenehmen Reiz auslöst (z. B. Anerkennung, Achtung, Nahrung, Geld).
Negative Verstärkung bedeutet die Erhöhung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten einen unangenehmen Reiz verhindert oder beendet (z. B. jeweils das Entfernen von Lärm, grellem Licht, Hitze oder Kälte).
positive Bestrafung oder Bestrafung I bedeutet die Senkung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten einen aversiven Reiz auslöst (z. B. Lärm, grelles Licht, Hitze oder Kälte, Stromschlag).
negative Bestrafung oder Bestrafung II bedeutet die Senkung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten einen appetitiven Reiz verhindert oder beendet (z. B. Wegnahme von Futter, Wärme, Weihnachtsgeld. Ein Beispiel hierfür ist, wenn ein Kind einen Trotzanfall bekommt und ihm die Eltern daraufhin das liebste Spielzeug wegnehmen).
Negative Verstärkung und Bestrafung werden häufig miteinander verwechselt. Das Wort positiv steht hier nur für das Hinzufügen eines Reizes, das Wort negativ für das Entfernen.
Diese Arten der Beeinflussung von Verhalten können in folgender Tabelle festgehalten werden:
Verhalten… erzeugt verhindert/beendet appetitive Konsequenz positive Verstärkung negative Bestrafung (II) aversive Konsequenz positive Bestrafung (I) negative Verstärkung Negative Verstärkung hat klinisch die größte Bedeutung, da sie zur Aufrechterhaltung von Vermeidungsverhalten z. B. bei Phobischen Störungen und Zwangsstörungen massiv beiträgt: Die Patienten unternehmen alles, um einen als aversiv empfundener Zustand (enge Räume, ungewaschene Hände) zu meiden, sodass sie niemals die Erfahrung machen, ob sie den Zustand inzwischen aushalten bzw. die Situation meistern können.
Arten von Verstärkern
Primäre und sekundäre Verstärker
Man unterscheidet verschiedene Arten von Verstärkern. Zwei klassische Arten sind: primäre Verstärker und sekundäre Verstärker. Primäre Verstärker sind jene Verstärker, die bereits von Geburt an wirken. Laut Miller und Dollard wirkt jede Reduktion eines allzu intensiven Reizes als primäre Verstärkung. Primäre Verstärker sind beispielsweise Essen und Trinken, da sie Hunger und Durst reduzieren, aber auch Körperkontakt ist primärer Verstärker. Sekundäre Verstärker (siehe auch Token-System) dagegen sind gelernte Verstärker. Sie sind also zunächst neutrale Reize, die durch die wiederholte Kopplung mit primären Verstärkern sekundäre Verstärkerqualität erhalten. Beispiele für sekundäre Verstärker sind beispielsweise Geld, denn die Funktion wird erst gelernt. Zunächst ist Geld ein komplett neutraler Reiz, bis gelernt wird, dass es zur Bedürfnisbefriedigung herangezogen werden kann.
Token-Konditionierung
Ähnlich zu sekundären Verstärkern, gibt es das Prinzip, für eine Verstärkung so genannte Token zu vergeben. Diese können dann später – nach ausreichender Akkumulation von Token – gegen andere Dinge, Handlungen, Dienstleistungen usw. eingetauscht werden. Häufig findet das Prinzip bei der Verhaltensformung Anwendung, wenn in therapeutischen Einrichtungen das Verhalten der Patienten in einer bestimmten Art und Weise geformt werden soll.
Premack-Prinzip
- Hauptartikel: Premack-Prinzip
"Die Gelegenheit zu wahrscheinlicherem Verhalten kann weniger wahrscheinliches Verhalten verstärken." (David Premack, 1962[3]) Verhalten, das wir gerne und häufig tun, hat eine verstärkende Wirkung auf Verhalten, das wir weniger gern und häufig tun. Nehmen wir als Beispiel ein Kind mit einem Nachmittag zur freien Verfügung. Wenn wir es vollkommen frei vor die Wahl zwischen „Fernsehen“, „Hausaufgaben machen“ und „Zimmer aufräumen“ stellen, wird es mutmaßlich die meiste Zeit mit Fernsehen verbringen, etwas Hausaufgaben machen und das Zimmer unaufgeräumt lassen. Nun können wir das Verhalten mit der jeweils höheren Auftretenswahrscheinlichkeit als Verstärker benutzen: Das Kind wird mehr Zeit mit Hausaufgaben verbringen, wenn es erst danach fernsehen darf, und es wird mehr Zeit mit Aufräumen verbringen, wenn es erst danach Hausaufgaben machen darf.
In Ergänzung zum Premack-Prinzip konnte in Tierversuchen mit Ratten nachgewiesen werden, dass auch ein Verhalten, das eine niedrigere Auftretenswahrscheinlichkeit besitzt, als Verstärker dienen kann: Nehmen wir an, eine Ratte, die eine Stunde in einem Käfig sitzt, verbringt ohne äußere Zwänge 50 Minuten damit, an einem Wasserspender zu lecken und zehn Minuten damit, in einem Laufrad zu rennen. Man kann nun nach dem Premack-Prinzip ohne Probleme das längere Rennen im Laufrad durch das Lecken verstärken. Es geht jedoch auch anders herum. Wenn die Ratte zwei Minuten lecken muss, um danach eine Minute im Laufrad zu rennen, wird dies nicht als Verstärker wirken, da die Ratte nach diesem Verstärkerplan leicht auf ihre Basis-Verhaltenshäufigkeit von 10 Minuten Rennen in der Stunde kommt. Wenn die Ratte aber fünfzehn Minuten lecken muss, um eine Minute rennen zu dürfen, wirkt dieses Verhalten als Verstärkung für das Lecken. Somit kann auch ein Verhalten mit einer niedrigeren Auftretenshäufigkeit als Verstärker dienen.
Verstärkerpläne
- Kontinuierliche Verstärkung
Hier wird bei jeder gewünschten Reaktion verstärkt. Dies führt zu einem starken Anstieg der Lernkurve. Die Versuchsperson lernt also schnell, vergisst aber auch ebenso schnell wieder, wenn nicht mehr verstärkt wird. Dieser Verstärkerplan ist optimal in der Akquisitionsphase, also beim ersten Erlernen des Zielverhaltens.
Um einer Extinktion vorzubeugen, muss die Kopplung gelegentlich wiederholt werden. Dabei haben sich die folgenden, unterschiedlich erfolgreichen Verstärkerpläne herauskristallisiert.
Quotenverstärkung
Bei dieser Variante verstärkt man erst, wenn eine bestimmte Anzahl von gewünschten Reaktionen erfolgt ist. Beispiel: Bei jedem fünften (fixed ratio) oder durchschnittlich jedem fünften (variable ratio) Auftreten des Zielverhaltens erfolgt eine Verstärkung.
Intervallverstärkung
Bei dieser Methode wird nach dem letzten verstärkten Verhalten frühestens wieder nach in einem konstanten oder variablen Zeitintervall verstärkt, sobald das erwünschte Verhalten auftritt. Beispiel: Für die Dauer von 20 Sekunden (fixed interval) oder durchschnittlich 20 Sekunden (variable interval) wird kein Verhalten verstärkt.
Ratenverstärkung
Verstärkt wird, wenn das Zielverhalten mit hoher Frequenz oder niedriger Frequenz gezeigt wird. Die Verstärkung hoher Frequenzen führt zum selben Ergebnis wie Verhältnispläne, die Verstärkung niedriger Frequenzen führt zum selben Ergebnis wie Intervallpläne.
Neues Verhalten
Durch positive oder negative Verstärkung und Methoden wie Shaping und Chaining können auch neue Verhaltensweisen gefördert werden. Eine elegante Methode, auf gleichermaßen anschauliche wie reproduzierbare Weise einem Testtier neue Verhaltensweisen beizubringen, stellt das Lernen mit Hilfe einer so genannten Skinner-Box dar.
Shaping
Beim Shaping (auch Approximation genannt) wird nicht erst die komplette Handlung verstärkt, sondern bereits jede Annäherung an die gewünschte Handlung. Soll eine Taube etwa auf einen roten Punkt auf einer Scheibe picken, so wird bereits verstärkt, wenn die Taube den Kopf zur Scheibe bewegt; dann, wenn sie zur Scheibe schaut; dann, wenn sie sich der Scheibe nähert; dann, wenn sie auf die Scheibe pickt und schließlich, wenn sie den roten Punkt auf der Scheibe trifft. Insbesondere dient diese Technik der Erlernung komplexerer Handlungsweisen. Auf diese Weise können auch recht unnatürliche Handlungsweisen bei Tieren konditioniert werden, wie sie etwa im Zirkus zu sehen sind.
Kritik
Die Erforschung des Lernens durch Konditionierung beschränkt sich rigoros auf beobachtbares Verhalten und spekuliert nicht über Konstrukte, die dem Verhalten eventuell zugrunde liegen. Daher kann sie nicht erklären, wie Lernen durch innere Motivation (z. B. Neugier) funktioniert. Erst alternative Modelle – etwa Albert Banduras sozialkognitive Lerntheorie, welche insbesondere das Lernen am Modell erklärt, wurden auch diese Verhaltensmuster erklärbar.
Auch aus ethischer Sicht gibt es Kritik: Die erzieherischen Konsequenzen des Behaviorismus werden als problematisch angesehen, sofern sie in einer Weise eingesetzt werden, die an Dressur und Gehirnwäsche erinnert. Die operante und klassische Konditionierung sollte in einer ethisch vertretbaren Weise eingesetzt werden. Dazu ist erforderlich, dass dem Lernenden der Konditionierungsprozess ausführlich erklärt wird, und er sich bewusst dafür oder dagegen entscheiden kann. Dazu gehört auch, dass der Lernende die Lernziele selbst bestimmt.
Weblinks
Einzelnachweise
- ↑ im Original: "Of several responses made to the same situation, those which are accompanied or closely followed by satisfaction to the animal will, other things being equal, be more firmly connected with the situation, so that, when it recurs, they will be more likely to recur; those which are accompanied or closely followed by discomfort to the animal will, other things being equal, have their connections with that situation weakened, so that, when it recurs, they will be less likely to occur."
- ↑ im Original: "By a satisfying state of affairs is meant one which the animal does nothing to avoid, often doing such things as attain and preserve it. By a discomforting or annoying state of affairs is meant one which the animal commonly avoids and abandons."
- ↑ im Original: "An opportunity to engage in more probable responses will reinforce a less probable response."
Wikimedia Foundation.