Versionsraum

Als Versionsraum wird im maschinellen Lernen diejenige Teilmenge des Hypothesenraums bezeichnet, die bezüglich einer Menge $D$ von Lernbeispielen alle konsistenten und vollständigen Hypothesen enthält. Eine Hypothese heißt konsistent, wenn sie keine negativen Trainingsbeispiele positiv klassifiziert. Eine Hypothese heißt vollständig wenn alle positiven Beispiele von einer Hypothese richtig klassifiziert werden.

Beim Versionsraum-Lernverfahren (Mitchell 1982) handelt es sich um ein inkrementelles maschinelles Lernverfahren zum Lernen eines Konzepts. Für den Fall, dass die Trainingsbeispiele nicht verrauscht sind und das gesuchte Zielkonzept im Hypothesenraum enthalten ist, liefert das Versionsraum-Lernverfahren eine kompakte Repräsentation des Versionsraums.

Inhaltsverzeichnis

1 Generalität im Hypothesenraum
2 Versionsraum-Lernverfahren
- 2.1 Algorithmus
- 2.2 Vorteile und Nachteile
3 Beispiel
4 Literatur

Generalität im Hypothesenraum

Basis des Algorithmus ist eine Halbordnung, die eine Unterscheidung von Hypothesen nach Generalität erlaubt. Eine Hypothese $h k$ wird als spezieller als $h_\ell$ bezeichnet, wenn für alle x aus der Menge der möglichen Zielkonzepte folgendes gilt:

$h_k(x)=1 \;\; \Rightarrow \;\; h_\ell(x)=1$

Versionsraum-Lernverfahren

Das Versionsraum-Lernverfahren ist eine maschinelle Methode im Bereich der KI, um dem Rechner beizubringen, zuvor unbekannte Informationen richtig zu beurteilen.

Algorithmus

Anfangs enthält der Versionsraum alle möglichen Hypothesen, stimmt also mit dem Hypothesenraum überein. Durch die sequentielle Hinzunahme von positiven und negativen Trainingsbeispielen wird er immer weiter eingeschränkt, bis er im Idealfall nur noch aus einem Element besteht. Die Repräsentation des Versionsraums erfolgt durch zwei Mengen namens S und G ("special" und "general"). S ist die Menge der speziellsten Hypothesen und enthält alle Hypothesen, die mit den Trainingsbeispielen konsistent sind, also diese richtig klassifizieren. Weiterhin darf keine der Hypothesen in S allgemeiner als eine andere Hypothese im Versionsraum sein. Analog enthält G die allgemeinsten Hypothesen, die mit den Trainingsdaten konsistent sind.

Anfangs enthält S die speziellste Hypothese, also diejenige Hypothese, die jedes Zielkonzept negativ klassifiziert, und G die allgemeinste Hypothese, also diejenige Hypothese, die jedes Zielkonzept positiv klassifiziert. Anschließend wird über die Menge aller Trainingsbeispiele iteriert und S und G jeweils so angepasst, dass die obigen Forderungen für S und G erfüllt sind.

Vorteile und Nachteile

Der erste Vorteil des Versionsraum-Lernverfahrens ist die implizite Darstellung des Versionsraums. Alte Beispiele müssen nicht gespeichert werden und dadurch besteht ein geringer Speicheraufwand zur Darstellung des Versionsraums. Ein weiterer Vorteil ist die Möglichkeit, eine ausreichend große Menge von Trainingsbeispielen selbständig zu erkennen (Abbruch, wenn S=G). Eine Steigerung der Lerngeschwindigkeit erhält man, wenn Hypothesen erzeugt werden können und zu S oder G hinzugefügt werden, zum Beispiel von Experten erstellt. In diesem Fall kann der Algorithmus Beispiele selektieren, die den Versionsraum in möglichst gleich große Teile trennen. Das Lernen eines solchen Beispiels sorgt für eine schnelle Reduzierung der Versionsraumgröße.

Beispiel

Das Beispiel demonstriert, wie ein konkreter Versionsraum durch Beispiele entsteht. Das Beispiel wurde dieser Webseite entnommen.

Bevor die Beispiele in den Versionsraum eingeordnet werden, erfolgt eine Startbelegung der Mengen $S 0$ und $G 0$ .

Startbelegung

$S 0 = {}$
$G 0 = {(?,?,?,?,?)}$

Positives Beispiel

$h 1 =$ (Fußball, Mannschaft, draußen, national, Samstag)
$S 1 = {($ Fußball, Mannschaft, draußen, national, Samstag $)}$
$G 1 = {($ ?,?,?,?,? $)}$

Erklärung

$S 0$ enthält das Beispiel $h 1$ nicht. $S 0$ verallgemeinert sich um $h 1$ . $G 1$ lässt weiterhin alle Beispiele zu.

Positives Beispiel

$h 2 =$ (Hockey, Mannschaft, draußen, national, Samstag)
$S 2 = {($ ?, Mannschaft, draußen, national, Samstag $)}$
$G 2 = {($ ?,?,?,?,? $)}$

Erklärung

$S 1$ enthält das neue Beispiel $h 2$ nicht. Deshalb wird $S 2$ so verallgemeinert, dass es $h 2$ enthält. Da sich $h 1$ und $h 2$ nur in der Sportart unterscheiden, ersetzt man Fußball durch das Platzhaltersymbol ?

Negatives Beispiel

$h 3 =$ (Bodenturnen, Einzel, drinnen, Welt, Samstag)
$S 3 = {($ ?, Mannschaft, draußen, national, Samstag $)}$
$G 3 = {$ (?, Mannschaft, ?, ?, ?), (?, ?, draußen, ?, ?), (?, ?, ?, national, ?) $}$

Erklärung

$S 2$ enthält das negative Beispiele nicht, deshalb bleibt $S 2$ unverändert. $G 2$ muss spezialisiert werden, indem es alle Fälle aufführt, die verhindern, dass $h 3$ als gültiges Beispiel anerkannt wird. Gleichzeitig muss $G 3$ so allgemein sein, dass es die bisherigen Beispiele zulässt.

Positives Beispiel

$h 4 =$ (Handball, Mannschaft, drinnen, national, Samstag)
$S 4 = {($ ?, Mannschaft, ?, national, Samstag $)}$
$G 4 = {$ (?, Mannschaft, ?, ?, ?), (?, ?, ?, national, ?) $}$

Erklärung

$S 3$ enthält das aktuelle Beispiel nicht und muss deshalb erweitert werden. $G 3$ würde das aktuelle Beispiel zurückweisen, deshalb muss $G 3$ spezialisiert werden.

Negatives Beispiel

$h 5 =$ (Zehnkampf, Einzel, draußen, Welt, Sonntag)
$S 5 = {($ ?, Mannschaft, ?, national, Samstag $)}$
$G 5 = {$ (?, Mannschaft, ?, ?, ?), (?, ?, ?, national, ?) $}$

Erklärung

Da $S 4$ das Beispiel zurückweist, ist $S 5 = S 4$ . Auch $G 4$ lässt das Beispiel nicht zu, das heißt $G 4 = G 5$ .

Literatur

Tom M. Mitchell: Machine Learning, McGraw Hill. 1997. ISBN 0071154671

Kategorie:

Maschinelles Lernen

Wikimedia Foundation.

Игры ⚽ Поможем написать реферат

Schlagen Sie auch in anderen Wörterbüchern nach:

WARL — Wahrscheinlich Annähernd Richtiges Lernen (WARL) oder englisch Probably approximately correct learning (PAC learning) ist ein Framework für das maschinelle Lernen, das von Leslie Valiant in seinem Paper A theory of the learnable[1] eingeführt… … Deutsch Wikipedia
Warl — Wahrscheinlich Annähernd Richtiges Lernen (WARL) oder englisch Probably approximately correct learning (PAC learning) ist ein Framework für das maschinelle Lernen, das von Leslie Valiant in seinem Paper A theory of the learnable[1] eingeführt… … Deutsch Wikipedia
Probably Approximately Correct Learning — Wahrscheinlich Annähernd Richtiges Lernen (WARL) oder englisch Probably approximately correct learning (PAC learning) ist ein Framework für das maschinelle Lernen, das von Leslie Valiant in seinem Paper A theory of the learnable[1] eingeführt… … Deutsch Wikipedia
Hypothesenraum — Der Hypothesenraum enthält alle möglichen Hypothesen, die für eine mathematische Problemstellung relevant sind. Die Dimensionalität des Hypothesenraums ist oft sehr groß und jede Dimension kann stetige und diskrete Werte annehmen.… … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Versionsraum

Inhaltsverzeichnis

Generalität im Hypothesenraum

Versionsraum-Lernverfahren

Algorithmus

Vorteile und Nachteile

Beispiel

Positives Beispiel

Erklärung

Positives Beispiel

Erklärung

Negatives Beispiel

Erklärung

Positives Beispiel

Erklärung

Negatives Beispiel

Erklärung

Literatur

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Versionsraum

Inhaltsverzeichnis

Generalität im Hypothesenraum

Versionsraum-Lernverfahren

Algorithmus

Vorteile und Nachteile

Beispiel

Positives Beispiel

Erklärung

Positives Beispiel

Erklärung

Negatives Beispiel

Erklärung

Positives Beispiel

Erklärung

Negatives Beispiel

Erklärung

Literatur

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link