Random Forest

Random Forest: Ein Random Forest ist ein Klassifikationsverfahren, welches aus mehreren verschiedenen, unkorrelierten Entscheidungsbäumen besteht. Alle Entscheidungsbäume sind unter einer bestimmten Art von Randomisierung während des Lernprozesses gewachsen. Für eine Klassifikation darf jeder Baum in diesem Wald eine Entscheidung treffen und die Klasse mit den meisten Stimmen entscheidet die endgültige Klassifikation. Neben einer Klassifikation kann der Random Forest auch zur Regression eingesetzt werden.

Der Begriff Random Forest wurde von Leo Breiman im Jahr 2001 ^[1] geprägt, welcher verschiedene Methoden der Randomisierung der Bäume, beispielsweise mittels Bagging oder Boosting erforschte. Seiner Arbeit ging die Forschung von Tin Kam Ho ^[2] im Jahr 1995 voraus.

Inhaltsverzeichnis

1 Eigenschaften

2 Funktionsweise

3 Software

4 Weblinks

5 Quellen

Eigenschaften

Ein Random Forest kann mit vielen Vorteilen gegenüber anderen Klassifikationsmethoden wie der SVM punkten.

Der Klassifikator trainiert sehr schnell. Dieser Vorteil ergibt sich durch die kurze Trainings- bzw. Aufbauzeit eines einzelnen Entscheidungsbaumes. Die Trainingszeit bei einem Random Forest steigt linear mit der Anzahl der Bäume.

Die Evaluierung eines Testbeispieles geschieht auf jedem Baum einzeln und ist daher parallelisierbar. Er evaluiert also schnell.

Er ist sehr effizient auf große Datenmengen (Anzahl der Klassen, Beispiele sowie Merkmale) anzuwenden.

Starke (wichtige) Klassen können erkannt werden.

Der Zusammenhang von Klassen kann mittels Random Forests erkannt werden.

Funktionsweise

Es gibt viele verschiedene Varianten und Ansätze einen Random Forest zu trainieren und klassifizieren zu lassen. Dazu zählt unter anderem, welche Entscheidungsbäume verwendet werden und ob eine maximale Tiefe der Bäume vorgegeben wird. Nach Breiman ^[1] soll für jeden Entscheidungsbaum im Wald folgender Algorithmus angewandt werden:

Bei N Beobachtungen in der Trainingsmenge, werden n Objekte zufällig mit Zurücklegen gezogen.

Bei M Merkmalen (Features oder Dimensionen) der Beispiele werden an jedem Knoten im Baum $m < < M$ Merkmale zufällig gewählt, die zur Betrachtung des Schnitts (Split) genommen werden. Dies kann zum Beispiel mittels der Minimierung der Entropie geschehen.

Der Baum wird voll ausgebaut und nicht zurückgeschnitten (Pruning).

Zur Klassifikation wird nun ein Beispiel in jedem Baum ausgewertet. Jene Klasse, welche am häufigsten gewählt wurde ist die Klassifikation des Random Forest.

Anna Bosch ^[3] hat in ihrer Arbeit zusätzlich jedem Blatt die a posteriori Wahrscheinlichkeiten der Klassen gespeichert, mit der sie zu diesem Blatt finden. Diese Wahrscheinlichkeiten werden anschließend für die Wahl der Klassifikation berücksichtigt. Dadurch konnte sie im Weiteren die Fehlerrate in ihrer Anwendung verringern.

Software

Leo Breiman und Adele Cutler: Eine Implementierung eines Random Forest in FORTRAN 77

Random Forests von Salford Systems

randomForest in R

Oblique random forests mit multivariaten Entscheidungsbaeumen in R

Random Jungle ist eine schnelle Implementierung für hochdimensionale Daten. (C++, paralleles Rechnen, geringer Speicherverbrauch, Linux + Windows)

[Waikato Environment for Knowledge Analysis]: Das freie Softwarepaket Weka der Universität von Waikato stellt neben vielen weiteren Klassifikatoren und Regressionsmethoden auch eine Random-Forest Implementierung zur Verfügung.

Vigra: Vigra bietet neben einer Vielzahl von Bildverarbeitungsalgorithmen auch eine effiziente C++ Implementierung des Random Forest Klassifikators sowie verschiedene Regressionsverfahren (u.a. LARS).

Weblinks

http://stat-www.berkeley.edu/users/breiman/RandomForests/cc_home.htm (Random Forests, Homepage von Leo Breiman und Adele Cutler)

Quellen

↑ ^a ^b Breiman L., Random forests. In Machine Learning, Seiten 5-32, 2001

↑ Tin Kam Ho, Random Decision Forests, Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, Canada, August 14-18, 1995, 278-282

↑ Bosch, A., Zisserman, A., and Muoz, X. Image classiﬁcation using random forests and ferns. ICCV 2007. IEEE 11th International Conference on Computer Vision, Seiten 1–8.

Kategorien:
Neuroinformatik
Klassifikationsverfahren

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

Random forest — (англ. случайный лес) алгоритм машинного обучения, предложенный Лео Брейманом[1][2] и Адель Катлер, заключающийся в использовании комитета (ансамбля) решающих деревьев. Алгоритм сочетает в себе две основные идеи: метод бэггинга… … Википедия
Random forest — In machine learning, a random forest is a classifier that consists of many decision trees and outputs the class that is the mode of the classes output by individual trees. The algorithm for inducing a random forest was developed by Leo Breiman… … Wikipedia
Random Forest — … Википедия
Random naive Bayes — extends the Naive Bayes classifier by adopting the random forest principles: random input selection (bagging, i.e. bootstrap aggregating) and random feature selection ( [Breiman, 2001] ). Naive Bayes classifier Naive Bayes is a probabilistic… … Wikipedia
Random multinomial logit — In statistics and machine learning, random multinomial logit (RMNL) is a technique for (multi class) statistical classification using repeated multinomial logit analyses via Leo Breiman s random forests. Rationale for the new methodSeveral… … Wikipedia
Forest inventory — is the systematic collection of data and forest information for assessment or analysis. It is also commonly known as timber cruising. It is important for owners to cruise the timber to get an estimate of the value and possible uses of the timber … Wikipedia
Random encounter — A random encounter is a feature commonly used in hack and slash role playing games and computer and video games whereby encounters with non player character (NPC) enemies or other dangers occur sporadically and at random. In general, random… … Wikipedia
Forest City Stockade — The Forest City Stockade was built to defend the area settlers from Indian attacks. It became famous during the Dakota War of 1862. The following account is taken from Terry Tales 2, a book by Terry R. Shaw: It had been Jesse Branham, Sr.’s son… … Wikipedia
Allegheny National Forest — Infobox protected area | name = Allegheny National Forest iucn category = VI caption = locator x = 230 locator y = 64 location = Warren, McKean, Forest, and Elk counties, Pennsylvania, USA nearest city = Warren, PA lat degrees = 41 lat minutes =… … Wikipedia
Lake Forest College — Infobox University name = Lake Forest College native name = latin name = motto = Natura et Scientia Amore established = 1857 type = Liberal Arts School endowment = $76,700,000 staff = faculty = 117 president = Stephen D. Schutt provost = Janet… … Wikipedia

Academic dictionaries and encyclopedias

Random Forest

Inhaltsverzeichnis

Eigenschaften

Funktionsweise

Software

Weblinks

Quellen

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Academic dictionaries and encyclopedias

Deutsch Wikipedia

Random Forest

Inhaltsverzeichnis

Eigenschaften

Funktionsweise

Software

Weblinks

Quellen

Schlagen Sie auch in anderen Wörterbüchern nach:

Share the article and excerpts

Direct link