PAT Tree

PAT Tree

Ein PAT Tree ist eine Datenstruktur zum schnellen Auffinden von Wörtern in Texten. Grundlegende Idee dabei ist, den gesamten Text als eine Zeichenkette zu sehen, diese in siStrings zu zerlegen und deren binäre Darstellung in einen PATRICIA-Trie einzufügen.

Ein siString ist dabei eine Zeichenkette, die an einer beliebigen Stelle im Text beginnt und maximal bis ans Textende reicht.

Inhaltsverzeichnis

Geschichte

PAT Trees wurden von Gaston H. Gonnet, Ricardo A. Baeza-Yates und Tim Snider im Jahre 1992 in ihrer Arbeit "New indices for text: PAT Trees and PAT arrays" beschrieben. Sie benutzen PATRICIA-Tries, die von Donald R. Morrison beschrieben wurden. Gernot Gwehenberger beschrieb unabhängig (veröffentlicht im gleiche Monat Oct. 1968) eine zum PATRICIA-Trie identische Suchmethode und Datenstruktur. 1984 verwendete Gernot Gwehenberger diese Datenstruktur zur Beantwortung der Frage: Wieweit unterscheidet sich der Informationsgehalt genetischer Information vom Informationsgehalt anderer Informationen etwa der von zufällig generierter Information (Informationsgehalt I=1). Gemeint ist hier der Informationsgehalt nach Shannon. Die vergleichende Untersuchung erfolgte indem jeweils 3 gleichlange Textfolgen in siStrings zerlegt und zu jeweils einem PATRICIA-Tree zusammengefügt wurden. Der jeweilige Informationsgehalt I ergab sich dann aus der mittleren Anzahl Suchschritte A nach der Formel A=log2(N)/I + K(I). Diese Formel wurde abgeleitet für den Fall einer Textfolge deren Redundanz R (R=1-I) davon herrührt, dass die Bits 1 und 0, aus denen die Textfolge zusammengesetzt ist, eine unterschiedliche Wahrscheinlichkeit haben. Dabei ist N die Anzahl der siStrings und K eine von I abhängige Konstante (für die eine Formel angegeben wird). Die 3 Textfolgen von je 4361 Zeichen waren genetische Information des Bakteriums Escherichia coli (Plasmid pBR322), sowie die ersten 4361 alphanumerischen Zeichen der Publikation sowie zur Kontrolle zufällig generierte Information (I=1). Es ergab sich bei der praktischen Auswertung für die genetische Information I=0.9923, für den Text I=0.834 und für die Kontrolle I=1.0014.

Suchmethoden

PAT-Trees ermöglichen es, verschiedene Anfragearten effizient zu beantworten.

  • Präfix Suche
  • Näherungssuche
  • Bereichssuche
  • Häufigkeitssuche
  • Längste Wiederholungssuche
  • Suche nach regulären Ausdrücken
  • Ermitteln des Informationsgehalts (nach Shannon) einer Textfolge

Links

sonstige Literatur

  • Suchbäume: ein vielseitig einsetzbares Hilfsmittel, OUTPUT Nr. 8/1984, Fachpresse Goldach CH.

Wikimedia Foundation.

Игры ⚽ Поможем решить контрольную работу

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Pat Benatar — Pat Benatar, 2007 Background information Birth name Patricia Mae Andrzejewski Born Januar …   Wikipedia

  • Pat Mills — Nationalité …   Wikipédia en Français

  • Tree spiking — is a form of sabotage which involves hammering a metal rod or other material (commonly ceramic) into a tree trunk in order to discourage logging. A metal saw blade hitting an embedded spike could break or shatter, making it uneconomic to fell… …   Wikipedia

  • Pat Mastelotto — (2003) Pat Mastelotto est un batteur américain, né le 10 septembre 1955 à Chico, Californie. Autodidacte, il a commencé à apprendre la batterie dès l âge de 10 ans en écoutant des disques. Installé à Los Angeles dès 1973, il a travaillé comme… …   Wikipédia en Français

  • Pat Mora — (born 1942) is a female Mexican American author and poet. Pat Mora was born in El Paso, Texas. She is married and has 3 grown children. Their names are Libby Martinez, Bill Burnside, and Cissy Burnside.BiographyPat Mora was born in 1942 in El… …   Wikipedia

  • pat´u|lous|ness — pat|u|lous «PACH uh luhs», adjective. 1. opening rather widely; expanded. 2. slightly spreading, as the boughs of a tree. 3. Botany. a) spreading slightly, as a calyx. b) bearing the flowers loose or dispersed, as a peduncle. ╂[< Latin patulus …   Useful english dictionary

  • pat´u|lous|ly — pat|u|lous «PACH uh luhs», adjective. 1. opening rather widely; expanded. 2. slightly spreading, as the boughs of a tree. 3. Botany. a) spreading slightly, as a calyx. b) bearing the flowers loose or dispersed, as a peduncle. ╂[< Latin patulus …   Useful english dictionary

  • pat|u|lous — «PACH uh luhs», adjective. 1. opening rather widely; expanded. 2. slightly spreading, as the boughs of a tree. 3. Botany. a) spreading slightly, as a calyx. b) bearing the flowers loose or dispersed, as a peduncle. ╂[< Latin patulus (with… …   Useful english dictionary

  • Pat McCrory — Infobox Officeholder name = Pat McCrory birth date= birth date and age |1956|10|17 residence = Charlotte, North Carolina office = Mayor of the City of Charlotte term start = 1995 term end = present predecessor = Richard Vinroot successor =… …   Wikipedia

  • Pat Mills — Infobox Comics creator imagesize = 150 caption = birthname = birthdate = location = deathdate = deathplace = nationality = British area = writer alias = notable works = Sláine Charley s War ABC Warriors Nemesis the Warlock awards = Pat Mills,… …   Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”