Mel Frequency Cepstral Coefficients

Mel Frequency Cepstral Coefficients

Die Mel Frequency Cepstral Coefficients (MFCC) (dt. Mel-Frequenz-Cepstrum-Koeffizienten) werden zur automatischen Spracherkennung verwendet. Sie führen zu einer kompakten Darstellung des Frequenzspektrums. Das Mel im Namen beschreibt die wahrgenommene Tonhöhe.

MFCCs werden auch zur Analyse von Musik herangezogen. Insbesondere werden sie für die Erkennung von Musikstücken eingesetzt, um ihnen Metadaten zuordnen zu können.

Die lineare Modellierung von Spracherzeugung dient als eigentliche Grundlage für die Erzeugung von MFCCs: Ein periodisches Anregungssignal (Stimmbänder) wird durch einen „linearen Filter“ (Mund, Zunge, Nasenhöhlen, …) geformt. Für die Spracherkennung ist in erster Linie der Filter (bzw. seine Impulsantwort) von Bedeutung, da „was gesagt wurde“ und nicht „in welcher Tonlage“ für die Analyse von Interesse ist. Die Berechnung der MFCC ist eine elegante Methode, das Anregungssignal und die Impulsantwort des Filters zu trennen.

Mathematisch formuliert wird die Impulsantwort des Filters mit dem Anregungssignal gefaltet, um das Sprachsignal zu erzeugen. Bei Berechnung des Cepstrums wird die Faltungsoperation auf Grund des Logarithmus in eine Addition transformiert, die einfach zu trennen ist, womit man das Sprachsignal in Anregung (excitation) und Quelle (source) trennen kann.

MFCCs werden durch die folgenden Schritte berechnet:

  1. Unterteilung des Eingabesignals in Blöcke bzw. Fenster (z.B. Hamming-Fensterfunktion um Kanteneffekte zu vermeiden). Überlappende Fenster sind üblich.
  2. (Diskrete) Fourier-Transformation jedes einzelnen Fensters (Dadurch wird die Faltung von Anregungssignal und Impulsantwort in eine Multiplikation transformiert).
  3. Erzeugung des Betragsspektrum.
  4. Logarithmierung des Betragsspektrums (Dieser Schritt wurde durch die Einsicht motiviert, dass „Lautheit“ vom menschlichen Ohr in etwa logarithmisch wahrgenommen wird. Des Weiteren wird dadurch die Multiplikation von Anregungssignal und Impulsantwort in eine Addition transformiert).
  5. Reduktion der Anzahl der Frequenzbänder (z. B. 256) durch Zusammenfassen (auf z. B. 40). (Abbildung auf die Mel-Scala in diskreten Schritten mittels Dreiecksfiltern (effektiv eine Bandfilterung)).
  6. Abschließende Dekorrelation durch entweder eine Diskrete Kosinustransformation, Karhunen-Loève-Transformation oder eine Hauptkomponentenanalyse. (Ursprünglich wurden die logarithmierten Fourier-Koeffizienten (ohne Mel-Bandpassfilterung) invers Fouriertransformiert. Die Anregungsfrequenz ist dann eine einzelne Spitze und leicht zu erkennen bzw. herauszufiltern. Weil es auf den ersten Blick relativ sinnfrei wirkt, das Fourier-transformierte Signal (nach Logarithmierung) wieder invers Fourier zu transformieren, wurde das Resultat Cepstrum, eine Buchstabenverdrehung aus spectrum, getauft. Nachdem nach der (üblicherweise komplexen) Logarithmierung nur noch reellwertige Zahlen übrig bleiben, wurde die inverse Fourier- durch eine Kosinustransformation ersetzt, da diese weniger aufwändig zu berechnen ist.)

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем решить контрольную работу

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Mel-frequency cepstrum — In sound processing, the mel frequency cepstrum (MFC) is a representation of the short term power spectrum of a sound, based on a linear cosine transform of a log power spectrum on a nonlinear mel scale of frequency. Mel frequency cepstral… …   Wikipedia

  • Echelle de Mel — Échelle de Mel Pour les articles homonymes, voir Mel. L échelle de Mel est une échelle de fréquences basée sur la perception humaine. Elle se mesure en mels. Sommaire 1 Principe 1.1 Exemple …   Wikipédia en Français

  • Échelle de mel — Pour les articles homonymes, voir Mel. L échelle de Mel est une échelle de fréquences basée sur la perception humaine. Elle se mesure en mels. Sommaire 1 Principe 1.1 Exemple …   Wikipédia en Français

  • Échelle de Mel — Pour les articles homonymes, voir Mel. L échelle de Mel est une échelle de fréquences basée sur la perception humaine. Elle se mesure en mels. Sommaire 1 Principe 1.1 Exemple …   Wikipédia en Français

  • Cepstrum — Cepstral redirects here. For the software company based in Pennsylvania, see Cepstral (company). A cepstrum /ˈkɛps …   Wikipedia

  • Cepstre — Le cepstre (prononcé [kɛpstr]) d un signal x(t) est une transformation de ce signal du domaine temporel vers un autre domaine analogue au domaine temporel. Pour rappeler le fait que l on effectue une transformation inverse à partir du domaine… …   Wikipédia en Français

  • MFCC — Este artículo fue creado a partir de la traducción parcial del artículo Mel frequency cepstrum de la Wikipedia en inglés, bajo licencia Creative Commons Atribución Compartir Igual 3.0 y GFDL. Los Mel Frequency Cepstral Coefficients (coeficientes… …   Wikipedia Español

  • MFCC — Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung. Die Mel Frequency Cepstral Coefficients (MFCC) (dt. Mel Frequenz… …   Deutsch Wikipedia

  • Mfcc — Dieser Artikel oder Abschnitt bedarf einer Überarbeitung. Näheres ist auf der Diskussionsseite angegeben. Hilf mit, ihn zu verbessern, und entferne anschließend diese Markierung. Die Mel Frequency Cepstral Coefficients (MFCC) (dt. Mel Frequenz… …   Deutsch Wikipedia

  • Automatic Speech Recognition — Reconnaissance vocale Pour les articles homonymes, voir ASR. La reconnaissance vocale ou reconnaissance automatique de la parole (Automatic Speech Recognition ASR) est une technologie informatique qui permet d analyser un mot ou une phrase captée …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”