Discover
Grundlagen der Automatischen Spracherkennung, WS17/18, Vorlesung
Grundlagen der Automatischen Spracherkennung, WS17/18, Vorlesung
Author: Karlsruher Institut für Technologie (KIT)
Subscribed: 16Played: 97Subscribe
Share
Description
Die Vorlesung erläutert den Aufbau eines modernen Spracherkennungssystems. Der Aufbau wird dabei motiviert ausgehend von der Produktion menschlicher Sprache und ihrer Eigenschaften. Es werden alle Verarbeitungsschritte von der Signalverarbeitung über das Training geeigneter, statistischer Modelle, bis hin zur eigentlichen Erkennung ausführlich behandelt.
Dabei stehen statistische Methoden, wie sie in aktuellen Spracherkennungssystemen verwendet werden, im Vordergrund. Somit wird der Stand der Technik in der automatischen Spracherkennung vermittelt. Ferner werden alternative Methoden vorgestellt, aus denen sich die aktuellen entwickelt haben und die zum Teil noch in spezialisierten Fällen in der Spracherkennung zum Einsatz kommen.
Anhand von Beispielanwendungen und Beispielen aus aktuellen Projekten wird der Stand der Technik und die Leistungsfähigkeit moderner Systeme veranschaulicht. Zusätzlich zu den grundlegenden Techniken wird auch eine Einführung in die weiterführenden Techniken automatischer Spracherkennung geben, um so zu vermitteln, wie moderne, leistungsfähige Spracherkennungssysteme trainiert und angewendet werden können.
Literaturhinweise: Xuedong Huang, Alex Acero, Hsiao-wuen Hon, Spoken Language Processing, Prentice Hall, NJ, USA, 2001 Fredrick Jelinek (editor), Statistical Methods for Speech Recognition, The MIT Press,1997, Cambridge, Massachusetts, London, England.
Dabei stehen statistische Methoden, wie sie in aktuellen Spracherkennungssystemen verwendet werden, im Vordergrund. Somit wird der Stand der Technik in der automatischen Spracherkennung vermittelt. Ferner werden alternative Methoden vorgestellt, aus denen sich die aktuellen entwickelt haben und die zum Teil noch in spezialisierten Fällen in der Spracherkennung zum Einsatz kommen.
Anhand von Beispielanwendungen und Beispielen aus aktuellen Projekten wird der Stand der Technik und die Leistungsfähigkeit moderner Systeme veranschaulicht. Zusätzlich zu den grundlegenden Techniken wird auch eine Einführung in die weiterführenden Techniken automatischer Spracherkennung geben, um so zu vermitteln, wie moderne, leistungsfähige Spracherkennungssysteme trainiert und angewendet werden können.
Literaturhinweise: Xuedong Huang, Alex Acero, Hsiao-wuen Hon, Spoken Language Processing, Prentice Hall, NJ, USA, 2001 Fredrick Jelinek (editor), Statistical Methods for Speech Recognition, The MIT Press,1997, Cambridge, Massachusetts, London, England.
22 Episodes
Reverse
22 |
0:00:00 Starten
0:00:15 Qualität von Sprachmodellen
0:04:22 Entropie einer Wortquelle
0:09:36 Perplexität von Sprachmodellen
0:17:42 Perpkexität und Akustik
0:21:51 Adaption - Motivation
0:30:51 Adaption des Akustischen Modells
0:38:46 Adaption als Transformation
0:40:45 Arten der Adaption
0:50:50 Anweundung der Transformation
0:54:11 Adaptionsmethoden
0:56:06 Vokaltraktlängen- normalisierung (VTLN)
1:11:27 VTLN: Experimente
21 |
0:00:00 Starten
0:01:04 Korrektives Training
0:12:17 Transinformation/ Mutual information
0:21:21 Erweiterte Baum-Welch Regeln
0:31:00 MWE/MCE Training
0:56:56 Herausforderung bei der OOV Detektion
1:09:49 Lernen der neuen Wörter
1:15:34 Motivation
20 |
0:00:00 Starten
0:01:10 Mehrpass Suchen
0:03:15 beispiel: IBIS Single Pass Decoder
0:10:01 Consensus Decoding
0:13:08 Bsp: MAP vs. Wort-Posteriori-W‘keiten
0:17:54 Minimierung des Wortfehlers
0:21:23 Approximierung mit N-besten Listen
0:25:09 WER Minimierung auf Wortgraphen
0:33:50 Algiment als Äquivalenzrelation
0:37:22 Intra-Wort-Clustern
0:41:36 Confusionsnetzwerke
0:47:21 Systemkombonation
0:55:12 Mehrheitentscheidung
1:02:54 Probleme mit EM Training
19 |
0:00:00 Starten
0:00:09 Start
0:00:22 Kontinuierliche Suchräume, gleichverteiltes Sprachmodell
0:07:31 Suchraum mit Tri-Grammen
0:08:57 Viterbi Decoding
0:13:15 A* mit Stack Decoder
0:16:43 Heuristik für A*
0:21:35 Fast Match
0:25:21 Vor- und Nachteile Stackdecoder
0:28:35 A* vs. Strahlsuche
0:33:40 Vermeidung von Redundanzen
0:36:53 Baumsuche
0:39:27 Baumsuche mit Sprachmodell
0:41:46 Delayed Bi-Grams
0:43:36 Einsparung durch Baum-Lexica
0:48:20 Kopien von Suchbäumen
0:54:12 Suche mit kontextabhängigen Modellen
0:54:49 Baumsuche mit kontextabhängigen Modellen
0:59:02 N-Besten Suche
1:05:18 Probleme mit n besten Listen
1:08:31 Wortgraphen
1:11:16 Zusammenfassung Beschleunigungstechniken
1:12:58 Mehrpass Suchen
18 |
0:00:00 Starten
0:01:53 Chartparsing
0:03:45 Probabilistische CFGs
0:07:16 Suche
0:10:24 Suche in der Spracherkennung
0:24:59 Suche mit DP und Heuristik
0:31:09 Explizite vs. Implizite Implementierung
0:42:08 Suchstrategien
0:44:13 Tiefensuche vs. Breitensuche
0:49:34 Heuristische Graphsuche
0:52:49 Zeitasynchrone Suche mit A*
0:58:09 Zeitsynchrone Strahlschule
1:03:37 Beam vs. WER
1:09:48 Kontinuierliche Suchräume, gleichverteiltes Sprachmodell
1:13:08 Suche mit Uni-Gramm
17 |
0:00:00 Starten
0:00:09 Back-Off Sprachmodelle
0:02:08 Back-Off LM
0:05:22 Katz Backoff
0:09:28 Kneser-Ney Backoff
0:13:12 Schätzung von β - Margnialisierung
0:14:49 Leaving-One-Out β Schätzung
0:17:31 Klassenbasierte N-Gram LM
0:22:49 Klassenbasierte Sprachmodelle
0:24:13 Aussprachevarianten
0:25:27 Multiworte
0:27:52 Besondere Arten von Sprachmodellen
0:48:40 Entscheidungsbäume
0:52:26 HMMs für Sprachmodellierung
0:58:00 Probleme bei Sprachmodellen
1:06:55 Kombination von Sprachmodell und Akustischem Modell
1:13:39 Deterministische Sprachmodelle
1:16:17 Repräsentation der Grammatik
16 |
0:00:00 Starten
0:01:14 Multiworte
0:05:49 Single Pronunciation Dictionaries
0:09:03 Erweiterter Clusterbaum
0:10:36 Ergebnisse
0:15:57 Literaturempfehlung
0:17:27 Erinnerung: Fundamentalformel
0:18:33 Deterministische vs. Stochastische Sprachmodelle
0:20:50 Wörterratespiel
0:24:56 Wozu dient das Sprachmodell
0:27:11 Stochastische Sprachmodelle
0:32:08 Äquivalenzklassen
0:35:58 Schätzen von N-Gramm W'keiten
0:37:03 Beispiel
0:39:36 Bigramme und Trigramme
0:41:48 Das Bag-of-Words Experiment
0:43:03 Glättung von Sprachmodellparametern
0:44:50 Discounting
0:47:07 Interpolation (Lineare Glättung)
0:50:02 HMM für Interpolationsgewichte
1:07:25 Schätzung der Gewichte
1:08:55 Deleted Interpolation Basierend auf den ""Conditional Counts""
1:11:07 Praktische Aspekte
1:13:55 Schätzen von Y
1:15:37 Allgemeines Rahmenwerk für Glättung
1:17:59 Weitere Notationen
1:23:02 M bestimmen
1:26:25 Good-Turing Discounting
1:28:30 Back-Off Sprachmodelle
15 |
0:00:00 Starten
0:01:53 Clustern mit Likelihood Distanz
0:04:33 Kontextfragen
0:12:44 Typische Kontextfragen
0:16:37 Abdeckung durch Polyphone
0:19:48 Gewinn durch längere Kontexte
0:21:40 Verwendung dynamischer Modalitäten
0:24:17 Dynamische Modalitäten
0:39:58 Fehler durch falsche Aussprache
0:42:25 Generierung von Aussprachewörterbüchern
0:44:38 Verwendung von existierenden Wörterbüchern
0:47:34 Lernen von Ausspracheregeln
1:00:33 Inkrementelles Lernen
1:02:35 Aussprachevarianten
1:05:18 Finden von Aussprachevarianten
1:06:55 Probleme mit Aussprachevarianten
1:11:50 Regeln für Aussprachevarianten im Deutschen
1:15:47 Finden von Aussprachevarianten mit dem Silbenmodell
1:17:49 Aussprachen bestimmen für unüberwachtes Lernen
1:20:49 Aussprachewörterbuch Entwicklung (nach Adda-Decker und Lamel)
14 |
0:00:00 Starten
0:00:35 Polyphone - Datenmangel
0:03:50 Polyphone
0:10:07 Backoff für Polyphone
0:13:27 Bottom-Up vs. Top-Down Clustering
0:17:38 Distanzen für Polyphonecluster
0:23:08 Diskrete Entropiedistanz
0:29:30 Gewichtete Entropiedistanz
0:32:27 Clustern von Polyphonen mit Entropiedistanz
0:38:59 Clustern nach Kai-Fu Lee
0:48:37 Clustering mit Entscheidungsbäumen
0:53:37 Top-Down Clustern
13 |
0:00:00 Starten
0:03:43 HMMs in ASR
0:04:40 Wortfolge zu HMM
0:06:02 HMM in ASR
0:16:53 HMM Trainingszyklus
0:23:06 Etikettierte Daten
0:30:58 Initialisierung mit K-Mittelwerte Algorithmus
0:32:36 Neutral Gas Algorithmus
0:35:38 Initialisierung der HMM Parameter
0:40:35 Initialisierung ohne Ettiketierte Daten
0:41:23 Viterbi Training
0:46:50 Label Training
0:47:39 Komponenten eines HMM Erkenners
0:49:11 Parameterkopplung
0:52:32 Semikontinuierliches HMM
0:57:24 Parameterkopplung
1:05:44 Parameterkopplung für GMMs
1:08:37 Kontextabhängige, akustische Modelierung
1:14:51 Spracheinheiten
1:15:50 Polyphone
1:17:25 Spracheinheiten
1:19:58 Cross Wort Polyphone
1:23:29 Positionsabhängige Polyphone
12 |
0:00:00 Starten
0:02:07 Expectation Maximization (EM)
0:05:35 EM
0:09:59 EM - Expectation Schritt
0:14:39 EM für Mixtur-Gewichte
0:23:40 EM für Mixturgewichte
0:30:07 EM für Gaußmixturen
0:52:19 EM für HMMs
0:56:20 EM für HMMs Anfangswahrscheinlichkeiten
0:58:23 EM für Übergangswahrscheinlichkeiten
1:09:43 HMM Training für multiple Trainingssequenzen
1:15:46 HMMs in ASR
11 |
0:00:00 Starten
0:00:31 Die Fundamentalformel (Erinnerung)
0:01:00 Hidden Markov Model Ansatz
0:04:14 Münzen-Beispiel
0:10:53 Urne Ball Modell
0:12:02 HMM Definition
0:14:06 HMM Beobachtungsgenerierung
0:16:13 Die HMM Trellis
0:17:05 Die drei Probleme der HMMs
0:22:46 Forward Algorithmus
0:39:03 Backward Algorithmus
0:41:01 Das Decoding Problem
0:43:10 Viterbi-Algorithmus
0:45:37 Das Lern-Problem
0:53:19 Baum-Welch Regeln
0:56:57 Literatur
0:59:11 Maximum-Likelihood Methode
1:30:33 Exspectation Maximization (EM)
10 |
0:00:00 Starten
0:00:20 Vektorquantisierung
0:01:07 Voronoiregionen
0:01:19 Mahalanobis Distanz
0:01:39 Vektorquantisierung als Klassifikationsproblem
0:02:14 K-Nächte Nachbar
0:03:21 Beschleunigung von KNN
0:15:21 Baumstruktur des Merkmalsraum
0:16:20 Aufgabe
0:26:15 Finden von Referenzvektoren
0:26:56 K-Mittelwerte
0:29:09 Learning VQ
0:31:24 LVQ2, LVQ3
0:32:53 LVQ als KNN
0:37:13 Literaturempfehlung zu dieser Vorlesung
0:38:45 Stochastik in der Spracherkennung
0:46:57 Die Fundamentalformel
0:53:27 Stochastische ASR Akustisches Modell
0:54:33 Die Fundamentalformel
0:56:21 Stochastischer Prozess
1:06:03 Markow-Kette
1:07:35 Markow-Kette n-ter Ordnung
1:09:13 Markow-Ketten 1.Ordnung
1:11:15 Homogene Makow-Ketten 1.Ordnung
1:12:05 Beispiele
1:19:44 Hidden Markov Models
09 |
0:00:00 Starten
0:00:33 Spracherkennung mit Musterklassifikation
0:03:37 Aufgabe
0:04:55 Vergleich ganzer Äußerungen
0:11:51 Time Warping
0:14:19 Distanz zweier Äußerungen
0:15:42 DP Matrix
0:17:44 Dynamic Time Warping (DTW)
0:20:24 Einschränkungen des DTW Pfades
0:23:55 DTW-Schritte
0:26:23 Der DTW Suchraum
0:30:47 Mögliche Distanzen zwischen Vektoren
0:35:43 Einordnung des DTW
0:36:58 DTW für einzelne Wörter
0:42:44 DTW für Sequenzen mehrerer Wörter
0:48:16 One Stage DP
0:51:35 One-Stage DP Implementierung
0:56:47 One Stage DP Syntaktische Einschränkung
1:00:03 Gaußverteilung (Normalverteilung)
1:02:45 Multivariante Normalverteilung
1:04:05 Kovarianzmatrix der Gaußverteilung
1:09:06 Gauß-Mischverteilungen
1:11:52 Benutzung in der Praxis
1:15:30 Vektorquantisierung
1:21:07 Voronoiregionen
1:23:49 Mahalanobis Distanz
1:25:08 Vektorquatisierung als Klassifikationsproblem
1:27:04 K-Nächste Nachbar
08 |
0:00:00 Starten
0:00:16 Vergleich verschiedener Spektren
0:01:40 Typische Vorverarbeitung
0:12:10 Dynamische Merkmale
0:13:10 Autokorrelaktion
0:18:52 Nulldurchgangsrate
0:21:30 Hauptkomponentenanalyse (PCA)
0:26:23 Lineare Diskriminanznalyse
0:31:08 Vorverarbeitung mit Neuronalen Netzen
0:34:48 Bottleneck Features
0:38:06 Klassifikation
0:43:00 Statische vs. Wissensbasierende Ansätze
0:43:53 Wissensbasiert: Entscheidungsbäume
0:46:11 Classifikation and Regression Trees
0:50:34 Überwachtes vs. Unüberwachtes Lernen
0:51:13 Unüberwachtes Lernen
0:52:26 Überwachtes Lernen
0:54:08 Parametrische vs. Nichtparametrische Klassifikation
0:54:34 Bayes Klassifikator
0:58:44 Minimum Fehler Regel
0:59:14 Entscheidungsgrenze
0:59:56 Parzen Fenster
1:01:09 Spracherkennung mit Musterklassifikation
1:04:12 Vergleich ganzer Äußerungen
07 |
0:00:00 Starten
0:00:04 Spektrodiagramm
0:03:22 Oberschwingung, Harmonische
0:07:11 Mel Skalierung
0:16:35 Effekt der Fensterlängen
0:20:58 Quelle Filter Modell der Sprache
0:22:36 Helmholtzresonator
0:27:55 Vokaldreieck
0:32:59 Lineare Vorhersage (LPC)
0:42:42 Interpretation der LPC Koeffizienten
0:45:59 All-Pole Modell
0:46:54 LPC Beispiel
0:49:28 Cepstrum
1:06:13 Diskrete Cosinustransformation
1:13:32 Beispiel: Berechnung MFCC Koeffizienten
1:15:29 Cepstral-Koeffizienten
05 |
0:00:00 Starten
0:00:31 Wortfehlerrate
0:03:26 Minimale Editierdistanz
0:09:36 Eigenschaften der WER
0:14:07 Probleme mit der WER?
0:18:00 WER in den DARPA Evaluationen
0:28:50 Grundlagen der Signalverarbeitng
0:29:25 Wozu Signal(vor)verarbeitung?
0:32:29 Systeme
0:35:19 Zeitinvariante System
0:36:54 Dirac Distribution
0:43:50 Faltung
0:46:58 Impulsantwort
0:56:30 Quelle Filter Modell der Sprache
0:59:41 Parametereigenschaften einer trigonometrischen Funktion
1:02:27 Darstellungen der Fourierreihe
1:07:29 Komplexes Spektrum
1:09:26 Fouriertransformation
06 |
0:00:00 Starten
0:00:19 Die heutige Vorlesung
0:00:27 Darstellungen der Fourierreihe
0:00:37 Fouriertransformation
0:01:17 Komplexes Spektrum
0:03:06 Projektion der komplexen Exponentialfunktion auf die reelle trigonometrische Funktion
0:04:33 Zeitdiskrete Fouriertransformation
0:07:37 Diskrete Fouriertransformation
0:11:11 Schnelle Fouriertransformation
0:12:44 Zusammenfassung Fouriertransformation
0:14:25 Digitalisierung
0:15:26 Abtastung (Sampling)
0:17:29 Abtasttheorem
0:20:34 Aliasing
0:30:05 Reale Abtastung
0:32:11 Quantisierung
0:33:49 Quantisierungsrauschen
0:38:21 Quantisierung von Sprachsignalen
0:41:27 Einseitige und zweiseitige Laplace Transformation
0:46:34 Wiederholung LTI-Systeme
0:47:40 Darstellung der Übertragungsfunktion von LTI Systemen
0:52:07 Projektion auf s-Ebene
0:54:28 Pol-Nullstellen-Schema in der s-Ebene
0:54:40 Die Z-Transformation
0:55:43 Zusammenhang LT und ZT
0:58:32 Abbildung komplexe s-Ebene auf z-Ebene
1:00:47 Kurzzeitspektralanalyse
1:10:46 Periodizität des gefensterten Signals
1:11:00 Effekt der Fensterung
1:12:58 Fensterfunktionen
1:18:05 Spektrogramm
04 |
0:00:00 Starten
0:00:57 Schriftsysteme
0:14:06 Verteilung der Schriftsysteme
0:17:36 Mikrofone
0:27:17 Überblick
0:28:14 Wandlerprinzipien
0:37:19 Richtcharakteristik
0:45:29 Akustische Bauformen
0:59:31 Pop- und Windschutz
1:01:05 Geschichte der ASR
1:11:48 Euphonia -Speech Organ (1846)
1:15:10 Radio Rex
1:16:24 Vocoder
1:18:38 Harpy
03 |
0:00:00 Starten
0:00:19 Heute
0:01:22 Stimmhafte Sprache
0:01:48 Stimmlose Sprache
0:02:09 Grundfrequenz/-ton
0:03:39 Sprachlaute-Vokale und Konsonante
0:07:03 Vokale
0:09:50 Diphthonge
0:11:50 Konsonanten
0:15:22 Ort der Artikulation
0:18:27 Art der Artikulation
0:22:40 Internationale Phonetische Alphabet
0:23:47 Beispielkonfigurationen
0:24:42 IPA Konsonaten
0:25:48 Plosive
0:26:19 Nasale
0:26:45 Frikative
0:27:41 Phonem
0:31:50 Kurioses
0:36:22 Schall
0:42:23 Schalldruckpegel
0:44:32 Beispiele für Pegel
0:46:47 Schallenergie
0:49:39 Schallfläche
0:50:06 Anatomie Gehör
0:59:19 Cochlea
1:03:35 Psychoakustik
1:06:16 Frequenzantwort der Membran
1:08:26 Lautstärkenempfinden
1:10:07 Experimente
1:17:37 Die Hörfläche



