Loading…
Immer mehr Multimediadaten werden der Öffentlichkeit zugängig gemacht und die
Menge der Daten nimmt dabei rasant zu. Der Großteil dieser multimedialen Dokumenten
besteht zudem aus gesprochenen Informationen. Daher stehen die Anwendungen
im Vordergrund, die ermöglichen, die gesprochenen Informationen in großen audiovisuellen
Datenbeständen wiederzufinden. Der Retrieval-Ansatz von den gesprochenen
Informationen (SDR) verläuft folgendermaßen. Die automatische Sprachererkennung
(ASR) und Text Information Retrieval werden hintereinandergeschaltet. Das ASR-System
transkribierte die gesprochenen Informationen im Text. Das Text Information
Retrieval System dient dazu, die gewünschte Information in der ASR-Ausgabe zu
finden. Die ASR-Ausgabe enthält Fehler, die häufig durch die Erkennung der out-of-vocabulary
(OOV)Wörter, insbesondere bei Nebengeräuschen auf der Audioaufnahme,
entstehen. Die Fehler in der ASR-Ausgabe führen zu einem Informationsverlust. Die
robuste Informationswiedergewinnung in den fehlerhaften ASR-Ausgaben stellt eine
große Herausforderung dar. Diese Dissertation konzentriert sich auf die Untersuchung
von robusten SDR-Ansätzen, die mit den Erkennungsfehlern in der ASR-Ausgabe umgehen
und die Probleme, die von OOV-Wörtern ausgelöst werden, vermindern können.
Die in Literatur beschriebenen SDR-Systeme werden nicht mit einheitlichen Datenbeständen evaluiert. Es fehlt ein gemeinsames Datenbestand, der den Leistungsvergleich
zwischen verschiedenen SDR-Systemen ermöglicht. Aus diesem Grund, wird ein
Testdatenbestand zusammengestellt. Die in dieser Arbeit verwendeten Testdaten stammen
aus dem Wall Street Journal Corpus. Sie beinhalten gesprochene Informationen
von unterschiedlichen Rednern, die unter verschiedenen akustischen Umgebungen mit
abweichenden Aufzeichnungskanälen aufgenommen wurden. Zu den akustischen Umgebungen
gehören z.B. Hintergrundmusik, Gespräche oder nebenläufige Sprachsendungen
des Radios.
Ein automatisches Spracherkennungssystem (ASR) wurde aufgebaut, um eine Text-Transkription der gesprochenen Informationen zu erstellen. Der Wortschatz des Spracheerkennungssystems
umfasst dabei 20000 erkennbare Wörter. Auf unseren Testdaten erreicht dieses Spracherkennungssystem eine Erkennungsfehlerrate (WER) von bis zu
25%.
In dieser Arbeit, wird nur der Fall von Ein-Wort Anfragen betrachtet. 13% von den
ausgewählten Anfragen sind OOV-Wörter. Der klassische SDR-Ansatz, der auf einer
Wort-Transkription der gesprochenen Informationen basiert, wird als Vergleichsbasis
(Baselinesystem) aufgebaut. Auf unseren Testdaten erhalt das Baselinesystem ein Mean
Average Value (mAP) von 61% und eine maximal Recall Rate (max.RE) von 78%.
Zuerst untersuchen wir verschiedene Wort-basierte SDR-Ansätze, die mit Fehlern
in der Text-Transkription gesprochener Informationen umgehen können. Die Erkennungsfehler
in der ASR-Ausgabe können, durch Einbeziehung von mehreren ASR-Hypothesen,
reduziert werden. Mehrere ASR-Hypothesen könnten als N-beste Wortliste,
Wortgitter oder Word Confusion Networks (WCN) in der ASR-Ausgabe abgespeichert
werden. Verschiedene SDR-Ansätze, die in einer ASR-Ausgabe, die mehrere
ASR-Hypothesen beinhaltet, werden untersucht.
Die SDR-Ansätze, die auf der ASR-Ausgabe einschließlich der N-beste ASR-Hypothesen
(N-best) basieren, wurden zuerst untersucht. Die Ergebnisse dieser Studie zeigen, dass
die Anzahl der eingeschlossenen ASR-Hypothesen in der ASR-Ausgabe einen signifikanten
Einfluss auf die Informationswiedergewinnungsleistung hat. Der max.RE steigt
mit der zunehmenden ASR-Hypothesen (N). Die beste mAP (ca. 85, 4%) beobachtet
man bei N = 9. Wir vergleichen verschiedene Gewichtungsschemen wie z.B. tfidf-
Gewichtung- undWahrscheinlichkeit-Gewichtungsmethode. Die Ergebnisse zeigen, dass
die Wahrscheinlichkeit-Gewichtungsmethode die mAP sich um weitere 0,7% verbessern
kann.
Die Untersuchung der auf Wortgitter basierenden SDR-Ansätze geht der Frage nach,
wie man den Suchraum vern¨unftig reduzieren kann, sodass die Retrieval-Leistung gehalten
wird. Der DNLLR-Wert wird für jede Verbindung in dem Wortgitter berechnet.
Die Verbindung in dem Wortgitter, deren DNLLR-Wert unter eine Schwelle liegt, wird
als ungültig erkannt und gel¨oscht. Die DNLLR-Schwelle ([−118,−90]) wird durch mehrere
Versuche eingestellt. Die beste max.RE ist 94, 5% mit einer mAP von 76, 2%.
WCN gilt als die kompakteste Form eines Wortgitters. Die Gesamtanzahl der Verbindungen
in WCN hat sich im Vergleich zu einem normalen Wortgitter um 76,5% reduziert. Eine max.RE von 95, 2% wird erzielt. Eine Vergleichsuntersuchung wird gemacht, um die Leistung verschiedener Gewichtschemen zu erkunden. Unsere Versuchen haben gezeigt, dass wenn die A-posteriori-Wahrscheinlichkeit der Verbindungen in dem WCN direkt als Term-Gewicht eingesetzt wird, dass dann die Genauigkeit niedriger Recall-Stufe verbessert werden kann. Aber das tfidf-Gewichtschema kann bessere mAP und max.RE erzielen. Ein neues Gewichtschema, das die A-posteriori-
Wahrscheinlichkeit und tfidf-Gewicht fr Term-Gewicht miteinander kombiniert, wird
vorgestellt. Mit dem neuem Gewichtschema, wird die Anzahl der Suchanfragen, die die
richtige Antwort in ersten Rang in der Ergebnisliste stehen (E1), deutlich erhöht. Das
neue Gewichtschema hat eine max.RE von 95, 23% und eine mAP von 63, 71% erzielt. Die WCN-basierten SDR-Ansätze erreichen die höchsten max.RE.
Die Bedienung der OOV-Suchanfrage von Wort-basierten SDR-Ansätze ist nur dann
möglich, wenn mindestens eine von den Methoden (z.B. Suchanfrage-Erweiterung und
Dokumente-Erweiterung), im Einsatz ist. Die von Moreau vorgestellte Suchanfrage-
Erweiterungsmethode, die die originale Suchanfrage durch seine akustische ähnliche In-
Vokabular Wort ersetzt, wird genau untersucht. Die experimentellen Ergebnisse zeigen
auch: der Ersatz der OOV-Wörter mit ihrem akustisch ähnlich Eintrag in das Erkennungsvokabular
ermöglicht, dass die Wort-basierten SDR-Ansätze die OOV-Anfrage behandeln können. Leider kann diese Lösung nur beschränkte Leistungen erbringen. Daher werden weitere Möglichkeiten untersucht, um die OOV-Probleme zu bekämpfen, wie zum Beispiel die auf Teilwort-Transkription (gesprochener Informationen) basierenden SDR-Ansätze. Das Verfahren der Umwandlung der gesprochenen Informationen in der Text-Transkription entspricht der Indizierungsphase eines Textinformation-Retrieval-Systems. Wir bezeichnen daher die Erkennungseinheit des Spracheerkennungssystems auch als Indizierungseinheit. In dieser Arbeit haben wir die Fähigkeiten
verschiedener Teilwort-Indizierungseinheiten in Indizierung und Retrieval auf der Referenztext
Transkription der gesprochenen Informationen untersucht. Die experimentellen Ergebnisse bestätigen, dass Teilwort-basierende gesprochene Dokumentabrufsysteme
akzeptable Leistung erzielen können. Wir müssen dennoch die Auswahl zwischen
Informationenerfassung und -genauigkeit treffen. Die maximale Informationsabdeckung
wird mit dem Phon als Indizierungseinheit erreicht.
Die Phon-Transkription der gesprochenen Informationen kann man durch die Anwendung
eines Phon-Erkennungssystem gewinnen. Mit Hilfe von einem Aussprache-Wörterbuch kann die Phon-Transkription der gesprochenen Informationen auch direkt von der ASR-Wortausgabe bereitgestellt werden. Experimentelle Ergebnisse weisen darauf hin, dass die Phon-Transkription, die durch Nachbearbeitung der ASR-Wortausgabe entstehen wird, weniger Fehler beinhaltet. Daher wird in weiteren Versuchen der monophon-basierten SDR-Ansätze eingesetzt. Phon-Transkription gewinnt mit zweiter Methode werden in folgenden Untersuchung eingesetzt.
Die SDR-Ansätze, die auf der Phon-3gram-Transkription der gesprochenen Informationen
basiert ist, wurden genau untersucht. Die experimentellen Ergebnisse zeigen,
dass die von Phon-3gram-basierte SDR-Ansätze erreichte max.RE generell höher
als die von den Wort-basierte SDR-Ansätzen sind. Der SDR-Ansatz mit dem tfidf-
Gewichtschema hat eine max.RE von 99,5% und eine mAP von 65,2% erreicht. Der
SDR-Ansatz, der die Phon-Abwechslungswahrscheinlichkeit in Term-Gewicht integriert,
hat keinen Gewinn in der Retrieval-Genauigkeit gebracht. Ein drastischer Verlust in
mAP (ca. 25,3%) ist nicht zu vermeiden. Mit dem SDR-Ansatz, der die Positionsinformationen
in Term-Gewicht integriert (Proximity), kann man eine mAP von 69,94% erreichen. Leider kann der Ansatz, der die PSPL auf Phon-3gram erweitert, keinen Gewinn auf der Retrieval-Leistung bringen. Die auf Phon-3gram basierenden SDR-Ansätze können nicht wirklich mit der OOV-Suchanfrage umgehen. Dies wird auch durch Experimenten nachbewiesen. Es wird untersucht, ob die Abfragelänge eine Wirkung auf die Retrieval-Leistung hat. Bei einer langen Suchanfrage, übertrifft der Proximity-Ansatz alle anderen Phon-3gram basierenden SDR-Ansätze. Der Proximity-Ansatz bietet
auch bessere max.RE bei kürzeren Suchanfrage an. Diese Aussagen werden mit zusätzlichen statistischen Signifikanz Tests verifiziert.
Eins von den Schwerpunkten der Untersuchungen von der Monophon-basierte SDR-Ansätze ist, die Ähnlichkeitsschätzungsmethode, die die Ähnlichkeit zwischen entdecktes Segment und der Suchanfrage bewertet, genau zu erforschen. Die INED-Methode nimmt die normalisierte Edit-Distanz als Ähnlichkeit-Score. Die SSPE-Methode integriert die Phon-Verwechslungswahrscheinlichkeit in die Bewertung der Ähnlichkeiten zwischen dem entdeckten Segment und der Suchanfrage. Die experimentellen Ergebnisse haben gezeigt, dass die INED-Methode bessere Retrieval-Leistung anbietet. Die beste max.RE wird von der INED-Methode erreicht. Die INED-Methode erzielt ähnliche
mAP wie Phon-3gram basierter Proximity-Ansatz.
Vorherige Forschungsergebnisse haben gezeigt, dass die Wort-basierte SDR-Ansätze hohe mAP bei den in-Vokabular Suchanfragen erzielen können und Phon-basierte SDR-Ansätze ihre Vorteile im Umgang mit OOV-Suchanfragen haben. Basiert auf diese Forschungsergebnisse und die von Lee vorgestellte Information-Fusion Strategie, wird ein neuer Hybrid-Ansatz für den gesprochenen Dokumentenabruf entwickelt. Dieser Ansatz wirkt deutlich robuster im Fall von Erkennungsfehlern und vorkommenden OOV-Suchanfragen. Der neue gesprochene Dokumentabruf-Ansatz basiert auf einer mehrstufigen Transkription der gesprochenen Dokumente. Die mehrstufige Transkription
beinhaltet Word-Confusion-Network und die Monophon-Darstellung eines gesprochenen
Dokuments. Die experimentellen Ergebnisse zeigen, dass dieser Ansatz eine Mean-
Average-Precision von 56,74% erreicht. Im Vergleich zu den SDR-Ansätzen, die nur
auf Word-Confusion-Network basieren, erhöht sich die Mean-Average-Precision-Rate
um 8,27%. Die maximale Retrieval-Rate dieses Ansatzes erreicht bis zu 91,08%.
Als Letztes stellen wir ein Prototyp für das Video-Retrieval-System vor. Wir beschreiben
die Hauptelemente von geeigneten Benutzerschnittstellen. Die Funktionsblöcke für die Auswahl von den verschiedenen Retrieval- und Fusionmodulen ermöglicht Benutzer den Systemkern zu konfigurieren. Jetzt befasst dieser Prototyp sich nur mit normalen Abfragen in Textform.
The amount of available spoken information is growing very fast. Consequently, there
is an increasing need for effective and efficient approaches for the indexing and retrieval
of spoken information.
Classical spoken document retrieval systems are often based on the word transcription
provided by an automatic speech recognition system. A large vocabulary word
recognizer will be used to transcribe spoken documents. If there are only few errors
contained in the recognition transcription of spoken documents, this kind of spoken
document retrieval approaches could achieve comparable performance to text-based
information retrieval. However, the mismatch between training and application conditions
will lead to a high rate of recognition errors. At the same time, the size of the
vocabulary will grow with the size of data collection. The growing number of unforeseeable
words that are not appearing in the recognizable vocabulary (out-of-vocabulary
words) have become the main problem that word-based spoken document retrieval
system has to deal with. This thesis focuses on the exploration of spoken document
retrieval approaches dealing with misrecognition and the problems caused by out-ofvocabulary
words.
We have collected our test data from the Wall Street Journal Corpus. It includes
records made under variation in acoustic environment (background music or talking
radio), records made from different channels, and records from different speakers. A
20k word recognizer has been built for transcribing speech into representations. This
recognizer can achieve a word-error rate of 25% on our text collection. In this work,
we will only consider the case of single-word queries. About 13% of queries are out-ofvocabulary
words. Traditional word-based spoken document retrieval system is built
as baseline system. It reaches a mean average value of 61% and a maximal recall rate
of 78% on our test collection.
We first explore different word-based spoken document retrieval approaches dealing
with misrecognition errors. Experiments with in-vocabulary queries show that enriching
recognition transcription with multiple hypotheses is an effective way to compensate
misrecognition errors. The maximal recall rate of 95% is yielded by a spoken document
retrieval approach based on the word confusion network. The best mean average
precision value of 86% is achieved when performing spoken document retrieval on the
recognition transcription, including nine best hypotheses.
The experimental results also show that replacing an out-of-vocabulary word with
an acoustically similar entry in the recognition vocabulary enables word-based spoken
document retrieval systems to deal with out-of-vocabulary words, but with restricted
performance. We then study another way to solve the out-of-vocabulary problem using
subwords as indexing units. We investigate different indexing units and their ability
to index and retrieve text information. The experimental results confirm that indexing
spoken document with subword units could achieve acceptable retrieval performance.
Nevertheless, we have to make a choice between information coverage and precision.
Maximal information coverage could be achieved using phones as indexing units. Different
spoken-document retrieval approaches based on phonetic recognition transcriptions
are empirically explored in this work.We successfully integrate position information
into term weight for phone 3-gram based spoken-document retrieval approaches. This
weighting method shows its advantages in dealing with both in-vocabulary and outof-
vocabulary queries. The best performance for out-of-vocabulary queries retrieval is
yielded by doing probabilistic string matching on mono-phonetic recognition transcription
of spoken documents in the collection.
We propose a new hybrid approach to spoken document retrieval. This method
achieves more robust retrieval by combining spoken document retrieval approaches
based on the word confusion network and the monophone recognition transcription.
The experimental results show that a mean average precision of 56.47% is reached. In
comparison with the word confusion network, the mean average precision is improved
by about 8.27%. The maximal retrieval recall with the novel hybrid SDR system reaches
91.08%. We also present a prototype with user interface for video retrieval by speech
analysis. This prototype deals with queries in normal text form.