Adaptive and Proactive Voice Assistants for Secondary Tasks
Loading...
Date
2023-11-17
Authors
Schmidt, Maria
Journal Title
Journal ISSN
Volume Title
Publication Type
Dissertation
Published in
Abstract
This doctoral thesis investigates novel concepts and approaches for suitable adaptive
as well as proactive dialog management characteristics by means of different kinds of
experiments, including machine learning. Furthermore, these characteristics are integrated
into the dialog management and dialog initiation architecture of a voice assistant.
The aim is to model and initiate proactive dialogs adaptive to the user’s cognitive
load and the current situation.
Current voice assistants being commercially or non-commercially available, first and
foremost focus on the design and implementation of the voice interaction as a primary
task. But most of the time, voice assistants are employed as a secondary task, while
the user is busy accomplishing the primary task, e. g., driving a vehicle. Therefore, dynamic
properties influenced by the primary task, such as the current (traffic) situation
or the user’s cognitive load, have to be accounted for when designing and implementing
a voice assistant. Simultaneously, the voice assistant would be able to act more
appropriately when knowing the current circumstances the user is situated in. Especially,
for proactive voice interaction this information is essential. Consequently, the
goal of this thesis work is to model these properties by addressing the following problems:
1) identifying suitable adaptive realization forms and selecting proactive use
cases for secondary task interaction, and 2) analyzing and classifying cognitive load
as well as subsequently integrating all results into a proactive dialog management
implementation of a secondary task scenario.
Prior to approaching these problems, the necessary background for understanding
the content of this work is described by means of providing relevant information on
spoken dialog systems, voice assistants, cognitive load, and machine learning. Following
this background description, we explain research works aiming at solving similar
research questions and show clearly how our work distinguishes from theirs.
For the first problem of identifying suitable adaptive realization forms and proactive
use cases, we focus on user experiments considering the following aspects:
Initially, we conduct a large, exploratory online survey of adaptive realization forms
with both German and US drivers participating. In order to gain a more precise target
picture, we conduct fine-grained experiments studying the secondary task aspect,
i. e., primary driving task represented in an interview study and an driving simulator
study. We propose a novel proactive use case selection process, which is established
and refined through the interview and driving simulator study results we collect and
analyze.
For the second problem of modeling cognitive load and integrating the given results
into a proactive dialog management implementation of a secondary task scenario, we
propose several new approaches. To the best of our knowledge, we are the first ones
to combine proactive interaction with cognitive load investigations: First, we investigate
and evaluate which factors suit the need of automatically triggering proactive
interaction. While physiological signals (e. g., heart rate, electrodermal activity) are
easily collectible, but do not show significant correlations to cognitive load, we focus
on driving data in the remainder of our experiments. Second and according to the
latter, we classify the user’s cognitive load levels by means of driving data collected
during secondary task dialogs with a voice assistant. Our machine learning pipeline
includes the resulting models built primarily by supervised techniques. While many
of our models perform significantly well, we achieve best results with the Support
Vector Machine, and are able to classify the user’s cognitive load with an accuracy of
over 95 %. Third, we design and implement a system architecture complementing the
existing MVAP speech backend implementation including the respective speech technology
components, such as Automatic Speech Recognition (ASR), Natural Language
Understanding (NLU) or Text-to-Speech Synthesis (TTS). That is, we extend the architecture
by adding a Proactivity Manager employing Notification Services via HTTPS
once a Proactivity Trigger is sent. Furthermore, we add a logic to process these triggers
– in addition to other helper components. Finally, we include an evaluation concept for
future real-drive scenario experiments.
Die vorliegende Doktorarbeit erforscht neuartige Konzepte und Ansätze für geeignete adaptive sowie proaktive Dialogmanagement-Charakteristika mittels unterschiedlicher Arten von Experimenten, einschließlich Maschinellem Lernen. Des Weiteren werden diese Charakteristika in die Architektur des Dialogmanagements sowie der Dialoginitialisierung eines Sprachassistenten integriert. Das Ziel dieser Thesis besteht darin, proaktive Dialoge so zu modellieren und zu initialisieren, dass sie sich adaptiv zur kognitiven Belastung des Nutzers und zur aktuellen Situation verhalten. Die Sprachassistenten, die zum jetzigen Zeitpunkt in kommerzieller oder nicht kommerzieller Form erhältlich sind, fokussieren sich zuallererst auf das Design und die Implementierung der Sprachinteraktion als Primäraufgabe. Jedoch werden Sprachassistenten in den meisten Fällen als Sekundäraufgabe verwendet, während der Nutzer damit beschäftigt ist, die Primäraufgabe auszuführen, z. B. ein Fahrzeug zu fahren. Deshalb müssen dynamische Eigenschaften während des Designs und der Implementierung eines Sprachassistenten berücksichtigt werden, die durch die Primäraufgabe beeinflusst werden, wie etwa durch die aktuelle (Verkehrs-) Situation oder die kognitive Belastung des Nutzers. Gleichzeitig wäre der Sprachassistent dadurch in der Lage, angemessener auf die Umstände einzugehen, in denen sich der Nutzer befindet, und sich entsprechend zu verhalten. Insbesondere für proaktive Sprachinteraktion sind diese Informationen essentiell. Folglich besteht das Ziel dieser Dissertation darin, diese Eigenschaften zu modellieren, indem die folgenden Herausforderungen adressiert werden: 1) Identifikation geeigneter adaptiver Realisierungsformen und Selektion proaktiver Usecases für Sprachinteraktion als Sekundäraufgabe und 2) Analyse und Klassifikation kognitiver Belastung sowie anschließender Integration aller Resultate in die Implementierung eines proaktiven Dialogmanagements für ein Sekundäraufgaben- Szenario. Bevor diese Herausforderungen behandelt werden, wird der nötige Hintergrund beschrieben um diese Arbeit zu verstehen, indem relevante Informationen zu Sprachdialogsystemen, Sprachassistenten, kognitiver Belastung und Maschinellem Lernen dargelegt werden. Auf diese Hintergrund-Beschreibung folgend werden wir Forschungsarbeiten erläutern, welche sich damit beschäftigen ähnliche Forschungsfragen zu lösen, und klar darstellen, auf welche Weise sich unsere Arbeit von jenen anderen unterscheidet. Hinsichtlich der ersten Herausforderung, passende adaptive Realisierungsformen und proaktive Usecases zu identifizieren, fokussieren wir uns auf Nutzerexperimente, die die folgenden Aspekte berücksichtigen: Zuerst führen wir eine umfangreiche, explorative Onlineumfrage zu adaptiven Realisierungsformen mit sowohl deutschen als auch amerikanischen Fahrern als Studienteilnehmern durch. Um ein präziseres Zielbild zu erreichen, führen wir detaillierte Experimente durch, in denen der Aspekt der Sekundäraufgabe betrachtet wird, d. h. die Primäraufgabe wird in einer Interviewstudie und einer Fahrsimulatorstudie jeweils durch die Fahraufgabe repräsentiert. Wir stellen einen neuartigen Prozess zur Selektion von proaktiven Usecases vor, welcher in der Interview- und Fahrsimulatorstudie etabliert sowie durch die gesammelten und analysierten Studienresultate verfeinert wird. Bezüglich der zweiten Herausforderung, kognitive Belastung zu analysieren, zu klassifizieren und die erhaltenen Resultate in eine Implementierung eines proaktiven Dialogmanagements für ein Sekundäraufgaben-Szenario zu integrieren, schlagen wir mehrere neue Ansätze vor. Nach bestem Wissen, ist unser Ansatz der erste, welcher proaktive Sprachinteraktion mit Forschungen zu kognitiver Belastung im Detail kombiniert: Zuerst erforschen und evaluieren wir, welche Faktoren die Notwendigkeit erfüllen, proaktive Interaktion automatisch auszulösen zu können. Dadurch, dass physiologische Signale (z. B. Herzfrequenz, elektrodermale Aktivität) zwar einfach zu sammeln sind, jedoch keine signifikanten Korrelationen zu kognitiver Belastung zeigen, fokussieren wir uns auf Fahrdaten im übrigen Teil unserer Experimente. Zweitens und gemäß des letztgenannten Aspektes, klassifizieren wir die ausgeprägte Stufe der kognitiven Belastung des Nutzers mittels Fahrdaten, welche während der Dialoge mit einem Sprachassistenten als Sekundäraufgabe gesammelt wurden. Unsere Pipeline maschineller Lernverfahren beinhaltet die resultierenden Modelle, die primär durch überwachtes Lernen gebaut wurden. Während mehrere unserer Modelle signifikant gute Leistung erbringen, erreichen wir die besten Ergebnisse mit der Support Vector Machine, und sind somit in der Lage, die kognitive Belastung des Nutzers mit einer Akkuratheit von über 95% zu klassifizieren. Drittens designen und implementieren wir eine Systemarchitektur, welche die bestehende MVAP speech backend Implementierung, inklusive der entsprechenden Sprachtechnologie-Komponenten wie Spracherkennung (ASR), Sprachverstehen (NLU) oder Sprachsynthese (TTS), komplementiert. Das heißt, wir erweitern die Architektur, indem wir einen Proaktivitätsmanager hinzufügen, welcher Notification Dienste via HTTPS verwendet, sobald ein Proaktivitätstrigger geschickt wird. Des Weiteren fügen wir eine Logik hinzu, um diese Trigger zu verarbeiten – in Ergänzung zu anderen Helfer-Komponenten. Abschließend integrieren wir ein Evaluationskonzept für künftige Experimente mit realen Fahrszenarien.
Die vorliegende Doktorarbeit erforscht neuartige Konzepte und Ansätze für geeignete adaptive sowie proaktive Dialogmanagement-Charakteristika mittels unterschiedlicher Arten von Experimenten, einschließlich Maschinellem Lernen. Des Weiteren werden diese Charakteristika in die Architektur des Dialogmanagements sowie der Dialoginitialisierung eines Sprachassistenten integriert. Das Ziel dieser Thesis besteht darin, proaktive Dialoge so zu modellieren und zu initialisieren, dass sie sich adaptiv zur kognitiven Belastung des Nutzers und zur aktuellen Situation verhalten. Die Sprachassistenten, die zum jetzigen Zeitpunkt in kommerzieller oder nicht kommerzieller Form erhältlich sind, fokussieren sich zuallererst auf das Design und die Implementierung der Sprachinteraktion als Primäraufgabe. Jedoch werden Sprachassistenten in den meisten Fällen als Sekundäraufgabe verwendet, während der Nutzer damit beschäftigt ist, die Primäraufgabe auszuführen, z. B. ein Fahrzeug zu fahren. Deshalb müssen dynamische Eigenschaften während des Designs und der Implementierung eines Sprachassistenten berücksichtigt werden, die durch die Primäraufgabe beeinflusst werden, wie etwa durch die aktuelle (Verkehrs-) Situation oder die kognitive Belastung des Nutzers. Gleichzeitig wäre der Sprachassistent dadurch in der Lage, angemessener auf die Umstände einzugehen, in denen sich der Nutzer befindet, und sich entsprechend zu verhalten. Insbesondere für proaktive Sprachinteraktion sind diese Informationen essentiell. Folglich besteht das Ziel dieser Dissertation darin, diese Eigenschaften zu modellieren, indem die folgenden Herausforderungen adressiert werden: 1) Identifikation geeigneter adaptiver Realisierungsformen und Selektion proaktiver Usecases für Sprachinteraktion als Sekundäraufgabe und 2) Analyse und Klassifikation kognitiver Belastung sowie anschließender Integration aller Resultate in die Implementierung eines proaktiven Dialogmanagements für ein Sekundäraufgaben- Szenario. Bevor diese Herausforderungen behandelt werden, wird der nötige Hintergrund beschrieben um diese Arbeit zu verstehen, indem relevante Informationen zu Sprachdialogsystemen, Sprachassistenten, kognitiver Belastung und Maschinellem Lernen dargelegt werden. Auf diese Hintergrund-Beschreibung folgend werden wir Forschungsarbeiten erläutern, welche sich damit beschäftigen ähnliche Forschungsfragen zu lösen, und klar darstellen, auf welche Weise sich unsere Arbeit von jenen anderen unterscheidet. Hinsichtlich der ersten Herausforderung, passende adaptive Realisierungsformen und proaktive Usecases zu identifizieren, fokussieren wir uns auf Nutzerexperimente, die die folgenden Aspekte berücksichtigen: Zuerst führen wir eine umfangreiche, explorative Onlineumfrage zu adaptiven Realisierungsformen mit sowohl deutschen als auch amerikanischen Fahrern als Studienteilnehmern durch. Um ein präziseres Zielbild zu erreichen, führen wir detaillierte Experimente durch, in denen der Aspekt der Sekundäraufgabe betrachtet wird, d. h. die Primäraufgabe wird in einer Interviewstudie und einer Fahrsimulatorstudie jeweils durch die Fahraufgabe repräsentiert. Wir stellen einen neuartigen Prozess zur Selektion von proaktiven Usecases vor, welcher in der Interview- und Fahrsimulatorstudie etabliert sowie durch die gesammelten und analysierten Studienresultate verfeinert wird. Bezüglich der zweiten Herausforderung, kognitive Belastung zu analysieren, zu klassifizieren und die erhaltenen Resultate in eine Implementierung eines proaktiven Dialogmanagements für ein Sekundäraufgaben-Szenario zu integrieren, schlagen wir mehrere neue Ansätze vor. Nach bestem Wissen, ist unser Ansatz der erste, welcher proaktive Sprachinteraktion mit Forschungen zu kognitiver Belastung im Detail kombiniert: Zuerst erforschen und evaluieren wir, welche Faktoren die Notwendigkeit erfüllen, proaktive Interaktion automatisch auszulösen zu können. Dadurch, dass physiologische Signale (z. B. Herzfrequenz, elektrodermale Aktivität) zwar einfach zu sammeln sind, jedoch keine signifikanten Korrelationen zu kognitiver Belastung zeigen, fokussieren wir uns auf Fahrdaten im übrigen Teil unserer Experimente. Zweitens und gemäß des letztgenannten Aspektes, klassifizieren wir die ausgeprägte Stufe der kognitiven Belastung des Nutzers mittels Fahrdaten, welche während der Dialoge mit einem Sprachassistenten als Sekundäraufgabe gesammelt wurden. Unsere Pipeline maschineller Lernverfahren beinhaltet die resultierenden Modelle, die primär durch überwachtes Lernen gebaut wurden. Während mehrere unserer Modelle signifikant gute Leistung erbringen, erreichen wir die besten Ergebnisse mit der Support Vector Machine, und sind somit in der Lage, die kognitive Belastung des Nutzers mit einer Akkuratheit von über 95% zu klassifizieren. Drittens designen und implementieren wir eine Systemarchitektur, welche die bestehende MVAP speech backend Implementierung, inklusive der entsprechenden Sprachtechnologie-Komponenten wie Spracherkennung (ASR), Sprachverstehen (NLU) oder Sprachsynthese (TTS), komplementiert. Das heißt, wir erweitern die Architektur, indem wir einen Proaktivitätsmanager hinzufügen, welcher Notification Dienste via HTTPS verwendet, sobald ein Proaktivitätstrigger geschickt wird. Des Weiteren fügen wir eine Logik hinzu, um diese Trigger zu verarbeiten – in Ergänzung zu anderen Helfer-Komponenten. Abschließend integrieren wir ein Evaluationskonzept für künftige Experimente mit realen Fahrszenarien.
Description
Faculties
Fakultät für Ingenieurwissenschaften, Informatik und Psychologie
Institutions
Institut für Nachrichtentechnik
Citation
DFG Project uulm
EU Project THU
Other projects THU
License
CC BY 4.0 International
Is version of
Has version
Supplement to
Supplemented by
Has erratum
Erratum to
Has Part
Part of
DOI external
DOI external
Institutions
Periodical
Degree Program
DFG Project THU
item.page.thu.projectEU
item.page.thu.projectOther
Series
Keywords
Adaptivität, Proaktivität, Sprachassistenten, Sekundäraufgaben, kognitive Belastung, Voice Assistants, Adaptivity, Proactivity, Digitaler Sprachassistent, Dialogsystem, Machine learning, DDC 000 / Computer science, information & general works, DDC 620 / Engineering & allied operations