Adaptive and Proactive Voice Assistants for Secondary Tasks

Schmidt, Maria

Adaptive and Proactive Voice Assistants for Secondary Tasks

Files

Thesis_MariaSchmidt.pdf (16.78 MB)

Date

2023-11-17

Authors

Schmidt, Maria

Publication Type

Dissertation

DOI

http://dx.doi.org/10.18725/OPARU-51238

Abstract

This doctoral thesis investigates novel concepts and approaches for suitable adaptive as well as proactive dialog management characteristics by means of different kinds of experiments, including machine learning. Furthermore, these characteristics are integrated into the dialog management and dialog initiation architecture of a voice assistant. The aim is to model and initiate proactive dialogs adaptive to the user’s cognitive load and the current situation. Current voice assistants being commercially or non-commercially available, first and foremost focus on the design and implementation of the voice interaction as a primary task. But most of the time, voice assistants are employed as a secondary task, while the user is busy accomplishing the primary task, e. g., driving a vehicle. Therefore, dynamic properties influenced by the primary task, such as the current (traffic) situation or the user’s cognitive load, have to be accounted for when designing and implementing a voice assistant. Simultaneously, the voice assistant would be able to act more appropriately when knowing the current circumstances the user is situated in. Especially, for proactive voice interaction this information is essential. Consequently, the goal of this thesis work is to model these properties by addressing the following problems: 1) identifying suitable adaptive realization forms and selecting proactive use cases for secondary task interaction, and 2) analyzing and classifying cognitive load as well as subsequently integrating all results into a proactive dialog management implementation of a secondary task scenario. Prior to approaching these problems, the necessary background for understanding the content of this work is described by means of providing relevant information on spoken dialog systems, voice assistants, cognitive load, and machine learning. Following this background description, we explain research works aiming at solving similar research questions and show clearly how our work distinguishes from theirs. For the first problem of identifying suitable adaptive realization forms and proactive use cases, we focus on user experiments considering the following aspects: Initially, we conduct a large, exploratory online survey of adaptive realization forms with both German and US drivers participating. In order to gain a more precise target picture, we conduct fine-grained experiments studying the secondary task aspect, i. e., primary driving task represented in an interview study and an driving simulator study. We propose a novel proactive use case selection process, which is established and refined through the interview and driving simulator study results we collect and analyze. For the second problem of modeling cognitive load and integrating the given results into a proactive dialog management implementation of a secondary task scenario, we propose several new approaches. To the best of our knowledge, we are the first ones to combine proactive interaction with cognitive load investigations: First, we investigate and evaluate which factors suit the need of automatically triggering proactive interaction. While physiological signals (e. g., heart rate, electrodermal activity) are easily collectible, but do not show significant correlations to cognitive load, we focus on driving data in the remainder of our experiments. Second and according to the latter, we classify the user’s cognitive load levels by means of driving data collected during secondary task dialogs with a voice assistant. Our machine learning pipeline includes the resulting models built primarily by supervised techniques. While many of our models perform significantly well, we achieve best results with the Support Vector Machine, and are able to classify the user’s cognitive load with an accuracy of over 95 %. Third, we design and implement a system architecture complementing the existing MVAP speech backend implementation including the respective speech technology components, such as Automatic Speech Recognition (ASR), Natural Language Understanding (NLU) or Text-to-Speech Synthesis (TTS). That is, we extend the architecture by adding a Proactivity Manager employing Notification Services via HTTPS once a Proactivity Trigger is sent. Furthermore, we add a logic to process these triggers – in addition to other helper components. Finally, we include an evaluation concept for future real-drive scenario experiments.
Die vorliegende Doktorarbeit erforscht neuartige Konzepte und Ansätze für geeignete adaptive sowie proaktive Dialogmanagement-Charakteristika mittels unterschiedlicher Arten von Experimenten, einschließlich Maschinellem Lernen. Des Weiteren werden diese Charakteristika in die Architektur des Dialogmanagements sowie der Dialoginitialisierung eines Sprachassistenten integriert. Das Ziel dieser Thesis besteht darin, proaktive Dialoge so zu modellieren und zu initialisieren, dass sie sich adaptiv zur kognitiven Belastung des Nutzers und zur aktuellen Situation verhalten. Die Sprachassistenten, die zum jetzigen Zeitpunkt in kommerzieller oder nicht kommerzieller Form erhältlich sind, fokussieren sich zuallererst auf das Design und die Implementierung der Sprachinteraktion als Primäraufgabe. Jedoch werden Sprachassistenten in den meisten Fällen als Sekundäraufgabe verwendet, während der Nutzer damit beschäftigt ist, die Primäraufgabe auszuführen, z. B. ein Fahrzeug zu fahren. Deshalb müssen dynamische Eigenschaften während des Designs und der Implementierung eines Sprachassistenten berücksichtigt werden, die durch die Primäraufgabe beeinflusst werden, wie etwa durch die aktuelle (Verkehrs-) Situation oder die kognitive Belastung des Nutzers. Gleichzeitig wäre der Sprachassistent dadurch in der Lage, angemessener auf die Umstände einzugehen, in denen sich der Nutzer befindet, und sich entsprechend zu verhalten. Insbesondere für proaktive Sprachinteraktion sind diese Informationen essentiell. Folglich besteht das Ziel dieser Dissertation darin, diese Eigenschaften zu modellieren, indem die folgenden Herausforderungen adressiert werden: 1) Identifikation geeigneter adaptiver Realisierungsformen und Selektion proaktiver Usecases für Sprachinteraktion als Sekundäraufgabe und 2) Analyse und Klassifikation kognitiver Belastung sowie anschließender Integration aller Resultate in die Implementierung eines proaktiven Dialogmanagements für ein Sekundäraufgaben- Szenario. Bevor diese Herausforderungen behandelt werden, wird der nötige Hintergrund beschrieben um diese Arbeit zu verstehen, indem relevante Informationen zu Sprachdialogsystemen, Sprachassistenten, kognitiver Belastung und Maschinellem Lernen dargelegt werden. Auf diese Hintergrund-Beschreibung folgend werden wir Forschungsarbeiten erläutern, welche sich damit beschäftigen ähnliche Forschungsfragen zu lösen, und klar darstellen, auf welche Weise sich unsere Arbeit von jenen anderen unterscheidet. Hinsichtlich der ersten Herausforderung, passende adaptive Realisierungsformen und proaktive Usecases zu identifizieren, fokussieren wir uns auf Nutzerexperimente, die die folgenden Aspekte berücksichtigen: Zuerst führen wir eine umfangreiche, explorative Onlineumfrage zu adaptiven Realisierungsformen mit sowohl deutschen als auch amerikanischen Fahrern als Studienteilnehmern durch. Um ein präziseres Zielbild zu erreichen, führen wir detaillierte Experimente durch, in denen der Aspekt der Sekundäraufgabe betrachtet wird, d. h. die Primäraufgabe wird in einer Interviewstudie und einer Fahrsimulatorstudie jeweils durch die Fahraufgabe repräsentiert. Wir stellen einen neuartigen Prozess zur Selektion von proaktiven Usecases vor, welcher in der Interview- und Fahrsimulatorstudie etabliert sowie durch die gesammelten und analysierten Studienresultate verfeinert wird. Bezüglich der zweiten Herausforderung, kognitive Belastung zu analysieren, zu klassifizieren und die erhaltenen Resultate in eine Implementierung eines proaktiven Dialogmanagements für ein Sekundäraufgaben-Szenario zu integrieren, schlagen wir mehrere neue Ansätze vor. Nach bestem Wissen, ist unser Ansatz der erste, welcher proaktive Sprachinteraktion mit Forschungen zu kognitiver Belastung im Detail kombiniert: Zuerst erforschen und evaluieren wir, welche Faktoren die Notwendigkeit erfüllen, proaktive Interaktion automatisch auszulösen zu können. Dadurch, dass physiologische Signale (z. B. Herzfrequenz, elektrodermale Aktivität) zwar einfach zu sammeln sind, jedoch keine signifikanten Korrelationen zu kognitiver Belastung zeigen, fokussieren wir uns auf Fahrdaten im übrigen Teil unserer Experimente. Zweitens und gemäß des letztgenannten Aspektes, klassifizieren wir die ausgeprägte Stufe der kognitiven Belastung des Nutzers mittels Fahrdaten, welche während der Dialoge mit einem Sprachassistenten als Sekundäraufgabe gesammelt wurden. Unsere Pipeline maschineller Lernverfahren beinhaltet die resultierenden Modelle, die primär durch überwachtes Lernen gebaut wurden. Während mehrere unserer Modelle signifikant gute Leistung erbringen, erreichen wir die besten Ergebnisse mit der Support Vector Machine, und sind somit in der Lage, die kognitive Belastung des Nutzers mit einer Akkuratheit von über 95% zu klassifizieren. Drittens designen und implementieren wir eine Systemarchitektur, welche die bestehende MVAP speech backend Implementierung, inklusive der entsprechenden Sprachtechnologie-Komponenten wie Spracherkennung (ASR), Sprachverstehen (NLU) oder Sprachsynthese (TTS), komplementiert. Das heißt, wir erweitern die Architektur, indem wir einen Proaktivitätsmanager hinzufügen, welcher Notification Dienste via HTTPS verwendet, sobald ein Proaktivitätstrigger geschickt wird. Des Weiteren fügen wir eine Logik hinzu, um diese Trigger zu verarbeiten – in Ergänzung zu anderen Helfer-Komponenten. Abschließend integrieren wir ein Evaluationskonzept für künftige Experimente mit realen Fahrszenarien.

Faculties

Fakultät für Ingenieurwissenschaften, Informatik und Psychologie

Institutions

Institut für Nachrichtentechnik

License

CC BY 4.0 International

https://creativecommons.org/licenses/by/4.0/

Keywords

Adaptivität, Proaktivität, Sprachassistenten, Sekundäraufgaben, kognitive Belastung, Voice Assistants, Adaptivity, Proactivity, Digitaler Sprachassistent, Dialogsystem, Machine learning, DDC 000 / Computer science, information & general works, DDC 620 / Engineering & allied operations

Full item page

Adaptive and Proactive Voice Assistants for Secondary Tasks

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publication Type

DOI

Published in

Abstract

Description

Faculties

Institutions

Citation

DFG Project uulm

EU Project THU

Other projects THU

License

Is version of

Has version

Supplement to

Supplemented by

Has erratum

Erratum to

Has Part

Part of

DOI external

DOI external

Institutions

Periodical

Degree Program

DFG Project THU

item.page.thu.projectEU

item.page.thu.projectOther

Series

Keywords