Skip to main content

Advertisement

Log in

Multilingual speech control for ROS-driven robots

Multilinguale Sprachsteuerung für ROS-gesteuerte Roboter

  • Originalarbeit
  • Published:
e & i Elektrotechnik und Informationstechnik Aims and scope Submit manuscript

Abstract

To improve the collaboration between humans and robots, multilingual speech control (MLS) can be used to easily manage multiple robots at any time by spoken commands. Once a command is recognised by one of the corresponding ROS-driven robots inside the network, it will be executed and a related audio feedback is provided to the user. Our MLS implementation has a modular design, so that single functional modules can be implemented by either online cloud-based services or by local offline software for increased privacy. Furthermore, the extensible design allows to meet future user needs or to be adapted to different robot capabilities. The MLS follows a principal workflow: Initially, a language identification analysis is done, followed by speech-to-text transformation. Afterwards, the intent is detected and possible variables are analysed for the interpretation of the command, which is furthermore sent to the corresponding robot. Finally, the robot will publish the state achieved by the command execution back to the user. We integrated several cloud-services and open-source implementations based on artificial intelligence technologies and achieved a software framework that is used in a scenario with two different robot systems, a collaborative robot arm and an autonomously moving robot car.

Zusammenfassung

Sprachsteuerung mit automatischer Sprachenerkennung (Multilingual Speech Control – MLS) ist ein wesentliches Element zur natürlichen Zusammenarbeit zwischen Mensch und Robotern. Wird der jeweilige Roboter direkt mit Namen angesprochen, kann die Steuerung auf mehrere Geräte verteilt werden. Davor wird der Benutzer/die Benutzerin durch akustische Rückmeldung über Erfolg oder Misserfolg der Ausführung benachrichtigt. In diesem Paper beschreiben wir eine modular aufgebaute MLS-Implementierung. Die einzelnen Funktionsmodule können dabei entweder über Online-Dienste eingebunden werden, oder – für erhöhten Datenschutz – offline mit lokalen Ressourcen ausgeführt werden. Die Systemarchitektur wurde erweiterbar gestaltet, um zukünftigen Anforderungen, z.B. neuen Roboterfähigkeiten, gerecht zu werden. Die MLS folgt dabei grundsätzlich immer demselben Ablauf: Nach der Identifikation der verwendeten Sprache erfolgt zuerst die Transformation in geschriebenen Text (Speech-to-Text). Aus diesem Text wird nun versucht, den Zielroboter und die Absicht des Befehls zu erkennen. Außerdem werden etwaige variable Parameter extrahiert, interpretiert und dem Befehl übergeben. Erreicht der Befehl den Zielroboter, gibt dieser seinen erreichten Zustand durch die Sprachausgabe an den Benutzer zurück. Die Beispielimplementierung wurde mit Technologien der künstlichen Intelligenz umgesetzt und in einem Szenario mit einem kollaborativen Roboterarm einerseits und einem sich autonom bewegenden Roboterfahrzeug andererseits erfolgreich getestet. Das entstandene Software-Framework integriert dabei sowohl Cloud-Dienste als auch bestehende Open-Source-Implementierungen.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Fig. 1.
Fig. 2.
Fig. 3.
Fig. 4.
Fig. 5.
Listing 1.

Similar content being viewed by others

Notes

  1. http://wiki.ros.org [Accessed 2019 August 11].

  2. https://www.franka.de [Accessed 2019 August 11].

  3. https://clearpathrobotics.com/husky-unmanned-ground-vehicle-robot/ [Accessed 2019 August 11].

  4. https://www.amazon.com/echo [Accessed 2019 August 11].

  5. https://home.google.com [Accessed 2019 August 11].

  6. http://www.voxforge.org [Accessed 2019 August 11].

  7. https://www.youtube.com [Accessed 2019 August 11].

  8. https://www.tensorflow.org [Accessed 2019 August 11].

  9. https://pypi.org/project/SpeechRecognition/ [Accessed 2019 August 11].

  10. https://cmusphinx.github.io [Accessed 2019 August 11].

  11. https://cloud.google.com/speech-to-text/ [Accessed 2019 August 11].

References

  1. Gundogdu, K., Bayrakdar, S., Yucedag, I. (2018): Developing and modeling of voice control system for prosthetic robot arm in medical systems. J. King Saud Univ, Comput. Inf. Sci., 30, 198–205.

    Google Scholar 

  2. Chen, Y.-H., Song, K.-T. (2017): Voice control design of a mobile robot using shared-control approach. In IEEE international conference on systems, man, and cybernetics (SMC), Banff, Canada.

    Google Scholar 

  3. Zhang, Y., Lu, Z., Wang, C., Liu, C., Wang, Y. (2018): Voice control dual arm robot based on ROS system. In IEEE international conference on intelligence and safety for robotics, Shenyang, China.

    Google Scholar 

  4. Interaction Design (2018): How to design voice user interfaces. Interaction. Design, [Online]. Available: https://www.interaction-design.org/literature/article/how-to-design-voice-user-interfaces. Accessed 21 Dezember.

  5. Open Source Robotics Foundation, ROS (2019): [Online]. Available: http://wiki.ros.org. Accessed 2019 Juli 9.

  6. GmbH, F. E. (2017): Franka control interface (FCI). [Online]. Available: https://frankaemika.github.io/docs/index.html. Accessed 2019 Juli 9.

    Google Scholar 

  7. Herold, T., Werkmeister, T. (2016): Practical applications of multimedia retrieval. 7 April 2016, [Online]. Available: https://github.com/twerkmeister/iLID/raw/2d74aae9e5863ca4640bae986830832d4ff80858/Deep. Accessed 2019 March 9.

  8. Jurafsky, D., Martin, J. H. (2009): Speech and language processing, upper saddle river. New Jersey: Pearson Education, Inc. Available: https://web.stanford.edu/~jurafsky/slp3/. Accessed 2019 Juli 7.

    Google Scholar 

  9. Sourceforge.net, CMU Sphinx (2019). [Online]. Available: https://sourceforge.net/projects/cmusphinx/. Accessed 2019 Juli 7.

  10. CMU Sphinx, Open source speech recognition toolkit. 7 Juni 2017. [Online]. Available: https://cmusphinx.github.io. Accessed 2019 March 9.

  11. eSpeak (1995): eSpeak text to speech. [Online]. Available: http://espeak.sourceforge.net. Accessed 2019 March 9.

  12. DeepL (2019): DeepL translator API documentation. [Online]. Available: https://www.deepl.com/docs-api.html. Accessed 2019 July 9.

Download references

Acknowledgements

We would like to thank our project partners from the Digital Transfer Centre Salzburg (“DTZ” https://www.dtz-salzburg.at). DTZ is a collaboration by Fachhochschule Salzburg and Salzburg Research, funded by the regional government of Salzburg under the WISS2025 Knowledge Initiative.

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Dominik P. Hofer.

Additional information

Publisher’s Note

Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.

Rights and permissions

Reprints and permissions

About this article

Check for updates. Verify currency and authenticity via CrossMark

Cite this article

Hofer, D.P., Strohmeier, F. Multilingual speech control for ROS-driven robots. Elektrotech. Inftech. 136, 334–340 (2019). https://doi.org/10.1007/s00502-019-00739-y

Download citation

  • Received:

  • Accepted:

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/s00502-019-00739-y

Keywords

Schlüsselwörter

Navigation