Smart Homes: Strategien zur Fehlerkorrektur bei der Sprachsteuerung

von Gastautorin/Gastautor
25. September 2013
Smart Homes: Strategien zur Fehlerkorrektur bei der Sprachsteuerung

Ein Gastbeitrag von Dr. Dirk Schnelle-Walka und Arvid Lange

Das intelligente Haus

Das sogenannte intelligente Haus ist weiter entwickelt, als wohl mehrheitlich vermutet wird. Von den Einen als Spielerei abgetan, ebnet es für die Anderen den Weg zu mehr Wohn- und Lebensqualität, z.B. wenn sich die Rollläden über ein einfaches Sprachkommando öffnen oder schließen lassen. Das gilt insbesondere für ältere Menschen, denen es so möglich wird, länger ohne fremde Hilfe in den eigenen vier Wänden wohnen zu bleiben.

Smart Homes sind längst keine Science Fiction mehr. Mittlerweile gibt es sogar industrielle Lösungen, z.B. Gira Voice Control.

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Per Eingabe der Sprachbefehle in eine Fernbedienung oder ein SmartPhone lassen sich bestimmte Aktionen auslösen. Man kann sogar mehrere Befehle miteinander verketten und ist nicht gezwungen, darauf zu warten, bis der erste Befehl ausgeführt wurde.

Über die Eingabe „Dim dinner table to 80 percent. Dim couch to 80 percent“ kann beispielsweise das Licht über dem Esstisch und über dem Wohnzimmertisch beliebig gedimmt werden. Diese Äußerung ist allerdings nicht sehr natürlich. Besser wäre: „Dim dinner table and couch to 80 percent“. Wird eine Eingabe nicht verstanden, muss der Benutzer sie vollständig wiederholen, bis es entweder funktioniert oder er aufgibt und das Licht manuell dimmt.

Obwohl von Sprachanwendungen aus dem Telefonieumfeld die Techniken längst bekannt sind, die Abhilfe schaffen, kommen sie im Smart Home-Umfeld bisher nicht zum Einsatz. Mixed-Initiative-Konzepte beispielsweise haben das Potenzial, die Nutzerfreundlichkeit solcher Systeme deutlich zu verbessern, wie das folgende Beispiel zeigt:

Benutzer: Fahre bitte den Rollladen herunter.
System: Welchen Rollladen soll ich herunterfahren?
Benutzer: Der Benutzer weiß nicht, was er sagen soll und schweigt.
System: Soll ich den Rollladen zum Garten oder zur Terrasse herunterfahren?
Benutzer: Zur Terrasse.

WOZ-Studie

Um verschiedene Mixed-Initiative-Konzepte testen zu können, wurde am Fachgebiet Telekooperation der TU Darmstadt eine Wizard-of-Oz-Studie (WOZ-Studie) durchgeführt, in der die Probanden in einem simulierten Raum Licht und Rollläden per Sprache steuern sollten. Dafür wurden Bilder des Raumes und die Auswirkungen der Sprachbefehle auf einem Monitor visuell dargestellt.

Smart Home Voice Control

Der Wizard, also der Leiter der Studie, konnte die Ein- und Ausgaben in das System per Bedienfeld manuell vornehmen und so den Probanden den Eindruck vermitteln, dass ihre Sprachbefehle erkannt und die entsprechenden Aktionen tatsächlich ausgelöst wurden. Dabei treten natürlich keine Fehler in der Spracherkennung auf.

Da aber untersucht werden sollte, wie Spracherkennungsfehler nutzerorientierter behandelt werden können, wurde die WOZ-Methode gewählt, um für jeden Probanden die Fehler an der gleichen Stelle auftreten zu lassen. Reale Spracherkennungssysteme haben die in der Studie verwendeten Wörter zu zuverlässig erkannt, so dass die benötigten Fehler nicht oder zu selten aufgetreten sind. Technisch gibt es allerdings keine Hindernisse, ein solches System auch tatsächlich zu programmieren und einzusetzen.

Für die Durchführung der Studie wurden die Probanden in zwei Gruppen mit jeweils fünf Probanden eingeteilt: Eine Gruppe aus Experten verschiedener Fachgebiete wie Sprachtechnologie, Psychologie und Sprachwissenschaften und eine Gruppe aus Laien. In beiden Gruppen gab es sowohl Probanden, die bereits Erfahrungen mit Sprachsystemen gesammelt hatten, als auch solche, die damit noch nicht in Kontakt gekommen sind.

Die zu bewältigenden Aufgaben zielten auf verschiedene Fehlerarten, die bei einer Spracheingabe entstehen können. Hier zwei Beispiele, die die getestete Interaktion mit dem System verdeutlichen:

Benutzer: Schließe die Rollläden im Wohnzimmer.
System: Was wollen sie mit den Rollläden im Wohnzimmer machen?
Benutzer: Die Rollläden schließen.

Eine andere Aufgabe zielte darauf ab, dass das System bis auf den Ort alle Worte korrekt erkannte. Dem Probanden stand dann eine Hilfe-Funktion zur Verfügung, die über eine entsprechende Frage ausgelöst werden konnte. Der Dialog sah also folgendermaßen aus:

Benutzer: Schließe den Rollladen zum Garten.
System: Entschuldigung, wo soll ich den Rollladen schließen?
Benutzer: Welche Rollläden kann ich denn benutzen?
System: Sie können den Rollladen im Wohnzimmer und zur Terrasse benutzen.
Benutzer: Den zur Terrasse.

Fazit

Beide vorgestellten Beispiele setzen ein Mixed Initiative Konzept für die Behandlung von Fehleingaben ein. Dieser Ansatz wurde von den Probanden als deutlich angenehmer empfunden, als die althergebrachten, in denen man einen Befehl über Sprache äußern kann und darauf hofft, dass er auch erkannt wird.

Obwohl auch hier Fehlerkennungen auftreten, wird zumindest ein Teil der Äußerung erkannt und in die Nachfrage nach der nicht erkannten, noch fehlenden Information integriert. Im Voice User Interface Design spricht man in diesem Fall von „Implicit Confirmation“. Dadurch hatten die Probanden nicht das Gefühl, dem System ausgeliefert zu sein, sondern die Kontrolle zu haben. Auf diese Weise wurde die als „Command & Control“ bezeichnete Interaktion tatsächlich als – wenn auch kleiner – Dialog wahrgenommen.

Erstaunlicherweise funktionierte das bei den Personen am besten, die am wenigsten technisch versiert waren. In der Forschung zur Mensch-Maschine-Interkation hat Donald Norman gezeigt, dass Menschen sich bei der Interaktion eine Vorstellung davon machen, wie das System wohl funktioniert (vgl. Donal Norman: „The design of everyday things“). Dies schien bei den nicht-technisch belasteten Personen auch so zu sein. Bei denjenigen, die über ein ausgeprägtes technisches Wissen verfügen, scheinen die Vorstellungen, wie das System technisch funktioniert, eher im Vordergrund zu stehen, so dass die Interaktion nur noch einen kleineren Beitrag zu leisten vermag.

Da dieses Experiment nur mit einer geringen Anzahl von Probanden durchgeführt wurde, sind das natürlich nur erste Ansätze für die genannten Hypothesen, die sich erst in weiteren Tests bewähren müssen. Dennoch war die Tendenz sehr eindeutig.

Eine ausführliche Beschreibung wurde im Rahmen des Workshops „Speech (and Sound) in mobile and Pervasive Environments“ veröffentlicht.


Unser Gastautoren

Dirk Schnelle-Walka
Dr. Dirk Schnelle-Walka
hat 2007 im Bereich Voice User Interface Design an der TU Darmstadt promoviert. Im Zuge seiner Promotion hat er begonnen, den Open Source VoiceXML Interpreter JVoiceXML zu entwickeln. Seit 2009 ist er Gruppenleiter am Fachgebiet Telekooperation an der TU Darmstadt und forscht auf dem Gebiet mutlimodaler Interaktion in Smart Environments.

TU Darmstadt
Twitter

Arvid Lange
Arvid Lange
hat 2012 seinen B.Sc Informatik abgeschlossen und studiert nun M.Sc. Informatik an der TU Darmstadt. Zurzeit ist er als wissenschaftliche Hilfskraft im Fachgebiet Telekooperation tätig.

1 Kommentar

Smart Homes: Strategien zur Fehlerkorrektur bei der Sprachsteuerung | DIE LAUTMALER 2. Oktober 2013 - 11:00

[…] rebloggt von Smarter-Service.com […]

Antwort

Schreiben Sie einen Kommentar

Ähnliche Beiträge

Der kostenlose Smartletter

Regelmäßig Impulse für die Gestaltung digitaler Produkte und Services.
Jetzt anmelden!