SINUS – Siri für den Desktop

SINUS: Siri für den Desktop

von Manja Baudis 15. September 2014

Ein Interview mit Raffael Hannemann, Entwickler von Sinus

Mit Siri hat Apple dafür gesorgt, dass wir unsere Einschätzungen zu Spracherkennungssystemen völlig neu überdenken. Die Möglichkeit, per Sprache auf im Internet verfügbares Wissen zuzugreifen, hat uns von Anfang an begeistert. Stück für Stück ist diese Technologie zu einem ständigen Begleiter unseres täglichen Lebens geworden.

Raffael Hannemann, Masterstudent an der Technischen Universität Darmstadt, wollte die Technologie aber nicht nur auf das Smartphone beschränken. Er sah vielmehr auch Potenzial für einen Einsatz auf Desktop-PCs.


Raffael, was hat Dich an Siri fasziniert?

Raffael Hannemann RAFFAEL HANNEMANN: Siri ermöglicht uns den Zugriff auf eine Vielzahl an Wissensquellen und Diensten per Sprachbefehl – wenn anfangs auch stark beschränkt. Apple schaffte es, die Qualität der sprachgesteuerten Systeme auf ein neues Level zu heben und es der breiten Masse zur Verfügung zu stellen. Dabei wird das Computer-gestützte Gegenüber des Benutzers personifiziert und wirkt manchmal geradezu menschlich.

Als Informatikstudent hast Du beste Voraussetzungen, Dich mit der dahinter stehenden Technologie auseinanderzusetzen. Hat Dich das bei der Gestaltung Deines Studiums beeinflusst?

RAFFAEL HANNEMANN: In der Tat, die TU Darmstadt bietet großartige Veranstaltung nahe am aktuellen Forschungsgeschehen an. Als ich Siri zum ersten Mal benutzte, wollte ich die Magie dahinter verstehen. Das Gesamtkonzept Siri setzt sich aus vielen einzelnen Bausteinen zusammen, die allesamt durch Vorlesungen wie „Voice User Interface Design“ oder „Natural Language Processing“ an der TU Darmstadt abgedeckt werden.

Wie kam es zu dem Entschluss, Sinus zu entwickeln?

RAFFAEL HANNEMANN: Ich wollte mein im Studium erworbenes Wissen anwenden und entschied mich, einen Siri-Nachbau für den Mac zu entwickeln. Klingt wagemutig und etwas überambitioniert, doch es musste ja kein vollständiger Nachbau her. Ein Prototyp hätte mich schon glücklich gemacht.

Das Ergebnis nach mehreren Wochen Arbeit war „Sinus, the personal assistant you’ve been waiting for“, wie ich die App taufte. „Sinus“ deshalb, weil die Anwendung die Stimme des Benutzers als animierte Sinus-Kurve darstellt.

Ich baute nicht alles von Grund auf neu, sondern griff auf verschiedene, vom Mac-Betriebssystem bereitgestellte Technologien zurück. Sprache in Text umzuwandeln und Wörter zu annotieren, all das erledigen existierende Helfer. Das tatsächliche Verstehen und Verarbeiten der Benutzeranfrage blieb dann allerdings mir überlassen – die Kombination verschiedener Ideen aktueller Forschungsergebnisse macht es möglich.

Heraus kam eine flexible Software-Architektur, die sich in ihrer Funktionalität beliebig erweitern lässt. So konnte Sinus anfangs beispielweise lediglich beantworten, wie das Wetter in Paris oder wie viel Uhr es in San Francisco ist. Nach und nach fügte ich – motiviert durch zahlreiche E-Mails und Tweets von Beta-Testern auf der ganzen Welt – weitere Fähigkeiten hinzu: z.B. das Erstellen und Abfragen von Kalendereinträgen, das Nachschlagen von Adressbucheinträgen oder die Suche nach der nächsten Kneipe. Vieles greift auf existierende Dienste im Internet zurück, die die App über Schnittstellen anspricht.

SINUS – Siri für den Desktop

 

Was war die größte Hürde bei der Entwicklung von Sinus?

RAFFAEL HANNEMANN: Tatsächlich war die eigentliche Technologie dahinter rasch umgesetzt. Herausfordernd ist viel mehr die Dialoggestaltung. Der Austausch mit der Maschine soll möglichst natürlich verlaufen, sodass die Antworten viel Feingefühl benötigen.

Außerdem muss die Software möglichst robust mit dem breiten Spektrum an möglichen Benutzereingaben umgehen können. Dazu muss man sich erstmal überlegen, auf welche verschiedenen Arten und Weisen der Benutzer beispielsweise nach dem Wetter fragen könnte. Ein paar zusätzliche Entwickler wären dabei schon hilfreich gewesen.

Du hast die Entwicklung hauptsächlich im Alleingang vorangetreiben. Am Ende steht aber immer ein Benutzer, der andere Erwartungen an die Benutzung haben kann, als es der Entwickler denkt. Was hast Du getan, um auf Benutzerbedürfnisse einzugehen?

RAFFAEL HANNEMANN: Der öffentlich zugängliche Beta-Test fand viel Zuspruch. Immerhin ist Siri noch kein Bestandteil des Desktop-Betriebssystems von Apple, obwohl Bedarf bestünde. Das gängige Feedback zu Sinus lautete in etwa, „Großartig! Zwar noch sehr beschränkt, aber auf einem guten Weg!“, oder „It’s amazing… hope the official version is released soon!“.

Es gab allerdings auch negative Rückmeldungen. Viele forderten eine französische oder deutsche Variante der App, die derzeit nur die englische Sprache beherrscht. Andere waren verärgert über bestimmte Dialogsituationen, die nicht zum unerwünschten Ergebnis führten.

Benutzer erwarten von einer sprachgesteuerten Anwendung – eines angeblich neuen Qualitätsniveaus – einen einigermaßen natürlichen Dialog. Weiß Sinus mit einer Benutzeranfrage nicht umzugehen, wird die Harmonie allerdings gestört und der Benutzer verärgert. Und da die Anwendung auf die gewohnte Point-and-Click-Oberfläche mit Knöpfen und Reitern verzichtet, kann die entstehende Frustration sogar höher sein, als bei konventionell zu bedienenden Programmen.

Ein Praktikum an der TU Darmstadt ermöglichte mir die wissenschaftliche Auswertung meiner Anwendung, sodass aus den gesammelten Rückmeldungen handfeste Zahlen wurden. Dazu kamen eine Experten-Evaluierung, eine Field Observation und Questionaries. All das offenbarte verschiedene Schwächen, an denen noch gearbeitet werden muss, bevor die App tatsächlich verkauft werden kann.

Was sind denn Deine Pläne für Sinus?

RAFFAEL HANNEMANN: Ob es zu einer Vermarktung der Software kommen wird, steht momentan noch in den Sternen. Das Projekt ist eine wunderbare Möglichkeit gewesen, mein akademisches Wissen praktisch anzuwenden. Und die Download-Zahlen der Beta-Version sprechen durchaus für eine existierende Nachfrage im Markt. Doch eine weitere Entwicklung erfordert sicherlich ein ganzes Team an Programmieren, um ein solides, rundes Produkt abzuliefern, sodass momentan ein Verkauf der Kerntechnologie eher mein Interesse wecken würde. Ein paar Anfragen gibt es bereits!

Vielen Dank für das Gespräch.


Dr. Dirk Schnelle-Walka Das Gespräch führte Dr. Dirk Schnelle-Walka. Er hat 2007 im Bereich Voice User Interface Design an der TU Darmstadt promoviert. Im Zuge seiner Promotion hat er begonnen, den Open Source VoiceXML Interpreter JVoiceXML zu entwickeln. Seit 2009 ist er Gruppenleiter am Fachgebiet Telekooperation an der TU Darmstadt und forscht auf dem Gebiet mutlimodaler Interaktion in Smart Environments.

 

Raffael Hannemann Sein Gesprächspartner ist Raffael Hannemann, Student an der Technischen Universität Darmstadt. Im Rahmen seines Master-Studiengangs „Internet and Web based Systems“ vertieft er die Themengebiete Natural Language Processing und Machine Learning. Neben dem Studium entwickelt er Apps für Apples Plattformen iOS und Mac OS X. Im Juni 2014 wurden seine Leistungen von Apple persönlich mit einem Apple WWDC Scholarship gewürdigt, wofür er ein Ticket zur Entwicklerkonferenz in San Francisco erhielt.

Schreibe einen Kommentar

Ähnliche Beiträge