ADTECH

Voice Interfaces – Ein Blick in die Zukunft

Marcel Naujeck, 10. Dezember 2018

Bild: Justin Peralta; CC0 - unsplash.com

Die aktuelle Funktionalität von Voice Interfaces ist noch lange nicht optimal. Vokabeln werden missverstanden und komplette Sätze falsch interpretiert. Zudem gibt es bei den gängigen Interfaces viele Entwicklungsbeschränkungen. Was muss sich technologisch verbessern, um eine höhere Akzeptanz seitens des Menschen zu bekommen? Welche Entwicklungstrends gibt es bei den Big Playern am Markt? Wir geben einen Ausblick darauf, wie sich Voice Interfaces weiterentwickeln und wo großes Potenzial steckt.

Der internationale Markt für Voice Interfaces entwickelt sich rasant und in verschiedene Richtungen. Einige Unternehmen konzentrieren sich auf die Verbesserung des Sprachverständnisses, andere arbeiten daran, etablierte Technologien um Komfortfunktionen zu erweitern. So bietet Alexa demnächst die Möglichkeit, per Stimmenanalyse zwischen mehreren Nutzern zu unterscheiden. Smart Assistants wird tieferes Wissen mit auf den Weg gegeben, um immer komplexere Spracheingaben verstehen zu können und somit intelligenter zu werden.

So wird beispielsweise bei Samsung’s Viv an Modellen gearbeitet, die zukünftig von externen Entwicklern erweitert werden können, um eine immer breitere Wissensbasis zu schaffen. Zusätzlich bilden sich Nischenmärkte für ganz spezielle Anwendungsgebiete von Conversational Interfaces – so gibt es sie schon jetzt für das Arbeiten mit Produktdaten oder InCar-Lösungen.

Die Pläne der Big Player

Amazon hatte mit Alexa nicht den Anspruch einen Smart Assistant auf den Markt zu bringen. Allerdings sollte sie die Möglichkeit bieten, von Entwicklern um Skills erweitert werden zu können. Ihre Funktionalität sollte wachsen, ihre Einsatzmöglichkeiten dadurch größer werden und es sollte sich ein Markt speziell für dieses Interface etablieren. Bei anderen Systemen gestaltet sich die Erweiterung durch externe Entwickler eher schwierig. Möchte man beispielsweise das Wissen von Siri um eine Domäne vergrößern – also um Wissen auf einem bestimmten Gebiet – hat dies massiven Einfluss auf die gesamte Funktionalität.

Ein gutes Beispiel ist hier das Wort „lieblich“, das sich auf einen Geschmack oder auch einen Duft beziehen kann. Würden beide Wissensdomänen ohne aufeinander abgestimmt zu sein, implementiert werden, wären Sätze wie „Ich mag es eher lieblich“ schwer zu interpretieren. Bei nur einer Wissensdomäne wäre die Zuordnung entgegen eindeutig. Daher gibt es im Umfeld von Apple auch noch keine Möglichkeit, Siri frei zu programmieren. Bei Cortana und dem Google Assistant sind die Möglichkeiten zur Erweiterung dahingehend beschränkt, dass Voice Skills oder Actions – Googles äquivalent zu Skills – zwar entwickelt werden können, diese aber nicht auf das vorhandene Domänenwissen zugreifen können, was sie für Entwickler auf eine Stufe mit Alexa stellt.

Amazon setzt auf In-Skill Purchasing

Microsoft und Amazon arbeiten daran eine Integration von Alexa in Cortana und umgekehrt zu schaffen, um so den Markt zu erweitern. Erste Reviews dazu sind im Netz bereits zu finden. Zusätzlich ist Amazon dabei, immer mehr Hardware für Alexa oder mit direkter Alexa-Unterstützung auf den Markt zu bringen. So gibt es zum Beispiel Buzzer – einfache Knöpfe, mit denen man eine Aktion auslösen kann, um das Umfeld von Gamification zu erweitern, Echos in allen Variationen und sogar mit Smart-Hub-Integration – unter anderem für Philips Hue.

Bisher offenbarte sich der Markt für Alexa-Skills allerdings eher als ein Nullsummenspiel. Einnahmen brachten lediglich die Erlöse, die durch die Nutzung von Amazon Web Services generiert wurden und das auch nur ab einem bestimmten Nutzungsvolumen. Dies hat sich mit der Einführung von „In-Skill Purchasing“ zumindest in den USA geändert: In-Skill Purchasing ist vergleichbar mit In-App Käufen und ist die erste, vom Anbieter unterstützte Art der Monetarisierung von Voice Interfaces. An jedem Kauf und mit jedem Abo verdient Amazon 30%. Das entspricht in etwa dem, was auch Apple und Co. im App-Markt verlangen. Dieses Modell wird es auch bald in Deutschland geben, wobei Amazon dazu noch keine genaueren Informationen veröffentlicht hat.

Google fokussiert sich auf Künstliche Intelligenz

Google spannt in seiner Entwicklung von Voice Interfaces ein weitaus größeres Feld auf. So wurde auf der diesjährigen Konferenz „Google I/O“ das System Duplex vorgestellt, das Funktionserweiterungen für den Google Assistant bietet. Es nutzt Künstliche Intelligenz (KI), ist in der Lage, Unterhaltungen zu verstehen und spricht mit einer täuschend echt klingenden menschlichen Stimme.

Doch was genau bedeutet das? Angenommen, mein bevorzugter Sushi-Lieferant hat keinen Online-Bestellservice, muss ich dann via Telefon bestellen? Solche telefonischen Bestellungen laufen alle nach demselben Prinzip: Ich sage, wo ich wohne und welches Gericht ich bestellen möchte. Als Antwort bekomme ich, wieviel ich zu zahlen habe und wann das Essen bei mir ankommt. Genau für solche Situationen hat Google Duplex geschaffen. Auf Anweisung kann es selbstständig Anrufe tätigen und beispielsweise Termine für uns vereinbaren. Dabei ist es kaum zu glauben, dass es sich nicht um einen echten Anrufer handelt. Neben dem natürlichen Sprachfluss spielen hier zusätzlich die Betonung und die Pausen eine besondere Rolle. Dabei kommt Duplex zugute, dass Google sich allgemein bereits tiefgehend mit natürlicher Sprache beschäftigt.

Bei der künstlichen Erzeugung der menschlichen Sprechstimme, der sogenannten Sprachsynthese, entwickelte Google Tacotron 2. Wie bisher, trainiert und erzeugt auch dieses neue System mit dem schon etablierten neuronalen Netz Deepmind WaveNet die natürliche Sprache. Neu ist jedoch, dass nun auch Daten zu Tonhöhen in das neuronale Netz einfließen. Wie genau das funktioniert und wie dieses System arbeitet, wird in diesem YouTube Video von CodeEmporium anschaulich dargestellt. Auf Cloud-Text-To-Speech kann man dieses System mit verschiedenen Sprachen testen. Wichtig ist lediglich, dass man hier den Voice-Typ „WaveNet“ angibt. Wer dieses System nutzen möchte, sollte allerdings bedenken, dass es viermal so teuer ist wiedas herkömmliche Cloud-Text-To-Speech.

Samsung und Apple lassen sich noch nicht in die Karten schauen

Warum Samsung Viv Labs übernommen hat und wie sich dieses System weiterentwickelt, ist leider völlig unklar. Ob Viv Samsungs bisherige Lösung Bixby ablöst oder die Viv- Technologie in Bixby integriert wird, bleibt abzuwarten. Klar ist jedoch, dass Viv auf Grund der gesamten Historie eine stark verbesserte Siri zu sein scheint und großes Potential hat (vgl. Voice Interfaces – Das Hier und Jetzt).

Siris Entwicklung scheint stattdessen eher zu stagnieren. Die einzigen großen Neuerungen im vergangenen Jahr waren Sprachmakros. Diese ermöglichen es, kleine Makros durch einen zuvor hinterlegten Sprachbefehl zu aktivieren. Es könnte sich hier aber auch um die sprichwörtliche Ruhe vor dem Sturm handeln. Denn Apple‘s HomePod wäre als mögliche Konkurrenz für Alexa prädestiniert. Dafür müsste Apple den Entwicklern allerdings die Schnittstelle zu Siri öffnen und die Möglichkeit schaffen, Software für den HomePod zu schreiben.

Wo geht die Reise hin?

Neben den Voice bzw. den Conversational Interfaces ist momentan auch Machine Learning in aller Munde. Die Fortschritte, die in den letzten Jahren bei den Voice Interfaces gemacht wurden, wären ohne Machine Learning nicht machbar gewesen. Ob beim Transkribieren, bei der Analyse von Texten oder bei der Sprachsynthese: Überall werden neuronale Netze eingesetzt und sorgen für immer verblüffendere Ergebnisse.

So könnte ein Voice Interface, das auf eine Stimme trainiert wurde, mithilfe von neuronalen Netzen und dem Wissen zu all ihren Eigenheiten auch im totalen Geräuschchaos die Stimme einer bestimmten Person sauber erkennen und verarbeiten. Wer schon mal versucht hat, während eines laufenden Films seine Alexa Smart-Home-Steuerung zu benutzen, versteht, wie wichtig dieser Schritt wäre. Schließlich möchte man sein Voice Interface nicht anschreien, um den Geräuschpegel im Raum zu übertreffen, sondern in normaler Lautstärke kommunizieren. Wenn darüber hinaus einzelne Stimmen separiert werden könnten, würde das die Einsatzgebiete von Voice Interfaces deutlich erweitern.

Neben der optimierten Sprachverarbeitung fällt auf, dass bisher alle Smart Assistants völlig gesichtslos sind. Das könnte sich bald ändern; So wurde in China gerade ein voll digitaler Nachrichtensprecher vorgestellt. Für Anbieter eines Produktes birgt das großes Potenzial. Auch wenn der Film „Her“ eine sehr persönliche Beziehung zu einer Stimme thematisiert, baut man zu etwas personenähnlichem sicherlich eine noch engere Bindung auf –man denke dabei an den Erfolg von Influencer Marketing. Mit der VR- und AR-Technologie könnte uns solch ein Assistent in menschlicher Form überall Gesellschaft leisten.

Wo versteckt sich das größte Potenzial?

Die Leistungsfähigkeit der Rechner: Bezüglich des Sicherheitsaspekts, dass jegliche Datenverarbeitung eines Voice Interfaces in der Cloud stattfindet, ist zu sagen, dass es zukünftig mehr Lösungen geben wird, bei denen die Verarbeitung lokal geschieht. Aktuell werden fast alle Daten in der Cloud des Anbieters verarbeitet und gespeichert. Das liegt vor allem daran, dass viele Lösungen noch an der notwendigen Leistungsfähigkeit der eigenen Rechner scheitern. Die Rechenleistung wird jedoch permanent höher und billiger. Daher ist es nur eine Frage der Zeit, bis es einwandfrei funktionierende Voice Interfaces auch auf einem Smartphone geben wird, das gerade nicht online ist.

Das Verständnis von Sprache: Viele Firmen beschäftigen sich zudem mit dem Verständnis von Sprache auf inhaltlicher Ebene. Wenn es um mehr als einen einzelnen Satz geht, zum Beispiel um den Inhalt einer gesamten Geschichte, sind heutige Voice Interfaces allesamt nutzlos. Bei einem Voice Interface wie wir es kennen, geht es in erster Linie nicht um Wissensinhalte, sondern um Willenserklärungen. Das Interface soll verstehen, was der Benutzer von ihm will, um dann darauf zu reagieren. Bei der Extrahierung von Wissen aus Texten geht es aber darum Wissen zu erfassen und in geordneten Strukturen zu speichern.

Nehmen wir beispielsweise einen Service-Mitarbeiter einer Hotline, der mit einem fünfminütigen Beschwerdedialog eines Kunden umgehen muss. Um ihn bei seiner Arbeit zu unterstützen, gibt es aktuell schon einige Ansätze, Gespräche automatisch zu verschlagworten und dem Mitarbeiter als Hilfestellung passende Themen auf einem Screen anzuzeigen. Noch sinnvoller wäre es jedoch, wenn das Interface aus einem Gespräch die Quintessenz extrahieren könnte, um dem Mitarbeiter die wichtigsten Stichpunkte auf einem Screen anzuzeigen, auf die er dann im Gespräch eingehen kann. Dafür muss so ein System aber inhaltlich verstehen, was der Nutzer sagt und gegebenenfalls auch bewerten oder priorisieren können. Weiterführend könnte ein Conversational Interface auch Informationen aus E-Mails oder sogar Chatbots extrahieren und Service-Mitarbeitern schnell alle relevanten Fakten zur Verfügung stellen.

Im Bereich Wissensrepräsentation und Natural Language Understanding wird weiterhin viel geforscht. Ebenso werden immer mehr selbstlernende Technologien zur Textanalyse wie zum Beispiel das „Word Embedding“ entwickelt. Auch hier ist es also nur eine Frage der Zeit, bis es Systeme geben wird, die sehr komplexe Inhalte verstehen.

Die Erkennung und das Verbalisieren von Bildinhalten: Wovon die meisten Menschen eher nur am Rande etwas mitbekommen, ist die sogenannte „Accessibility“ oder auch Barrierefreiheit in der digitalen Welt. So hat Siri in der Vergangenheit einen großen und sehr wichtigen Beitrag geleistet, damit auch Menschen mit Sehbehinderungen komfortabel mit einem Smartphone umgehen können. Gerade für sie ist die Nutzung von Voice Interfaces ganz besonders relevant.

Darüber hinaus gibt es im Bereich Machine Learning mittlerweile viele Forschungsarbeiten, die sich mit der Erkennung von Bildinhalten beschäftigen. Dabei geht es längst nicht mehr darum einen Hund oder eine Katze zu unterscheiden, sondern um Bildkonstruktionen mit vielen Komponenten. Man stelle sich ein System vor, das erkennt und beschreibt, wo sich beispielsweise eine Straße befindet – was davor ist, was dahinter – oder wahrnimmt, ob eine Ampel gerade rot ist beziehungsweise was auf Straßenschildern steht. Die Kombination dieser Technologien hätte einen echten Mehrwert. Ein System für Sehbehinderte, das beschreibt, was gerade vor ihnen passiert, das warnt, wenn Hindernisse in Sicht kommen und das sicher navigiert.

Fazit

Voice Interfaces sind auf einem guten Weg, jedoch fühlt es sich im Alltag noch nicht wirklich natürlich an, solch ein Interface zu benutzen. Dafür schwächelt mitunter das Sprachverständnis noch zu stark. An diesen Problemen wird allerdings gearbeitet und es ist abzusehen, dass wir in Zukunft fast beiläufig mit unserem digitalen Assistenten plaudern, ihm vielleicht sogar von unseren Hochs und Tiefs erzählen und verständnisvolle Antworten oder sogar Anregungen von ihm bekommen werden. Was dies für Auswirkungen auf unser soziales Leben haben wird, wird sich zeigen. Bisher hat jede große Technologie Vor- und Nachteile mit sich gebracht, wir müssen sie nur gewissenhaft einsetzen.

Dies ist der vierte Beitrag einer vierteiligen Serie zum Thema Voice Interfaces:

Teil 1: „Voice Interfaces - Ein Trend mit Vergangenheit“
Teil 2: „Voice Interfaces – Das Hier und Jetzt“
Teil 3: „Voice Interfaces – Die 3 größten Herausforderungen“
Teil 4: „Voice Interfaces – Ein Blick in die Zukunft“

Über den Autor/die Autorin:

Marcel Naujeck ist Innovation Engineer bei hmmh. Bereits im Alter von elf Jahren begann er mit dem Democoding. Heute nutzt er seine langjährige Erfahrung für die Planung und Entwicklung von E-Commerce-Lösungen und der Evaluierung neuer Technologien für den Enterprise-Bereich.