Wofür die Mühe?

Sundar Pichai, CEO von Google Duplex, stellte im Mai 2018 auf der Entwicklerkonferenz Google I/O eine Weiterentwicklung von Google Assistant für Terminvereinbarungen vor. Die sprachgesteuerte Software kann Anrufe tätigen, nach einem Termin fragen, diesen in Interaktion mit dem Angerufenen, vereinbaren und für den Nutzer der Software notieren. Auf der Entwicklerkonferenz wird als Beispiel die aufgezeichnete Terminvereinbarung für einen Friseurbesuch eingespielt. Um die Stimmer der KI noch menschlicher klingen zu lassen, erweiterte Google den Algorithmus um das Erzeugen von Pausen und Füllwörtern. Die nicht als solche erkennbare Computerstimme sagt „ähm“, „mm-hmm“ und „äh“. „Danke“ und „bitte“ werden auch eingebaut. Und tatsächlich ist die Wirkung bestechend. Die generierte Stimme erhält dadurch einen Feinschliff, der die Idee, man würde nicht mit einem Menschen telefonieren, absurd erscheinen lässt. Das wissende Auditorium goutiert jedes "äh" und jede Verzögerung mit erstauntem Lachen und Applaus.

Google Duplex veröffentlichte ein Video der Präsentation auf YouTube. In den Kommentaren meint jemand, Stimme und Intonation aus seiner letzten Buchung bei einer Hotelkette wiederzuerkennen. Selbstverständlich kann die Software auch auf der anderen Seite des Buchungssystems effektiv eingesetzt werden.

Ob auf der einen oder der anderen Seite der Telefonleitung — die Künstliche Intelligenz kann gesprochene Worte „verstehen“. Der erste Schritt in der Algorithmik dahinter ist, dass Sprachelemente, die nicht sinntragend sind, ähm eliminiert werden. Vor dem Beginn der eigentlichen Sprachanalyse sind Pausen und Füllworte herauszufiltern, um die weitere Arbeit der Software nicht äh zu behindern. Alle Füllworte, alle ähm Partikel, werden mm-hmm herausgefiltert.