(C) Vocollect

Semantische Anwendungen (I): Wenn der Mensch mit dem Computer spricht

Aufmacherbild: (C) Vocollect

Wenn der Mensch mit dem Computer spricht, laufen Erkennungssysteme und künstliche Intelligenz auf Hochtouren. Semantische IT-Anwendungen, die wie selbstverständlich mit Menschen kommunizieren, Befehle interpretieren und den Erfahrungsschatz stetig ausbauen, sind keine Zukunftsmusik mehr. Zahlreiche Helfer im Alltag zeigen, dass wir uns einer nahezu perfekten Interaktion zwischen Mensch und Maschine zumindest in großen Schritten nähern.

Kennen Sie Theodore Twombly? Der Mann ist eigentlich schüchtern, schreibt aber wegen seines Gespürs für Gefühle anderer die Briefe für Menschen, die selbst wiederum ihre Gefühle nicht gut ausdrücken können. Er kann sich in andere hineindenken, versteht ihre Wünsche und Bedürfnisse – und findet sein Alter Ego in der „Person“ von Samantha, einem PC-Betriebssystem mit weiblicher Identität und sehr angenehmer Stimme. Eine mehr und mehr innige, geradezu intime Beziehung nimmt ihren Lauf…

 

 

Klar, dieser Mann existiert nicht, ebensowenig Samantha. Theodore Twombly ist die Hauptfigur im US-Film „Her“ – doch Samantha, die durch die Kommunikation mit Theodore schnell dazulernt und sich immer menschlicher verhält, hat im wahren Leben „funktionierende“ Kolleginnen. Zumindest solche, deren Entwickler sich das Ziel gesetzt haben, vielleicht einmal die Leistungsfähigkeit von Samantha zu erreichen.

 

Heutige Systeme können schon erstaunlich viel

Denn bei semantischen Anwendungen geht es um unendlich viel mehr als nur darum, gesprochene Wörter zu erkennen. Auch nicht nur um den Sinn und den Kontext. Verknüpfung heißt das Zauberwort: „Zeige mir alle Kinos in meiner Nähe“ ist ein Befehl, den zum Beispiel die Systeme von Apple (Siri) und Google (Now) bereits gut ausführen und der an sich schon eine kleine Herausforderung ist.

 

 

Was aber, wenn Sie sich genau das eine Kino anzeigen lassen wollen, in dem Sie letztens mit Ihrer Freundin diesen seltsamen Film angesehen haben, dessen Titel Ihnen jetzt partout nicht einfällt? Denn dort haben Sie vielleicht Ihre Brille liegen gelassen und wissen nun die Adresse und den Namen des Kinos nicht mehr… Das alles zu verstehen und in den vom Nutzer gewünschten Sinn zu „übersetzen“, so weit sind die Systeme dann doch noch nicht – aber es wird auf Hochtouren daran gearbeitet.

 

 

Meist recht gut funktioniert auch die Sprachsuche in Amazons Multimedia-Box „FireTV“. Hier kann zwar auch Buchstabe für Buchstabe über die Textsuche nach Filminhalten gesucht werden, weitaus komfortabler aber ist die Sprachsuche über den Mikrofon-Knopf der Fernbedienung. Das System findet meist schnell und zuverlässig den richtigen Inhalt (solange man deutlich spricht) oder präsentiert naheliegende Varianten. Immer klappt das jedoch nicht – wie man am Film „Wolverine“ sehen kann (selbst wenn man den Namen in zig Varianten ausspricht).

 

Suchmethoden 2.0

Ein weiteres Beispiel sind Statistikfragen, die sich von komplexen Datenbanken bereits ansatzweise beantworten lassen – und eben nicht mit den herkömmlichen Suchmethoden. Finden Sie mal heraus, was zum Beispiel die Städte Frankfurt und Leipzig gemeinsam haben oder wie viele Menschen in Ihrer Region kleiner als 1,50 Meter sind. Oder lassen Sie sich anzeigen, welche Gebäude in Deutschland mehr als 20 Stockwerke hoch sind und gleichzeitig in einer Höhe von mehr als 300 Meter über NN liegen. Gut, etwas „alltagsnäher“ wäre vielleicht der Vergleich der Preise von Tomaten, die ausschließlich in Ihrer Region wachsen, oder von Ersatzteilen für Ihr Auto über mehrere Kataloge hinweg, ohne dass Sie sie einzeln abklappern müssen.

Solche Fragen würde der Bordcomputer des fiktiven Raumschiffs Enterprise aus der TV-Serie „Star Trek“ wohl rasend schnell beantworten. Das Pendant zum heutigen Kommando „Okay, Google“ ist der einfache Ausruf „Computer!“ – schon deshalb würde er in unserer Gegenwart nicht funktionieren, wie man an einem denkwürdigen Ausschnitt aus „Star Trek IV“ sehen kann.

 

 

Möbelbau extrem

„Spracherkennung ist für einen Computer so, wie einen IKEA-Schrank zusammenzubauen“, vergleicht Alexander Koller, Professor für Theoretische Computerlinguistik, in einem Beitrag für das Magazin CULTURMAG, „nur dass der Computer die Augen verbunden bekommt, die einzelnen Bauteile durch Ertasten erkennen soll und keine Bauanleitung lesen darf, sondern irgendwie erraten muss, was wo hingehört.“

Denn das, was für unser Gehirn wie selbstverständlich erledigt wird, bedeutet für das Spracherkennungssystem eine große Herausforderung. Akustische Muster müssen analysiert werden, statistische Berechnungen und Sprachmodelle sagen das womöglich nächste Wort voraus. Darüber hinaus müssen Hintergrundgeräusche als solche erkannt und ausgefiltert werden, damit die eigentliche Sprache möglichst perfekt „erhört“ werden kann – sonst gerät die gesamte Information zu einem einzigen akustischen Brei.

 

Was will der Nutzer?

Wer an diesem Punkt meint, dass Google Now, Siri & Co. – oder auch ein Auto, das per Spracherkennung Befehle ausführen soll – nun wissen, was sie tun sollen, der irrt. Bisher steht nämlich nur der gesprochene Text fest. Was aber hat der Nutzer gemeint, was „will“ er vom digitalen Assistenten? Sprachliche Mehrdeutigkeiten, verschiedene Betonungen, feinste Nuancen in der Stimme und Stimmung können die Sinnhaftigkeit verändern. Das System ist also gezwungen, praktisch alle Varianten durchzurechnen und sich für die (hoffentlich) beste zu entscheiden – um dann auch noch (hoffentlich) richtig zu reagieren.

In Zukunft könnte ein Befehl also lauten: „Schicke an meine Freundin in München die Blumen, die ich ihr bereits letzten Geburtstag geschenkt habe.“ Oder eben auch: „Zeige mir das Kino, in dem ich letzten Monat mit meiner Freundin einen Film gesehen habe, und nenne mir auch den Titel dieses Films.“ Die Königsdiszplin aber wäre: „Ich möchte am Freitag nach Hamburg reisen und dort zwei Tage übernachten“ – so dass das System automatisch nach den besten Transportmitteln, Verbindungen und Hotels sucht und diese gleich bucht und sogar bezahlt, natürlich nach Berücksichtigung von bestimmten Vorlieben und einem Standard-Zahlungsweg.

 

Die Kunst ist die Verknüpfung

Intelligente Spracherkennungssysteme sind jedoch nur die Spitze des Eisberges bei semantischen Anwendungen – denn nach der hochkomplexen Erkennung von Sinn und Kontext muss im Hintergrund die eigentliche Information abgerufen und aufbereitet werden. Ob es eine akustische oder klassische „händische“ Abfrage ist: Die Kunst ist es, relevante Daten zu filtern und in Beziehung zueinander zu bringen.

Lust auf mehr? Dann gehts hier zum zweiten Teil.

René Wagner

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert