15.05.2019

Natural Language Processing

1. Teil: „KI macht smarte Sprachanwendungen möglich“

KI macht smarte Sprachanwendungen möglich

Zapp2Photo / shutterstock.com

Kundenorientierte Unternehmen profitieren von den Fortschritten der Sprachverarbeitung. Aber auch, wenn die Entwicklung in großen Schritten voranschreitet, sind wir hier noch ganz am Anfang.

Von Apple über Amazon und Microsoft bis Google - alle großen IT-Konzerne bieten heute intelligente Sprachassistenten an. Laut Bitkom-Trendstudie „Consumer Technology 2018“ setzt bereits jeder achte Bundesbürger Sprachassistenten wie Siri oder Alexa ein. Die KI-basierten Systeme stoßen aber nicht nur im Consumerbereich auf eine immer größere Akzeptanz. Sie bieten auch für Unternehmen viele Vorteile und werden zusehends im geschäftlichen Umfeld eingesetzt. IDC zufolge steht Sprachverarbeitung bereits an zweiter Stelle bei der KI-Nutzung in Unternehmen. Im Business-Bereich ist das Anwendungsspektrum zudem wesentlich breiter. Dort können KI-basierte Sprachprogramme aus riesigen Dokumentensammlungen Informationen extrahieren, Texte automatisch übersetzen, im Kundendialog unterstützen, Fragen an den IT-Helpdesk automatisch beantworten oder Maschinen steuern. Auch eröffnet die Sprachverarbeitung viele Anwendungsmöglichkeiten für Mitarbeiter ohne Spezialkenntnisse, etwa von Programmiersprachen. Und sie nimmt zusehends eine wichtige Rolle an der Schnittstelle zwischen Mensch und Computer ein. Insofern spielt die digitale Sprachverarbeitung auch bei der Transformation der Arbeitswelt eine gewichtige Rolle.

Noch sind die verfügbaren digitalen Helfer aber alles andere als perfekt. Komplexere Sprachbefehle verstehen sie noch nicht und ihr Funktionsumfang ist auf bestimmte, sehr strukturierte Anwendungen beschränkt. Dennoch: Im Vergleich zum Stand von vor etwa fünf Jahren ist ein deutlicher Fortschritt zu erkennen, der vor allem Entwicklungen der KI geschuldet ist. Leistungsfähigere Hardware und verbesserte Algorithmen wie Deep Learning haben auch der KI-basierten Sprachverarbeitung einen deutlichen Schub verliehen. Hinzu kommt: Vielen KI-Forschern selbst ist das maschinelle Sprachverstehen ein großes Anliegen und sie betreiben einen erheblichen Forschungsaufwand. Schließlich ist Sprachverarbeitung ja auch eines der KI-Kerngebiete. Da KI mit dem Anspruch auftritt, kognitive Funktionen des menschlichen Gehirns nachzubilden und Sprache ein zentraler Bestandteil der menschlichen Intelligenz ist, steht und fällt der Erfolg der KI mit der Computerisierung und Automatisierung von Sprache.

Auch die IT-Konzerne haben ein starkes Interesse an Sprachsystemen - und die Entwicklung vorangetrieben. Wollen wir mit Maschinen kommunizieren, brauchen wir Mäuse, Trackpads oder Tastaturen. Das ist umständlich und fehleranfällig. Können wir Sprache bei der Interaktion mit Software, Smartphones und Maschinen anwenden, wird vieles einfacher.

NLP als Rückgrat

Digitale Sprachverarbeitung ist nicht auf Assistenzsysteme wie Alexa und Co. beschränkt. Die sind nur die kommerziell erfolgreiche Speerspitze eines weit verzweigten Gebiets mit vielen praktisch verwertbaren Lösungen:

Maschinelles Übersetzen: transferiert Texte automatisch von einer Sprache in eine andere

Textmining/Texterkennung: extrahiert Informationen und fasst Textinhalte zusammen

Textgenerierung: erzeugt automatisch Texte aus bestimmten Mustern oder Schlüsselwörtern

Sprachsteuerung/natürlichsprachliche Schnittstellen: natürlichsprachliche Interaktion mit Maschinen

Chatbots/digitale Assistenten: beantworten schriftliche und mündliche Anfragen

Das Rückgrat all dieser Anwendungen bildet Natural Language Processing - kurz: NLP. Diese „maschinelle Verarbeitung natürlicher Sprache“ verknüpft Erkenntnisse aus der Linguistik mit neuesten Methoden der Computerwissenschaft und der KI. Doch während wir seit Kindheit auf Erfahrungen zurückgreifen können, um Menschen zu verstehen, müssen Maschinen das durch Algorithmen erst erlernen. NLP versucht, Lösungen zu finden, um sowohl gesprochene wie geschriebene Sprache zu erkennen, zu analysieren und den Sinn zwecks weiterer Verarbeitung zu extrahieren. Dazu entwickelt NLP Methoden und Techniken, die natürliche menschliche Sprache zu erfassen und mit Regeln und Algorithmen computerbasiert zu verarbeiten. Die Programme müssen in der Lage sein, nicht nur einzelne Wörter oder Sätze zu verstehen, sondern den kompletten Zusammenhang der Sachverhalte und möglichst den Kontext von Sprachakten einbeziehen. Das ist alles andere als einfach.

2. Teil: „Linguistischer Abgrund“

Linguistischer Abgrund

Große Bedeutung: Spracherkennung steht laut IDC an zweiter Stelle beim Einsatz von KI-Technologie in deutschen Unternehmen.
Quelle:
IDC 2018 (n=350)

Aus Anwendersicht scheint die Funktionalität sprachverstehender Systeme sehr einfach. Dieser Schein trügt. Die Systeme beruhen auf technisch sehr komplexen Algorithmen und auf Forschungsergebnissen der letzten sechzig Jahre. Blickt man hinter den Glanz von Siri und Co., so öffnet sich ein Abgrund an Problemen. Das maschinelle Übersetzen etwa - einer der Paradedisziplinen der KI - kämpft heftig mit semantischen, syntaktischen und grammatikalischen Mehrdeutigkeiten. Woher soll der Computer wissen, ob „Bank“ ein Geldinstitut oder eine Sitzgelegenheit meint oder „Leiter“ einen Gegenstand oder eine berufliche Position. Solche Begriffe können erst im Kontext korrekt übersetzt werden. Bei gesprochener Sprache kommen weitere Herausforderungen hinzu. Hier sind - anders als bei Geschriebenem - Wörter nicht ohne Weiteres identifizierbar, sondern müssen aus einem kontinuierlichen Strom von Lauten erst isoliert werden. Unterschiedliche Aussprachen, Sprechweisen oder Dialekte erschweren das Ganze.

Durchbruch mit Deep Learning

Solche Schwierigkeiten haben Natural Language Processing den Ruf eingebracht, einer der kompliziertesten Bereiche der Informatik zu sein. Dennoch haben es Informatiker und Computerlinguisten geschafft, die Sprachverarbeitung immer weiter zu verbessern - erst langsam, in den vergangenen Jahren schneller. Im Lauf der Zeit haben sich vor allem zwei maschinelle Übersetzungsverfahren etabliert: regelbasierte und statistische Ansätze. Regelbasierte Ansätze haben vor allem Linguisten verfolgt. Hier analysiert das Programm zunächst die grammatikalische Struktur des Quelltexts. Danach werden Wörter und grammatische Regeln in die Zielsprache übertragen und ein neuer Text wird erzeugt. Das geschieht in drei Schritten: Analyse, Transfer, Generierung.

Bei statistischen Ansätzen sind Sprachwissenschaftler mit grammatischen Analysen nicht mehr gefragt. Vielmehr werden dem Computer hier nicht Regeln beigebracht, sondern bestehende Übersetzungen werden statistisch ausgewertet. Schließlich ist fast jede Phrase und jeder Satz bereits mehrfach übersetzt worden. Es gilt nur, diese Quellen anzuzapfen und auszuwerten. Doch auch hier waren die Ergebnisse zunächst eher mager.

Wesentliche Fortschritte wurden erst erzielt, als der Einsatz von KI und neuronalen Netzen einen gewissen Reifegrad erreicht hatte. Die erfolgreichsten Sprach- und Übersetzungsprogramme basieren heute auf Deep Learning, einem Machine-Learning-Verfahren, bei dem Algorithmen anhand von vielen Beispielen lernen, die Bedeutung eines Textes zu erkennen - ähnlich einem Kind, das sprechen lernt. Google etwa senkte die Fehlerquote seiner Android-Spracherkennung durch Deep Learning auf einen Schlag um 25 Prozent.

KI-Tools für Sprachverarbeitung

Unternehmen nutzen sprachbasierte Dienste am besten über die großen Cloud-Anbieter. Sie können deren Services anpassen, über APIs in eigene Anwendungen integrieren und diese um KI-Aspekte erweitern. Kleinere Dienstleister kommen am ehesten für spezielle Anforderungen infrage.

Amazon: „Amazon Transcribe“ dient zur Spracherkennung. Die erzeugten Audiodateien können weiter analysiert werden. Der NLP-Dienst „Amazon Comprehend“ bietet Analyse-Tools für Textmining. „Amazon Translate“ unterstützt 12 Sprachen und übersetzt aus dem Englischen oder ins Englische.

Google Cloud AI: „Dialogflow Enterprise Edition“ ermöglicht die Entwicklung von Sprachschnittstellen wie Chatbots. Die „Cloud Natural Language“-API analysiert die Struktur und Bedeutung des Textes mit Modulen zum maschinellen Lernen, die von Entwicklern erstellt und trainiert werden können. Diese API lässt sich verwenden, um Informationen zu extrahieren und Gefühle und Absichten aus Gesprächen zu erkennen. Mit „Cloud Translation“ lässt sich Google Translate in eigene Anwendungen integrieren.

IBM Watson: Der „Language Translator“ Service übersetzt 21 Sprachen. „Natural Language Understanding“ analysiert Texte nach Schlüsselwörtern, Entitäten, Relationen und Stimmung. Der „Tone Analyzer“ untersucht den Sprachton und die Emotionen eines Textes. Was die Konkurrenz nicht bietet: Mit „Personality Insights“ kann man durch Textanalyse eine Art Persönlichkeitstests des Autors durchführen, etwa um Tendenzen zum Konsumverhalten abzuleiten.

Microsoft Cognitive Services: Microsoft unterteilt seine Angebote in „Language“ (geschriebene Sprache) und „Speech“ (gesprochene Sprache). Modelle in „Language“ transkribieren gesprochenen Text in geschriebenen und umgekehrt. Spracherkennung identifiziert Personen an ihrer Stimme, was sich für die Authentifizierung einsetzen lässt. „Azure Language Understanding Intelligent Services“ erstellt Zusammenfassungen von längeren Texten. Mit dem „Bots Framework“ können Bots gebaut werden.

Neofonie: Der Dienstleister aus Berlin stellt mit der API „TXT Werk“ eine Auswahl wichtiger Textanalyse-Dienste für deutschsprachige Texte als JSON-REST-Service bereit.

Tabelle öffnen

3. Teil: „Maschinell übersetzen“

Maschinell übersetzen

Beispiel Persil: Henkel unterstützt seinen Fleckentfernungs-Service durch einen Chatbot.
Quelle:
com! professional / Screenshot

Inzwischen sind Übersetzungsprogramme beeindruckend gut. Google Translate galt lange als bester Übersetzer. Neuerdings nutzt das Tool rekurrente neuronale Netze und kann auch ganze Sätze in einen Kontext setzen. Allein dadurch sind seine Übersetzungen verlässlicher geworden, wenn auch längst noch nicht fehlerfrei.

Noch besser schlägt sich ausgerechnet ein kleines Start-up aus Köln: DeepL liefert Übersetzungen von neun Sprachen - darunter Deutsch, Englisch, Spanisch, Russisch - in bislang nicht gekannter Qualität. Das zeigte eine Reihe von Tests. Beispielsweise wählten professionelle Übersetzer in einem Blindtest die Translationen von DeepL dreimal häufiger als beste Übersetzung als die der Konkurrenz von Google, Microsoft und Facebook.

DeepL setzt nicht auf rekurrente neuronale Netze, sondern auf Convolutional Networks, wie sie bei der Bilderkennung üblich sind. Der Vorteil: Convolutional Networks verarbeiten alle Wörter parallel und es gibt bereits hoch optimierte Bibliotheken für die Berechnung. DeepL erzeugt die Übersetzung mittels eines Supercomputers, der 5,1 PetaFLOPS erreicht.

Was aber bringen diese Übersetzungssysteme konkret im Wirtschaftsleben? Sie bilden heute schon ein wichtiges Instrumentarium für alle Unternehmen, die Texte schnell von einer in eine andere Sprache übersetzen müssen. Vor einer Publikation sollten die automatisch übersetzten Texte zwar besser noch nachbearbeitet werden, aber zum reinen Verstehen reichen die künstlichen Resultate schon aus.

Oft werden Übersetzungsdienste bei Medienunternehmen oder im E-Commerce eingesetzt. Beispielsweise profitieren Hotelbewertungsportale und global agierende Spezialanbieter davon. Die Buchungsseite Hotels.com etwa will allen Kunden die aktuellsten Informationen zu ihrem Reiseziel in ihrer Muttersprache liefern. Dazu betreibt Hotels.com 90 lokalisierte Websites in 41 Sprachen und bietet rund 25 Millionen Kundenbewertungen. Technische Voraussetzung dafür: maschinelle Übersetzungen.

Unbekanntes entdecken

Maschinelles Übersetzen ist in der KI eines der Leuchtturmprojekte, wirtschaftlich gesehen allerdings nur eine Nischenanwendung. Größeres ökonomisches Potenzial haben an-dere Sprachanwendungen: Textmining, natürlichsprachliche Schnittstellen, Sprachassistenten und Chat-Bots.

Textmining wird eingesetzt, um riesige Mengen an freiem Text zu durchsuchen, relevante Informationen zu finden, Texte zu analysieren und zu interpretieren. Semantische Technologien erlauben es, Schlüsselwörter automatisch zu ermitteln, Personennamen zu erkennen und auch große Mengen von Dokumenten automatisch zu klassifizieren oder Themenbereichen zuzuordnen. Die Panama-Papers, das größte Daten-Leak der letzten Jahre mit einem Datenumfang von 2,6 TByte, wurden mit Textmining-Methoden untersucht.

Mit Textmining können Unternehmen Informationen gewinnen, die ihnen bislang verborgen waren. Das Verfahren kann helfen, wertvolle Geschäftsinformationen aus textbasierten Quellen wie Dokumenten oder E-Mails zu ziehen. Der Energiekonzern RWE setzt eine sprachbasierte KI-Plattform ein, um bei der Kundenkommunikation Muster in unstrukturierten Texten wie E-Mails oder Briefen zu entdecken. Das Anliegen (Worum geht es dem Kunden?) sowie dessen Weiterverarbeitung (Wer ist Experte dafür?) werden automatisiert ohne menschlichen Eingriff verarbeitet. 80 Prozent der Service-Anfragen werden auf diese Weise durch die KI automatisch in die Bestandssysteme übertragen und Mitarbeiter so von manuellen Routinetätigkeiten entlastet. Textmining lässt sich auch sehr gut zur Marktbeobachtung nutzen. „Wenn man wissen möchte, was andere Unternehmen oder die Konkurrenz via Pressemitteilungen, Twitter oder Facebook von sich gibt, kann Textmining eingesetzt werden“, erklärt Kristin Strauch, KI-Referentin beim Digitalverband Bitkom. „Es ist verbreitet im Content Marketing, in Marketing-Abteilungen und bei Unternehmensberatungen. Letztere setzen solche Tools etwa ein, um zu erfahren, wie sich bestimmte Unternehmen zu einem Thema positionieren.“

Auch businessrelevante Infos aus Einträgen in sozialen Netzwerken wie Facebook, Twitter und LinkedIn können via Textmining gewonnen werden. Sentiment-Analyse etwa ermittelt die Einstellung in den sozialen Medien gegenüber einem Produkt oder einem Unternehmen. Fällt sie zu negativ aus, kann das Marketing Gegenmaßnahmen einleiten.

4. Teil: „Mit Worten steuern“

Mit Worten steuern

Eine weitere NLP-Anwendung sind natürlichsprachliche Interfaces. Über diese Schnittstellen kommuniziert der User in seiner gewohnten Umgangssprache mit einer Anwendung oder einer Maschine. Systeme mit natürlichsprachlichen Schnittstellen können zum Beispiel eingesetzt werden, wenn die Backend-Systeme schwierig oder nur mit viel Lernaufwand zu bedienen sind. Solche Systeme sind deshalb ein wichtiger Baustein im Bereich Selfservice-Analytics.

IBM bietet beispielsweise mit Cognos Analytics eine KI-basierte Analytics-Lösung mit natürlichsprachlicher Schnittstelle. Komplexe Analytics-Fragestellungen wie „Was sind die Schlüsselfaktoren für meine Produktverkäufe?“ oder „Mit welchen Vergünstigungen kann ich meine Mitarbeiter am besten bei der Stange halten?“ werden genau so in natürlicher Sprache gestellt und vom System direkt anhand der vorliegenden Daten beantwortet. Der Nutzer des Systems bekommt von den mit der Frage angestoßenen komplexen Hintergrundprozessen nichts mit: Die zur Beantwortung notwendigen Schritte wie die Aufbereitung von Daten, die Erstellung von Prognosen oder die Visualisierung von Ergebnissen laufen automatisch ab. Das erhöht die Zahl der möglichen Anwender von Systemen stark. Insbesondere Mitarbeitern ohne oder mit wenig Analytics-Erfahrung - wie Fachanwender, Vertriebsbeauftragte, Manager und CEOs - erhalten dadurch einen schnellen und einfachen Zugang zu leistungsfähigen Predictive- und grafischen Analyse-Tools.

Und schließlich spielen Sprachschnittstellen auch in der Fertigungsindustrie eine immer größere Rolle als Interface zwischen Mensch und Maschine. Der Vorteil: Wenn die Steuerung der Maschine per Sprachbefehl erfolgt, kann der Facharbeiter seine Hände am Werkstück lassen. Dafür ist nicht einmal viel Spracherkennungsaufwand nötig, meist genügen einfache Befehle wie „Halten“, „Greifen“ oder „Heben“.

Automatische Reports

Von Textgenerierung, Textgenese oder Text-Composing spricht man, wenn der Computer automatisch natürlichsprachige Texte erzeugt. Im Idealfall ist das Ergebnis so gut, dass dem Leser der Unterschied zu einem von Menschen erstelltem Text nicht auffällt. Die Information, aus der der Text generiert wird, muss dabei als formal verarbeitbare Information vorliegen. Oft werden hoch strukturierte Datenbankeinträge genutzt oder Tabellen mit Geschäftszahlen.

Textgenese-Software funktioniert überall dort gut, wo konkrete Zahlen und Daten auszuwerten und einfach strukturierte Texte zu erzeugen sind, etwa bei jeglicher Art von Berichtsgenerierung. Manche Unternehmen erzeugen damit ihre Geschäftsberichte. Auch Berichte über die Nutzung einer Website samt Handlungsempfehlungen sind damit möglich. Die Basis ist dabei oft das Daten-Tracking-Tool Google Analytics.

Einer größeren Öffentlichkeit bekannt geworden ist Text-Composing bei journalistischen Anwendungen: Der Algorithmus generiert aus Datenbankeinträgen fertige Nachrichtentexte. Kris Hammond, Professor für Computer Science an der Northwestern University und Gründer von Narrative Science, einem US-amerikanischen Anbieter von Textgenese-Tools, wagt eine steile Prognose: „2025 werden Roboter 90 Prozent aller Informationen für das breite Publikum erstellen.“

5. Teil: „Interne und externe Helfer“

Interne und externe Helfer

Massenphänomen: Digitale Sprachassistenten sind den meisten Bundesbürger schon bekannt.
Quelle:
"Consumer Technology 2018" Bitkom (n=Bevölkerung ab 14 Jahren), rundungsbedingt nicht 100 Prozent

Die kommerziell wichtigsten Sprachverarbeitungssysteme sind aktuell aber die erwähnten digitalen Assistenten. Laut einer Lünendonk-Studie setzen 68 Prozent der Unternehmen bereits Sprachassistenten ein. Dazu eine begriffliche Klärung: Sprachassistenten und Chatbots werden oft in einen Topf geworfen, sollten aber unterschieden werden: Sprachbasierte Assistenten lassen sich mittels gesprochener Sprache steuern. Chatbots beschränken sich auf schriftliche Sprache. Das Grundprinzip ist aber jeweils dasselbe: Die Programme sind darauf ausgerichtet, dass sich ein Mensch auf natürliche Weise - in gesprochener oder geschriebener Sprache - mit ihnen unterhalten kann.

Laut der Studie „Customer Service 4.0 - Wie gut sind Chatbots?“ der Hochschule für Technik und Wirtschaft Berlin setzen immerhin neun von 30 DAX-Unternehmen Chatbots in der Kundenkommunikation ein. Die Brauchbarkeit der untersuchten Chatbots überzeugte zwar noch nicht wirklich, dennoch sehen die Autoren deren Einsatz positiv: „Mit den richtigen Optimierungsmaßnahmen bereichern Chatbots die Kommunikation zwischen Kunden und Unternehmen“, heißt es dort.

Intern können Mitarbeiter mit Sprachassistenten wie Alexa Räume buchen, Termine erstellen und Telefonkonferenzen anstoßen oder sie greifen über Sprachbefehle auf Daten von Microsofts Office 365, auf Exchange und die Google G Suite zu. Über sogenannte Business-Skills können weitere interne und externe Dienste verknüpft werden.

Bots wiederum unterstützen Unternehmen intern vor allem dabei, Fragen an den IT-Helpdesk zu beantworten oder Mitarbeiter zu begleiten. Wenn ein Außendienstler nach einer Dienstreise seine Reisekostenabrechnung macht, kann ein Bot ihn durch den Vorgang führen. Dabei lernen fortgeschrittene Bots dank KI laufend mit und übernehmen mit der Zeit zunehmend komplexere Aufgaben. Bots könnten auch Rechnungen kontieren und Zahlungsflüsse überwachen oder die nächsten Schritte in einem Bewerbungsprozess einleiten.

Extern werden Sprachassistenten und Chatbots vor allem bei der Interaktion mit Kunden eingesetzt. Unternehmen mit einem hohen Kommunikationsvolumen haben den meisten Nutzen von solchen Programmen, sagt Bitkom-Expertin Kristin Strauch. Das ist vor allem im Banken-, Finanzservices- und Versicherungssektor, im Einzelhandel, der Medien- und Entertainmentbranche und im Gesundheitswesen der Fall. Dort verrichten sie ihre Dienste im Callcenter, im Technical Support, bei der Bestellung von Produkten, in der Finanzverwaltung oder in der Beratung.

Service-Assistenten können im Rahmen einer Konversation dem Kunden gesuchte Informationen liefern und in seinem Auftrag handeln. Durch ihren Einsatz können Unternehmen Kosten sparen und Umsätze erhöhen, indem sie beispielsweise die Servicekräfte bei Routineaufgaben und einfachen Anfragen entlasten, Selfservice und Rund-um-die-Uhr-Erreichbarkeit ermöglichen, Mitarbeiter im Gespräch oder Chat mit Antwortoptionen unterstützen oder proaktiv Kunden kontaktieren und damit Anrufe vermeiden.

Studien zeigen, dass die Kundenzufriedenheit durch die Bereitstellung personalisierter Messaging-Dienste verbessert wird. Beispielsweise kann ein entsprechend programmierter Chatbot die Stimmung der Kunden erkennen und interpretieren, wann es an der Zeit ist, eine Anfrage an einen menschlichen Kundenbetreuer weiterzuleiten. Eine weitere Möglichkeit ist, ein CRM-System mit einem Chatbot zu verbinden und ihm dadurch den Zugang zu Kundeninformationen zu gewähren. Die Sparkassen in Deutschland operieren beispielsweise schon länger mit Chatbots und haben allein in einem Monat rund 10.000 Unique User über den Bot des Sparkassen-Finanz-Portals Linda betreut. „Chatbot-Lösungen erhöhen das Service-Level der Sparkassen nachhaltig und bedienen das zentrale Kundenbedürfnis, schnell und einfach die richtige Information zu erhalten - auch außerhalb der Geschäftszeiten“, erklärt David Gerdes, Senior-Produkt-Manager Dialog & Personalisation beim Sparkassen-Finanz-Portal.

6. Teil: „Assistenten im E-Commerce“

Assistenten im E-Commerce

Amazon Alexa: Musterbeispiel für die Fortschritte bei Sprachassistenten.
Quelle:
Amazon

Auch beim Kauf von Produkten werden große Hoffnungen auf Sprachassistenten gesetzt. Laut der Capgemini-Studie „Conversational Commerce“, für die mehr als 5.000 Verbraucher in den USA, Großbritannien, Frankreich und Deutschland befragt wurden, nutzen bereits 35 Prozent von ihnen diese Möglichkeit. Die Smart Speaker von Google und Amazon etwa nehmen Kundenanfragen in freier Sprache auf und übermitteln die gewünschten Auskünfte - vorausgesetzt, es besteht eine Schnittstelle vom Smart Speaker des Kunden zu den Service-Prozessen des Unternehmens. Der Vorteil: Die Bedienung per Sprache stellt für Kunden eine niedrige Hürde dar - Bestellungen können einfach in den Raum gesprochen werden.

Darüber hinaus sind Smart Speaker kosteneffiziente Anlaufstellen für Service und Support. Händler und Kaufhäuser können darüber Interessenten und Kunden einen innovativen und komfortablen Service bieten und Barrieren in der internetbasierten Interaktion zwischen Unternehmen und ihren Kunden abbauen. Auch für Marketing-Kampagnen bietet der neue Kommunikationskanal viel Potenzial. Marken und Unternehmen kommen so buchstäblich mit Kunden ins Gespräch. „Es ist fast ironisch, dass digitale Sprachverarbeitung und maschinelles Lernen es Unternehmen in bestimmten Situationen ermöglicht, tiefere und effektivere Beziehungen zu ihren Kunden aufzubauen“, erklärt Ingo Finck, Vice President Augmented Intelligence und Experte für KI bei Capgemini Consulting. „KI im Kontaktpunkt zum Kunden hilft, seine Ausgaben und Loyalität zu steigern.“

Letztendlich können Unternehmen, die ihren Kunden ein positiveres Kundenerlebnis bieten wollen, ihre Kommunikationskanäle auf die nächste Stufe heben - dank natürlicher Sprachverarbeitung im Kundenservice.

Fazit

Noch sind smarte Sprachanwendungen alles andere als perfekt. Doch viele digitale Sprachsysteme liefern bereits beeindruckende Resultate. Sieht man sich die immensen Fortschritte an, die in den vergangenen Jahren bei der Entwicklung digitaler Assistenten erzielt wurden, wird klar, dass wir hier erst am Anfang stehen.

Tabelle:

Tabelle öffnen

7. Teil: „Im Gespräch mit Kristin Strauch KI-Referentin beim Bitkom“

Im Gespräch mit Kristin Strauch KI-Referentin beim Bitkom

Zu den Gebieten, auf denen Künstliche Intelligenz in jüngster Zeit die größten Fortschritte gemacht hat, zählt die Sprachverarbeitung. Kristin Strauch, KI-Referentin beim Digitalverband Bitkom, erklärt die wichtigsten Innovationen und welches Potenzial sie den Unternehmen eröffnen.

com! professional: KI-basierte Sprachverarbeitung hat bedeutende Fortschritte gemacht. Woran liegt das?

Kristin Strauch: Dafür sind mehrere Entwicklungen verantwortlich. Erstens kann die Hardware - Prozessoren und Chips - immer mehr Datenmengen immer schneller verarbeiten und damit sprachbasierte KI-Systeme immer besser trainieren. Zweitens sind die Algorithmen und die Software deutlich stärker geworden. KI-Verfahren wie Deep Learning verhelfen auch der Sprachverarbeitung zu besseren Resultaten. Und drittens: Der Riesenfortschritt in der Erkennung von natürlicher Sprache selbst - das sogenannte Natural Language Processing (NLP) - ist der wesentliche Grund dafür, dass Gesprochenes und Geschriebenes als User Interface zwischen Mensch und Maschine genutzt werden kann.

com! professional: Worin sehen Sie die speziellen Herausforderungen bei Sprachsystemen?

Strauch: Sprachsysteme müssen nicht nur erkennen, was der Sprecher sagt oder schreibt. Sie müssen auch den Kontext berücksichtigen, in welchem die Kommunikation erfolgt. Diese Problematik haben Sprachassistenten wie Alexa, IBM Watson oder Google Home schon recht gut gemeistert - ansonsten hätten sie gar nicht den Massenmarkt erreicht.

com! professional: Was sind für Sie aktuell die wichtigsten Innovationen bei sprachverstehenden Systemen?

Strauch: Ich sehe die wichtigsten Innovationen im maschinellen Übersetzen, bei Textgenese-Tools und Sprachassistenten. Ein sehr schönes Beispiel für den erreichten Fortschritt sind Übersetzungsdienste. Syntax und Wortwahl der produzierten Texte wurden in den letzten zwei Jahren immer besser; es ist erstaunlich, was die Maschinen mittlerweile leisten.

Google Translate ist der wohl bekannteste Übersetzungsdienst, aber es gibt inzwischen auch ein deutsches Start-up namens DeepL. Die Gründer haben sehr viel mediale Aufmerksamkeit bekommen, weil deren Übersetzungsalgorithmus teilweise sogar bessere Ergebnisse liefert als der von Google Translate. Und das, obwohl sie vermutlich gar nicht so viele Daten haben wie Google.

com! professional: Was bringen Textgenese-Tools?

Strauch: Solche Systeme werden mit Big Data gefüttert, man kann sie dann befragen und das System generiert eigenständig Antworten auf die Fragen. GPT-2 von OpenAI - einem Nonprofit-Forschungsunternehmen in den USA - kann beispielsweise geschriebenen Text in so hoher Qualität generieren, dass man nicht mehr unterscheiden kann, ob er von einem Menschen oder von einer Maschine geschrieben wurde. Interessant ist, dass OpenAI den Systemcode aus ethischen Bedenken nicht oder nur in einer downgegradeten Version veröffentlicht hat. Die Verantwortlichen haben befürchtet, dass der Code zur Massenproduktion von Fake News führen könnte. Eine Forschergruppe vom MIT hat nun die These aufgestellt, dass ein Textgenese-System wie das von OpenAI auch Fake News automatisiert erkennen könnte.

com! professional: Bei welchen Sprachanwendungen sehen Sie das größte wirtschaftliche Potenzial?

Strauch: Eine eindeutige Hierarchie zu erstellen ist schwierig. Chatbots, Texterkennung und Textgenerierung sind sicherlich je nach Thema alle sehr wichtig. Je nachdem in welchen Bereichen ein Unternehmen unterwegs ist, ist das eine oder das andere relevanter.

com! professional: Gibt es Branchen oder Geschäftszweige, die besonders von der Sprachverarbeitung profitieren?

Strauch: Unternehmen mit einem hohen Kommunikationsvolumen haben den meisten Nutzen davon. Hier treten Kunden oft mit Mitarbeitern in Kontakt, weil sie ein bestimmtes Problem haben - beispielsweise möchten sie ihre Adresse ändern. Da sich die Probleme häufig gleichen, können die Antworten standardisiert werden, sodass Sprachsysteme oder Chatbots gut helfen können: Der Kunde nennt sein Problem und die Bots erkennen dann, was das Problem ist. Mit solchen Systemen kann der Kundenkontakt viel leichter und effizienter abgewickelt werden. Zumindest können die Anfragen vorsortiert werden, damit die Kunden schnell zum richtigen Ansprechpartner geleitet werden. Der Einsatz solcher Sprachsysteme ersetzt aber nicht Mitarbeiter, sondern die Sprachsysteme unterstützen den Mitarbeiter bei seiner Entscheidung.

com! professional: Wie beurteilen Sie die Chatbot-Technologie? Es wird gerne kolportiert, dass Menschen etwa bei schriftlichen Anfragen nicht merken, ob ein Bot oder ein Mensch antwortet.

Strauch: Bei standardisierten und einfachen Fragen ist das durchaus möglich. Bei komplexeren Fragen oder auch bei mündlichen Anfragen merkt man aber schnell, dass man es nicht mit einem Menschen zu tun hat.

com! professional: Was unterscheidet Chatbots von digitalen Assistenten?

Strauch: Für uns sind Chatbots eine Unterkategorie von digitalen Assistenten. Ein andere Unterkategorie sind Sprachassistenten wie Alexa, Apple HomePod, Google Home oder Cortana. Zwar können Chatbots theoretisch auch mit gesprochener Sprache umgehen, aber Chatbots, die schriftliche Anfragen bearbeiten, sind viel weiter verbreitet. Chatbots sind daher eher etwas textbezogenes.

com! professional: Welche Unternehmen setzen Chatbots in größerem Stil ein?

Strauch: Das sind vor allem B2C-Unternehmen mit viel Kundenkontakt wie große Telekommunikations-, Versicherungs- oder Stromkonzerne.

com! professional: Und außerhalb dieser Branchen?

Strauch: Beispielsweise in Industrie und Medizin. Wenn in der industriellen Produktion die Facharbeiter die Hände nicht frei haben und Maschinen oder Industrieroboter steuern müssen, haben Spracherkennung und Sprachbedienung viel Potenzial. Im Gesundheitswesen ist die Situation ähnlich. Hier leisten sprachbasierte Operationsassistenten gute Dienste, weil der Operateur die Hände nicht frei hat. Bei solchen Anwendungen haben Sprachsysteme einen hohen Nutzwert.

com! professional: Wie sehen Sie die weitere Entwicklung von sprachverstehenden Systemen?

Strauch: Der Markt wird wachsen. Laut unserer Consumer-Technology-Studie hat bereits jeder achte Bundesbürger digitale Sprachassistenten wie Alexa im Haus. Und die Tendenz ist steigend. Die Nutzung von Sprachassistenten und Chatbots wird auch deshalb zunehmen, weil Natural Language Processing in der Interaktion mit Menschen immer genauer und immer intuitiver wird.

mehr zum Thema

Codeerzeugung per KI