Künstliche Intelligenz
01.09.2017
Künstliche Intelligenz (KI) als Service
1. Teil: „Cloud-Dienste erleichtern den KI-Einstieg“

Cloud-Dienste erleichtern den KI-Einstieg

Künstliche Intelligenz (KI)Künstliche Intelligenz (KI)Künstliche Intelligenz (KI)
Bild. Shutterstock / vchal
Der Einsatz von Künstlicher Intelligenz ist nicht mehr nur Konzernen mit großen Budgets vorbehalten. Fertige Module und API-Services liefern schnelle Ergebnisse.
Das Interesse am Einsatz Künstlicher Intelligenz (KI) wächst rapide. Beim Analystenhaus Gartner hat sich beispielsweise die Zahl der Kundenanfragen zu diesem Thema von 2014 auf 2015 mehr als versechsfacht, im Jahr darauf erhöhte sie sich noch einmal um das Dreifache.
Zur steigenden Nachfrage trägt nicht zuletzt die zunehmende „Demokratisierung“ von KI und Machine Learning (ML) in den vergangenen zwei bis drei Jahren bei. Leistungsfähige, für das maschinelle Lernen optimierte Hardware, der freie Zugang zu einem umfangreichen Angebot verschiedenster Cloud-Computing-Ressourcen und die Verfügbarkeit von Machine-Learning-Frameworks haben die Entwicklung eigener KI-Anwendungen stark vereinfacht. Anwender benötigen aber immer noch Spezialwissen, um neuronale Netze und andere Machine-Learning-Technologien einsetzen, Modelle trainieren und Ergebnisse sinnvoll interpretieren zu können. Leichter geht es mit KI-Services, die sich direkt per API aufrufen, in Webseiten oder Applikationen einbinden und für die Erstellung von Sprach- und Chatbots nutzen lassen. „Alle großen Provider haben verstanden, dass KI ein spannendes Thema ist, und adressieren derzeit mit solchen Services verstärkt auch Zielgruppen außerhalb der typischen Entwickler-Communitys“, erklärt Moritz Strube, Senior Analyst bei Crisp Research. Alexander Linden, Research Director bei Gartner, bestätigt diesen Trend: „Aktuell gibt es bei den KI-Services einen starken Wettbewerb zwischen den Providern, keiner will sich abhängen lassen.“
Ein weiterer Vorteil der Services liegt darin, dass sie schnell vorzeigbare Ergebnisse liefern. „Es ist sehr einfach, mit diesen API-Services einen Prototypen zu bauen, beispielsweise einen Chat­bot“, sagt Daniel Wajngarten, Managing Director und Partner beim Unternehmen Data Reply, das sich auf Data-Science- und KI-Projekte spezialisiert hat. Roman Schacherl, Geschäftsführer des Microsoft-Partners softaware gmbh, nutzt die Services, um deren Möglichkeiten vor Ort beim Kunden erlebbar zu machen: „Entscheider können sich unter maschinellem Lernen und Künstlicher Intelligenz oft wenig vorstellen, deshalb demonstriere ich den Nutzen gerne direkt.“

Kategorien der KI-Services

Das Angebot an solchen APIs ist groß. Jeder Anbieter teilt seine Services in unterschiedliche Segmente ein und gibt ihnen diverse Namen, was das Vergleichen erschwert. Prinzipiell lassen sich alle KI-Services in folgende Kategorien einordnen:
Bildanalyse: Fotos oder Videos werden anhand visueller Merkmale auf Inhalte hin analysiert. Je nach Ausprägung des Dienstes ist es möglich, Objekte zu identifizieren und Szenen zu kategorisieren. Erkennt der Service ein Gesicht auf dem Foto, schätzt er Geschlecht, Alter und Stimmung der abgebildeten Person ein und gibt dazu in der Regel auch einen Prozentwert an, der aussagt, wie sicher sich der Dienst mit der Bestimmung ist. Je nach Anbieter liefern die Dienste zusätzlich detaillierte Informationen über Frisur, Make-up und das Vorhandensein von Kopftüchern, Bärten oder Brillen.
Gesprochene Sprache und Text: Im Englischen wird mit den Kategorien „Speech“ und „Language“ eine Unterscheidung getroffen, die sich nur schwer ins Deutsche übertragen lässt. „Speech“ umfasst Services, die gesprochene Sprache in Text übersetzen und umgekehrt (Speech to Text, Text to Speech). Aber auch Dienste für die Sprecher-Erkennung oder für Übersetzungen können in diese Kategorie eingeordnet werden.
Sprachanalyse: Diese im Englischen mit Language bezeichnete Kategorie umfasst Services der semantischen Analyse. Sie erlauben es beispielsweise, das Thema eines Textes zu erkennen und kontextgerecht auf eine Frage zu reagieren, können Stimmungen und Bewertungen in einem Text erfassen und Textformen unterscheiden, etwa eine Frage von einer Beschwerde oder einer Bestellung.
Wissen: Bei diesen Services geht es im Wesentlichen da­rum, Daten aufzubereiten, auszuwerten oder zur Verfügung zu stellen. Sie übersetzen beispielsweise in natürlicher Sprache formulierte Fragen in maschinenlesbare Search-Strings, durchsuchen riesige Datenmengen nach Strukturen und helfen sogar bei Entscheidungen, indem sie das Datenmaterial entsprechend vorbereiten und bewerten.
2. Teil: „Einsatzszenarien“

Einsatzszenarien

Dienste zur Spracherkennung und -ausgabe kommen vor allem in automatisierten Konversations-Tools wie Chat- und Sprachbots oder digitalen Assistenten zum Einsatz. Bots beantworten automatisch Kundenanfragen, nehmen Bestellungen auf, liefern Nachrichten, tragen Termine ein und erinnern daran.
Für simple Chatbots, die nur Informationen liefern, reicht es, verschiedene Varianten einer Frage zu erkennen und entsprechende Antworten dafür zu definieren. So antwortet ein einfacher Wetter-Bot beispielsweise auf die Frage „Wie wird das Wetter morgen?“ mit „Die Regenwahrscheinlichkeit beträgt 80 Prozent“. Solche Konversationen sind allerdings schnell zu Ende und der Anwender merkt bald, dass er es nicht mit einem menschlichen Gegenüber zu tun hat. Entwickler kombinieren deshalb häufig die Services für Sprach­erkennung und -ausgabe (Speech) mit denen für das Sprachverständnis (Language). Ein so programmierter „intelligenter“ Bot erkennt die Absicht des Sprechers oder Texters, kann das Gesagte oder Geschriebene in einen Kontext einordnen und die Konversation über mehrere Stufen hinweg führen.
Ähnlich vielfältig sind die Möglichkeiten, Services zur Bildanalyse zu nutzen. Sie vereinfachen etwa die Suche nach Motiven in einer Bilddatenbank und erlauben es, diese automatisiert zu klassifizieren.
Allen KI-Services gemeinsam ist, dass sie sich einfach per REST-API (Representational State Transfer) und URI-Aufruf (Uniform Resource Identifier) in eine Applikation oder einen Bot integrieren lassen.
Die Wahl des jeweiligen Anbieters hängt deshalb stark vom bereits genutzten Ökosystem ab. So lassen sich beispielsweise die AWS-KI-Services nahtlos mit anderen Amazon-Diensten kombinieren. Für welche Plattform man sich entscheidet, ist also eng damit verknüpft, ob und in welchem Ausmaß bereits die Cloud-Dienste eines Providers genutzt werden und ob diese inte­griert werden sollen.
Die folgenden Abschnitte beschreiben die KI-Services von Amazon Web Services (AWS), Google, IBM und Microsoft. Detaillierte Auflistungen der Funktionen sowie Angaben zu den Preisen liefern die dazugehörigen Tabellen.
Tabelle:

3. Teil: „Amazon Web Services (AWS)“

Amazon Web Services (AWS)

AWS bündelt seine KI-Dienste im Bereich Amazon KI. Sie gliedern sich in die Segmente Spracherkennung und -verständnis, Sprachausgabe und Bildanalyse. Das Angebot scheint auf den ersten Blick recht gering zu sein, vergleicht man es mit dem von Microsoft und IBM. Die schiere Zahl der Services sagt allerdings auch nur bedingt etwas über den Leistungsumfang aus. Während Amazon beispielsweise Funktionen für die Spracherkennung und das Sprachverständnis in einem einzigen Dienst, Amazon Lex, bündelt, sind diese bei Microsoft auf fünf verschiedene APIs verteilt.
Lex kann Sprache in Text umwandeln und diesen hinsichtlich Sprecherabsicht und Kontext analysieren. Mit der Hilfe des Services sollen sich einfach Chatbots entwickeln lassen, die sich in natürlicher Sprache mit dem Nutzer unterhalten.
Als Gegenstück zu Lex konvertiert Amazon Polly Text in gesprochene Sprache. Aktuell stehen 48 verschiedene Männer- und Frauenstimmen in 17 Sprachen sowie 7 Sprachvarianten zur Verfügung. Die Nutzung gestaltet sich einfach: Der Anwender sendet über die API von Polly den Text, das System gibt einen Audiostream zurück, der direkt wiedergegeben oder in einem Audioformat wie MP3 gespeichert wird.
Amazon Rekognition ist der Bilderkennungsdienst von AWS. Der Service kann nicht nur Objekte wie Fahrzeuge, Haustiere oder Möbel, sondern auch den Kontext einer Aufnahme identifizieren und so zum Beispiel erkennen, ob es sich um eine Strandszene oder einen Sonnenuntergang handelt. Inhalte lassen sich anhand einer hierarchischen Kriterienliste als mehr oder weniger jugendfrei klassifizieren. Gesichter kann Rekognition auf Merkmale, Stimmungen und Geschlecht analysieren, mehrere Aufnahmen miteinander vergleichen, ähnliche Gesichter in einer Bildersammlung finden oder Prominente identifizieren.
Tabelle:

4. Teil: „Google Cloud AI & IBM Watson“

Google Cloud AI & IBM Watson

Google präsentiert seine Services für Künstliche Intelligenz unter dem Begriff Cloud AI. Ähnlich wie AWS fasst auch Google Funktionen für die Bild- und Texanalyse zusammen.
Die Cloud Vision API kann Objekte auf Bildern erkennen und in mehrere Tausend verschiedene Kategorien einteilen. Auch einzelne, bekannte Objekte wie der Eiffelturm lassen sich finden, ebenso wie Prominente oder Logos. Eine weitergehende Personenerkennung, etwa über den Vergleich von Bildern, wird nicht unterstützt. Text erkennt die API ebenfalls, sie kann automatisch die Sprache identifizieren, in der er geschrieben ist. Nicht jugendfreie oder gewaltverherrlichende Inhalte lassen sich feststellen und blocken.
Für Spracherkennung und Textanalyse sind Cloud Speech API und Cloud Natural Language API zuständig. Die Speech API kann gesprochene Wörter und Sätze aus über 80 Sprachen und Sprachvarianten in geschriebenen Text umsetzen. Die Textanalyse-API zerlegt Sätze in ihre grammatikalischen Bestandteile und extrahiert aus Texten Informationen über Personen oder Produkte. Die API kann außerdem die Gesamtstimmung feststellen, in der ein längerer Text geschrieben ist.
Noch in einem frühen Alpha-Entwicklungsstadium befindet sich die Cloud Jobs API. Sie soll Stellenanbietern und -suchenden das Finden und Besetzen einer Position erleichtern. Der Service versucht beispielsweise, fach- oder unternehmensspezifische Formulierungen in einer Stellenbeschreibung so in typische Suchbegriffe zu übersetzen, dass Kandidaten die Position auch wirklich finden können.

IBM Watson

Das Angebot an API-basierten Services ist bei IBM unter der Bezeichnung Watson ähnlich reichhaltig wie bei Microsoft. Mit dem Dienst Conversation lassen sich beispielsweise Chatbots und virtuelle Assistenten erstellen. Der Entwickler definiert dafür einen sogenannten Workspace, der Trainingsdaten und Dialoge enthält. Letztere regeln, wie der Bot auf Fragen reagieren soll. Dazu kann der Service die Absicht (Intent) des Nutzers sowie den Kontext und das Objekt der Anfrage (Entity) erkennen. Conversation lässt sich mit anderen Watson-Services wie Speech to Text oder dem Tone Analyzer kombinieren.
Sehr viel Wert legt der Anbieter auf den Bereich Dokumentenanalyse. Services wie Document Conversion, Natural Language Classifier, Retrieve and Rank und Discovery erlauben es, große Textmengen zu konvertieren, zu klassifizieren, nach relevanten Informationen zu durchsuchen und diese dar­zustellen.
Außergewöhnlich ist der Service Personality Insights. Der Dienst versucht, mit Hilfe linguistischer Analysen in E-Mails, Blog-Posts, Tweets, Kommentaren oder Forenbeiträgen Persönlichkeitsmerkmale des Schreibers zu finden. Er kann außerdem die Vorlieben eines Konsumenten für bestimmte Produkte, Services oder Aktivitäten analysieren. Unternehmen sollen damit Kunden besser verstehen, ihre Zufriedenheit steigern, ihnen maßgeschneiderte Angebote unterbreiten und so Kundenbindung und Umsatz steigern können.
5. Teil: „Microsoft Azure Cognitive Services“

Microsoft Azure Cognitive Services

Das Angebot an KI-Services ist bei Microsoft deutlich differenzierter als bei AWS. Das Unternehmen bietet auf seiner Cloud-Plattform Azure mit den Cognitive Services derzeit 30 APIs für die Integration von KI-Fähigkeiten in eigene Projekte. Viele sind allerdings erst als Vorschau verfügbar und für den Produktiveinsatz noch nicht geeignet.
Im Bereich Bildanalyse lassen sich mit Hilfe der APIs Gesichter, Emotionen und Personen erkennen, Bildinhalte analysieren, Text in Bildern identifizieren und extrahieren sowie nicht jugendfreie Bild- und Textinhalte erkennen.
Im Bereich Sprache gibt es APIs für die Sprach- und Text­erkennung, für Übersetzungen und für Textanalyse. Empfehlungs-, Such- und Entscheidungs-APIs sollen den Erwerb von Wissen, dessen Analyse und darauf basierende Entscheidungen erleichtern. Microsoft bietet außerdem Funktionen seiner Suchmaschine Bing als APIs an, mit denen sich Apps und Webseiten um Funktionen wie intelligente Suchvorschläge, Video- oder Bildersuche erweitern lassen.
Die Vielzahl der Microsoft-Services scheint auf den ersten Blick verwirrend. Die Kleinteiligkeit ist laut Microsoft aber durchaus beabsichtigt, um die Dienste flexibel kombinieren zu können.
Auch Roman Schacherl von softaware findet die Ausdifferenzierung gut: „Hier werden Themen mundgerecht aufbereitet und zur Verfügung gestellt, deren Umsetzung im Detail für die Mehrzahl der Entwickler eine große Herausforderung darstellen würde.“

mehr zum Thema