26.08.2021
Alibaba Cloud
Maschine übertrifft Menschen im Verstehen von Bildern
Autor: Bernhard Lauer
Alibaba Cloud
Alibaba Cloud hat den ersten Platz in der jüngsten globalen VQA-Rangliste (Visual Question Answering) erreicht und übertrifft damit die Leistung eines Menschen im gleichen Kontext.
Laut Alibaba ist es das erste Mal, dass eine Maschine Vorteile gegenüber dem Menschen im Verstehen von Bildern für die Beantwortung von Textfragen hat. Der Alibaba-Algorithmus erzielte eine Trefferquote von 81,26 Prozent bei der Beantwortung von Fragen zu Bildern, verglichen mit der Leistung des Menschen von 80,83 Prozent (im Teststandardteil).
Der Wettbewerb, der seit 2015 jährlich organisiert wird, zieht globale Akteure wie Facebook, Microsoft und die Stanford University an. Bei der Bewertung werden ein Bild und eine dazugehörige Frage in natürlicher Sprache präsentiert, auf die Teilnehmer eine präzise Antwort in natürlicher Sprache geben sollen. In diesem Jahr umfasste der Wettbewerb mehr als 250000 Bilder und 1,1 Millionen Fragen.
Der Durchbruch der maschinellen Intelligenz bei der Beantwortung bildbezogener Fragen wurde dank des innovativen Algorithmusdesigns der Alibaba DAMO Academy, der globalen Forschungs- und Entwicklungsinitiative der Alibaba Group, möglich gemacht. Durch den Einsatz der firmeneigenen Technologien – einschließlich verschiedener visueller Darstellungen, multimodaler vortrainierter Sprachmodelle, adaptiver crossmodaler semantischer Fusion und Alignment-Technologie – konnte das Alibaba-Team nicht nur erhebliche Fortschritte bei der Analyse der Bilder und dem Verständnis der Frageintention erzielen, sondern auch bei der Beantwortung der Fragen mit einer angemessenen Argumentation, die sich in einem authentischen Gesprächsstil ausdrückt.
Die VQA-Technologie wurde bereits in großem Umfang im gesamten Ökosystem von Alibaba eingesetzt. So wurde sie beispielsweise in Alibabas intelligentem Chatbot AlimeShop Assistant implementiert, der von zehntausenden Händlern auf Alibabas Einzelhandelsplattformen genutzt wird.
VQA kann kann beispielsweise bei der Suche nach Produkten auf E-Commerce-Websites, zur Unterstützung der Analyse medizinischer Bilder für die Erstdiagnose von Krankheiten sowie beim intelligenten Fahren eingesetzt werden, da der KI-Assistent grundlegende Analysen von Fotos, die von der Fahrzeugkamera aufgenommen wurden, anbieten kann.
Der Wettbewerb, der seit 2015 jährlich organisiert wird, zieht globale Akteure wie Facebook, Microsoft und die Stanford University an. Bei der Bewertung werden ein Bild und eine dazugehörige Frage in natürlicher Sprache präsentiert, auf die Teilnehmer eine präzise Antwort in natürlicher Sprache geben sollen. In diesem Jahr umfasste der Wettbewerb mehr als 250000 Bilder und 1,1 Millionen Fragen.
Der Durchbruch der maschinellen Intelligenz bei der Beantwortung bildbezogener Fragen wurde dank des innovativen Algorithmusdesigns der Alibaba DAMO Academy, der globalen Forschungs- und Entwicklungsinitiative der Alibaba Group, möglich gemacht. Durch den Einsatz der firmeneigenen Technologien – einschließlich verschiedener visueller Darstellungen, multimodaler vortrainierter Sprachmodelle, adaptiver crossmodaler semantischer Fusion und Alignment-Technologie – konnte das Alibaba-Team nicht nur erhebliche Fortschritte bei der Analyse der Bilder und dem Verständnis der Frageintention erzielen, sondern auch bei der Beantwortung der Fragen mit einer angemessenen Argumentation, die sich in einem authentischen Gesprächsstil ausdrückt.
Die VQA-Technologie wurde bereits in großem Umfang im gesamten Ökosystem von Alibaba eingesetzt. So wurde sie beispielsweise in Alibabas intelligentem Chatbot AlimeShop Assistant implementiert, der von zehntausenden Händlern auf Alibabas Einzelhandelsplattformen genutzt wird.
VQA kann kann beispielsweise bei der Suche nach Produkten auf E-Commerce-Websites, zur Unterstützung der Analyse medizinischer Bilder für die Erstdiagnose von Krankheiten sowie beim intelligenten Fahren eingesetzt werden, da der KI-Assistent grundlegende Analysen von Fotos, die von der Fahrzeugkamera aufgenommen wurden, anbieten kann.
Swisscom
Neue Cyberbedrohungen auf dem Radar
Der neue Cyber Security Threat Radar von Swisscom zeigt die Angriffsmethoden und das Vorgehen von Cyberkriminellen. Er beleuchtet neu auch die Entwicklungen in den Bereichen "Disinformation & Destabilisation", "Manipulated Generative AI" und "Unsecure IoT/OT-Devices".
>>
Künstliche Intelligenz
Memary - Langzeitgedächtnis für autonome Agenten
Das Hauptziel ist es, autonomen Agenten die Möglichkeit zu geben, ihr Wissen über einen längeren Zeitraum hinweg zu speichern und abzurufen.
>>
Cloud Infrastructure
Oracle mit neuen KI-Funktionen für Sales, Marketing und Kundenservice
Neue KI-Funktionen in Oracle Cloud CX sollen Marketingspezialisten, Verkäufern und Servicemitarbeitern helfen, die Kundenzufriedenheit zu verbessern, die Produktivität zu steigern und die Geschäftszyklen zu beschleunigen.
>>
Datenverfügbarkeit
Where EDGE Computing meets 5G
Logistik- und Produktionsprozesse sollen flüssig und fehlerfrei laufen. Maschinen und Personal müssen im Takt funktionieren. Zulieferer haben just-in-time anzuliefern. Dies stellt hohe Anforderungen an die lokale Datenübertragung. Welche Technik bietet sich dazu an?
>>