30.11.2017
Common Voice
Mozilla veröffentlicht riesigen Sprachdatensatz
Autor: Stefan Bordel
Mozilla
Mozilla hat einen riesigen Sprachdatensatz veröffentlicht, der nun Entwicklern frei zur Verfügung steht. Die Sammlung wurde im Rahmen des Common-Voice-Projekts erhoben.
Mozilla über Common Voice unzählige Sprachproben, die Freiwillige über die Webseite des Projekts sowie über die dazugehörige iOS-App einsprechen. Jetzt veröffentlicht der Open-Source-Spezialist einen ersten Sprachdatensatz, der etwa 500 Stunden an Sprachaufnahmen enthält. Dieser setzt sich aus beinahe 400.000 Aufnahmen von 200.000 unterschiedlichen Sprechern zusammen und stellt damit laut Mozilla schon jetzt den zweitgrößten öffentlichen Sprachdatensatz dar. In Zukunft werde die Datenbank sukzessive ausgebaut und um weitere Sprachen ergänzt - derzeit beschränkt sich Common Voice auf Englisch.
Seit Juli sammelt Die Daten sollen Entwicklern als Grundlage für eine freie Spracherkennung dienen. Bislang fehlen vielen Forschern und Start-ups die notwendige Daten, um effizient an qualitativ hochwertigen Spracherkennungssystemen arbeiten zu können. Die derzeit verfügbaren Sprachdaten seien für dieses Vorhaben nicht ausreichend und gleichzeitig zu kostspielig. Diese Probleme sollen dank der neuen Sprachdatenbank der Vergangenheit angehören. Mozilla nutzt den Datensatz außerdem zur Entwicklung einer offenen Speech-To-Text-Engine, die sich als freie Alternative zu den Lösungen von Google, Microsoft und Co. etablieren soll.
Mozilla DeepSpeech
Neben den Common-Voice-Daten hat Mozilla des Weiteren die Open-Source-Spracherkennungs-Engine DeepSpeech veröffentlicht. Für diese hat das Machine-Learning-Team des Firefox-Entwicklers die DeepSpeech-Architektur des chinesischen Internet-Konzerns Baidu auf Googles AI-Bibliothek TensorFlow implementiert. Die Verarbeitung der Datensätze über diese Lösung erfolgte durch ein Rechnercluster mit insgesamt 20 Grafikkarten vom Typ Titan X / XPs. Die Hardware war eine ganze Woche mit der Berechnung der Daten beschäftigt, bis die Engine für die gewünschte Leistung trainiert war. Die fertige Engine erreicht dank des Trainings eine Fehlerquote bei der Spracherkennung von lediglich 6,5 Prozent. Zum Vergleich: Die menschliche Fehlerquote soll bei 5,83 Prozent liegen.
Das fertig trainierte Modell von DeepSpeech steht ebenfalls zum freien Download bereit. Die Engine kann auf herkömmlichen PCs für die Spracherkennung in Echtzeit eingesetzt werden. Sämtliche Berechnungen erfolgen dabei lokal ohne Cloud-Anbindung. Künftig wolle man die Effizienz von DeepSpeech weiter erhöhen, damit die Lösung schließlich auch auf mobilen Geräten oder Entwicklerboards wie dem Raspberry Pi lauffähig ist.
Künstliche Intelligenz
Memary - Langzeitgedächtnis für autonome Agenten
Das Hauptziel ist es, autonomen Agenten die Möglichkeit zu geben, ihr Wissen über einen längeren Zeitraum hinweg zu speichern und abzurufen.
>>
Cloud Infrastructure
Oracle mit neuen KI-Funktionen für Sales, Marketing und Kundenservice
Neue KI-Funktionen in Oracle Cloud CX sollen Marketingspezialisten, Verkäufern und Servicemitarbeitern helfen, die Kundenzufriedenheit zu verbessern, die Produktivität zu steigern und die Geschäftszyklen zu beschleunigen.
>>
Reactive mit Signals
Neuer Vorschlag für Signals in JavaScript
Das für die Standardisierung von JavaScript verantwortliche Komitee macht einen Vorschlag für die Einführung von Signalen in die Programmiersprache. Signals sollen reaktives Programmieren in JavaScript einfacher machen.
>>
Datenverfügbarkeit
Where EDGE Computing meets 5G
Logistik- und Produktionsprozesse sollen flüssig und fehlerfrei laufen. Maschinen und Personal müssen im Takt funktionieren. Zulieferer haben just-in-time anzuliefern. Dies stellt hohe Anforderungen an die lokale Datenübertragung. Welche Technik bietet sich dazu an?
>>