14.08.2023
Alibaba Cloud
Vortrainierte LLMs für die Open-Source-Community
Autor: Bernhard Lauer
alibabacloud.com
Alibaba Cloud veröffentlicht sein 7-Milliarden-Parameter-LLM-Modell Qwen-7B sowie die Chat-optimierte Version Qwen-7B-Chat als Open Source.
Im April 2023 hat Alibaba Cloud sein neuestes generatives KI-Modell "Tongyi Qianwen" vorgestellt. Nun öffnet das Unternehmen den Quellcode von zwei Large Language Models (LLM), Qwen-7B und die Chat-optimierte Version Qwen-7B-Chat, mit denen Tongyi Qianwen trainiert wurde, für die Open-Source-Gemeinschaft.
In dem Bestreben, KI-Technologien zu demokratisieren, werden der Code, die Modellgewichte und die Dokumentation der Modelle für Akademiker, Forscher und kommerzielle Einrichtungen weltweit frei zugänglich sein. Für die kommerzielle Nutzung sollen die Modelle für Unternehmen mit weniger als 100 Millionen monatlich aktiven Nutzern kostenlos zur Verfügung stehen. Programme mit mehr Nutzern können eine Lizenz bei Alibaba Cloud beantragen.
Beide LLMs können laut Alibaba Cloud in Cloud- und On-Premises-Infrastrukturen eingesetzt werden. Dies ermöglicht den Anwendern eine Feinabstimmung der Modelle und das effektive und kosteneffiziente Erstellen eigener generativer KI-Fähigkeiten.
So charakterisiert Alibaba Cloud die beiden jetzt freigegebenen LLMs:
Qwen-7B wurde mit über 2 Billionen Token trainiert, darunter chinesische, englische und andere mehrsprachige Materialien, Code und Mathematik, die allgemeine und berufliche Bereiche abdecken. Seine Kontextlänge erreicht 8K. Beim Training wurde das Qwen-7B-Chat-Modell mit menschlichen Anweisungen abgeglichen. Sowohl das Qwen-7B- als auch das Qwen-7B-Chat-Modell können in Cloud- und On-Premises-Infrastrukturen eingesetzt werden. Dies ermöglicht den Anwendern eine Feinabstimmung der Modelle und die effektive und kosteneffiziente Erstellung eigener hochwertiger generativer Modelle.
Qwen-7B wurde mit über 2 Billionen Token trainiert, darunter chinesische, englische und andere mehrsprachige Materialien, Code und Mathematik, die allgemeine und berufliche Bereiche abdecken. Seine Kontextlänge erreicht 8K. Beim Training wurde das Qwen-7B-Chat-Modell mit menschlichen Anweisungen abgeglichen. Sowohl das Qwen-7B- als auch das Qwen-7B-Chat-Modell können in Cloud- und On-Premises-Infrastrukturen eingesetzt werden. Dies ermöglicht den Anwendern eine Feinabstimmung der Modelle und die effektive und kosteneffiziente Erstellung eigener hochwertiger generativer Modelle.
Das vortrainierte Qwen-7B-Modell zeichnete sich im Massive Multitask Language Understanding (MMLU)-Benchmark aus und erreichte einen beachtlichen Wert von 56,7, womit es andere wichtige vortrainierte Open-Source-Modelle mit ähnlichem Umfang oder sogar einige größere Modelle übertraf. Bei diesem Benchmark wird die Multitasking-Genauigkeit eines Textmodells bei 57 verschiedenen Aufgaben bewertet, die Bereiche wie elementare Mathematik, Informatik und Recht umfassen. Darüber hinaus erreichte Qwen-7B die höchste Punktzahl unter Modellen mit gleichwertigen Parametern in der Rangliste von C-Eval, einer umfassenden chinesischen Evaluierungssuite für grundlegende Modelle. Sie deckt 52 Fächer in vier großen Fachbereichen ab, darunter Geisteswissenschaften, Sozialwissenschaften, MINT und andere. Darüber hinaus erreichte Qwen-7B herausragende Leistungen bei Benchmarks in den Bereichen Mathematik und Codegenerierung, wie GSM8K und HumanEval.
Weitere Informationen zu Qwen-7B und Qwen-7B-Chat finden Sie auf den Seiten von ModelScope, Hugging Face und GitHub.
Google I/O 2024
Google Gemini ermöglicht mehr Funktionen und Individualität
Der große Star bei der diesjährigen Google-Entwicklerkonferenz I/O war Gemini. Die KI-Technologie hält Einzug in diverse Anwendungen und bietet neue Möglichkeiten bei der Entwicklung und Nutzung bekannter und neuer Google-Apps.
>>
Open Access
Plusnet und Deutsche Giganetz kooperieren
Die Deutsche Giganetz GmbH schließt sich der Open Access Plattform von Plusnet an. Durch die Kooperation kann Plusnet auf 500.000 Glasfaseranschlüsse in elf Bundesländern zugreifen.
>>
Konferenz
Microsoft Build vom 21. bis 23 Mai
Für die Build 2024 plant Microsoft ein umfangreiches Programm mit über 100 Sessions. Viele Neuigkeiten soll es geben - vor allem zum Thema Künstliche Intelligenz.
>>
Künstliche Intelligenz
OpenAI: „GPT-4o“ kann jetzt auch sprechen
Die Entwicklerfirma OpenAI hat das neue KI-Modell „GPT-4o“ vorgestellt. Dieses kann mit menschlicher Stimme mit Nutzern interagieren und auch zwischen verschiedenen Sprachen übersetzen.
>>