08.05.2024
Web Scraping mit KI
Scrapegraph-ai - per Prompt ausgewählte Inhalte einer Website laden
Autor: Online Redaktion
ScrapeGraphAI
Mittels Web Scraping lassen sich Daten von Websites laden. Das Problem dabei: Die Daten sind in einem Berg von HTML vergraben. Eine Python-Bibliothek hilft die Spreu vom Weizen zu trennen - mit Hilfe von Künstlicher Intelligenz.
Für einen Menschen ist sofort klar, wo auf einer Website bestimmte Inhalte stehen. Für ihn wäre es damit ein Leichtes, gewünschte Daten herauszukopieren. Für Software hingegen stellt das eine schwierige Aufgabe dar, sind die Daten doch in einem Berg von HTML vergraben.
Es gibt viele Bibliotheken, die dabei helfen. Meist muss man dann aber über XPath-Ausdrücke die gewünschten Daten im HTML-Baum identifizieren.
Scrapegraph-ai geht einen anderen Weg. Die Python-Bibliothek holt die Daten von der Website und bereitet sie wunschgemäß auf. Dabei nimmt sie aber die KI von OpenAI zu Hilfe. So lässt sich zum Beispiel folgende Anfrage formulieren und Scrapegraph-ai übergeben:
Code-Beispiel
1 2 |
smart_scraper_graph = SmartScraperGraph( |
…
Wie der Code zeigt, lässt sich hier einfach ein Prompt in natürlicher Sprache formulieren. Führt man den Code aus, gibt die Bibliothek eine Json-Liste zurück, die die Projekte enthält:
Code-Beispiel
Sie können die Bibliothek online ausprobieren. Allerdings ist ein API-Key von OpenAI nötig und natürlich eine gefüllte Quota-Börse.
VS Code Windows und Mac
Brauchbare Alternative
Das C# Dev Kit for Visual Studio Code könnte eine Alternative für Entwickler sein, die weiterhin macOS nutzen möchten. Unser Schwesterportal dotnetpro hat es auf den Prüfstand gestellt.
>>
Google I/O 2024
Google Gemini ermöglicht mehr Funktionen und Individualität
Der große Star bei der diesjährigen Google-Entwicklerkonferenz I/O war Gemini. Die KI-Technologie hält Einzug in diverse Anwendungen und bietet neue Möglichkeiten bei der Entwicklung und Nutzung bekannter und neuer Google-Apps.
>>
Konferenz
Microsoft Build vom 21. bis 23 Mai
Für die Build 2024 plant Microsoft ein umfangreiches Programm mit über 100 Sessions. Viele Neuigkeiten soll es geben - vor allem zum Thema Künstliche Intelligenz.
>>
Künstliche Intelligenz
OpenAI: „GPT-4o“ kann jetzt auch sprechen
Die Entwicklerfirma OpenAI hat das neue KI-Modell „GPT-4o“ vorgestellt. Dieses kann mit menschlicher Stimme mit Nutzern interagieren und auch zwischen verschiedenen Sprachen übersetzen.
>>