Künstliche Intelligenz
08.05.2024
Web Scraping mit KI

Scrapegraph-ai - per Prompt ausgewählte Inhalte einer Website laden

ScrapeGraphAI
Mittels Web Scraping lassen sich Daten von Websites laden. Das Problem dabei: Die Daten sind in einem Berg von HTML vergraben. Eine Python-Bibliothek hilft die Spreu vom Weizen zu trennen - mit Hilfe von Künstlicher Intelligenz.
Für einen Menschen ist sofort klar, wo auf einer Website bestimmte Inhalte stehen. Für ihn wäre es damit ein Leichtes, gewünschte Daten herauszukopieren. Für Software hingegen stellt das eine schwierige Aufgabe dar, sind die Daten doch in einem Berg von HTML vergraben. 
Es gibt viele Bibliotheken, die dabei helfen. Meist muss man dann aber über XPath-Ausdrücke die gewünschten Daten im HTML-Baum identifizieren. 
Scrapegraph-ai geht einen anderen Weg. Die Python-Bibliothek holt die Daten von der Website und bereitet sie wunschgemäß auf. Dabei nimmt sie aber die KI von OpenAI zu Hilfe. So lässt sich zum Beispiel folgende Anfrage formulieren und Scrapegraph-ai übergeben: 
Code-Beispiel
1
2
smart_scraper_graph = SmartScraperGraph(
  prompt="List me all the projects with their descriptions.",
 
Code per E-Mail versenden

Wie der Code zeigt, lässt sich hier einfach ein Prompt in natürlicher Sprache formulieren. Führt man den Code aus, gibt die Bibliothek eine Json-Liste zurück, die die Projekte enthält: 
Code-Beispiel
1
2
{
  "projects": [
 
Code per E-Mail versenden

Sie können die Bibliothek online ausprobieren. Allerdings ist ein API-Key von OpenAI nötig und natürlich eine gefüllte Quota-Börse. 

mehr zum Thema