🚀 Suchen Sie nach einem noch schnelleren und einfacheren Weg, um im großen Maßstab zu scrapen (nur 5 Codezeilen)? Schauen Sie sich unsere erweiterte Version auf ScrapeGraphAI.com an! 🚀
English | 中文 | 日本語 | 한국어 | Русский | Türkçe | Deutsch | Español | français | Português | Italiano
ScrapeGraphAI ist eine Python-Bibliothek für Web-Scraping, die LLM- und direkte Graphenlogik verwendet, um Scraping-Pipelines für Websites und lokale Dokumente (XML, HTML, JSON, Markdown usw.) zu erstellen.
Sagen Sie einfach, welche Informationen Sie extrahieren möchten, und die Bibliothek erledigt das für Sie!
ScrapeGraphAI bietet eine nahtlose Integration mit gängigen Frameworks und Tools, um Ihre Scraping-Fähigkeiten zu erweitern. Egal, ob Sie mit Python oder Node.js entwickeln, LLM-Frameworks verwenden oder mit No-Code-Plattformen arbeiten, wir decken alles mit unseren umfassenden Integrationsmöglichkeiten ab.
Weitere Informationen finden Sie unter folgendem Link
Integrationen:
- API: Dokumentation
- SDKs: Python, Node
- LLM-Frameworks: Langchain, Llama Index, Crew.ai, Agno, CamelAI
- Low-Code-Frameworks: Pipedream, Bubble, Zapier, n8n, Dify, Toolhouse
- MCP-Server: Link
Die Referenzseite für Scrapegraph-ai finden Sie auf der offiziellen PyPI-Seite: pypi.
pip install scrapegraphai
# WICHTIG (für das Abrufen von Website-Inhalten)
playwright installHinweis: Es wird empfohlen, die Bibliothek in einer virtuellen Umgebung zu installieren, um Konflikte mit anderen Bibliotheken zu vermeiden 🐱
Es gibt mehrere Standard-Scraping-Pipelines, mit denen Informationen aus einer Website (oder lokalen Datei) extrahiert werden können.
Die häufigste ist der SmartScraperGraph, der anhand einer Benutzereingabe und einer Quell-URL Informationen aus einer einzelnen Seite extrahiert.
from scrapegraphai.graphs import SmartScraperGraph
# Definieren Sie die Konfiguration für die Scraping-Pipeline
graph_config = {
"llm": {
"model": "ollama/llama3.2",
"model_tokens": 8192,
"format": "json",
},
"verbose": True,
"headless": False,
}
# Erstellen Sie die SmartScraperGraph-Instanz
smart_scraper_graph = SmartScraperGraph(
prompt="Extract useful information from the webpage, including a description of what the company does, founders and social media links",
source="https://scrapegraphai.com/",
config=graph_config
)
# Führen Sie die Pipeline aus
result = smart_scraper_graph.run()
import json
print(json.dumps(result, indent=4))Note
Für OpenAI und andere Modelle müssen Sie lediglich die LLM-Konfiguration ändern!
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_API_KEY",
"model": "openai/gpt-4o-mini",
},
"verbose": True,
"headless": False,
}Die Ausgabe ist ein Wörterbuch wie folgt:
{
"description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
"founders": [
{
"name": "",
"role": "Founder & Technical Lead",
"linkedin": "https://www.linkedin.com/in/perinim/"
},
{
"name": "Marco Vinciguerra",
"role": "Founder & Software Engineer",
"linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
},
{
"name": "Lorenzo Padoan",
"role": "Founder & Product Engineer",
"linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
}
],
"social_media_links": {
"linkedin": "https://www.linkedin.com/company/101881123",
"twitter": "https://x.com/scrapegraphai",
"github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
}
}Es gibt weitere Pipelines, mit denen Informationen aus mehreren Seiten extrahiert, Python-Skripte generiert oder sogar Audiodateien generiert werden können.
| Pipeline Name | Beschreibung |
|---|---|
| SmartScraperGraph | Single-Page-Scraper, der nur eine Benutzereingabe und eine Eingabequelle benötigt. |
| SearchGraph | Multi-Page-Scraper, der Informationen aus den oberen n Suchergebnissen einer Suchmaschine extrahiert. |
| SpeechGraph | Single-Page-Scraper, der Informationen aus einer Website extrahiert und eine Audiodatei generiert. |
| ScriptCreatorGraph | Single-Page-Scraper, der Informationen aus einer Website extrahiert und ein Python-Skript generiert. |
| SmartScraperMultiGraph | Multi-Page-Scraper, der Informationen aus mehreren Seiten mit einer Eingabe und einer Liste von Quellen extrahiert. |
| ScriptCreatorMultiGraph | Multi-Page-Scraper, der ein Python-Skript zum Extrahieren von Informationen aus mehreren Seiten und Quellen generiert. |
Für jeden dieser Graphen gibt es die Multi-Version. Sie ermöglicht parallele Aufrufe des LLM.
Es ist möglich, verschiedene LLMs über APIs wie OpenAI, Groq, Azure, Gemini, MiniMax und andere zu verwenden, oder lokale Modelle über Ollama.
Denken Sie daran, Ollama installiert zu haben und die Modelle mit dem Befehl ollama pull herunterzuladen, wenn Sie lokale Modelle verwenden möchten.
Die Dokumentation zu ScrapeGraphAI finden Sie hier.
Fühlen Sie sich frei, beizutragen und treten Sie unserem Discord-Server bei, um mit uns über Verbesserungen zu diskutieren und uns Vorschläge zu machen!
Bitte lesen Sie die Richtlinien für Mitwirkende.
Wenn Sie nach einer schnellen Lösung zur Integration von ScrapeGraph in Ihr System suchen, sehen Sie sich unsere leistungsstarke API hier! an.
Wir bieten SDKs für Python und Node.js an, die eine einfache Integration in Ihre Projekte ermöglichen. Sehen Sie sie sich unten an:
| SDK | Sprache | GitHub Link |
|---|---|---|
| Python SDK | Python | scrapegraph-py |
| Node.js SDK | Node.js | scrapegraph-js |
Die offizielle API-Dokumentation finden Sie hier.
Laut dem Benchmark von Firecrawl Firecrawl benchmark ist ScrapeGraph der beste Fetcher auf dem Markt!
Wir erfassen anonyme Nutzungsmetriken, um die Qualität unseres Pakets und das Benutzererlebnis zu verbessern. Die Daten helfen uns, Verbesserungen zu priorisieren und die Kompatibilität sicherzustellen. Wenn Sie dies nicht möchten, setzen Sie die Umgebungsvariable SCRAPEGRAPHAI_TELEMETRY_ENABLED=false. Weitere Informationen finden Sie in der Dokumentation hier.
Wenn Sie unsere Bibliothek für Forschungszwecke verwendet haben, zitieren Sie uns bitte mit folgendem Hinweis:
@misc{scrapegraph-ai,
author = {Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/ScrapeGraphAI/Scrapegraph-ai},
note = {A Python library for scraping leveraging large language models}
}
| Kontakt Info | |
|---|---|
| Marco Vinciguerra | |
| Lorenzo Padoan |
ScrapeGraphAI ist unter der MIT-Lizenz lizenziert. Weitere Informationen finden Sie in der Datei LICENSE.
- Wir möchten allen Mitwirkenden am Projekt und der Open-Source-Community für ihre Unterstützung danken.
- ScrapeGraphAI ist nur für Datenexploration und Forschungszwecke vorgesehen. Wir sind nicht verantwortlich für einen Missbrauch der Bibliothek.
Gemacht mit ❤️ von ScrapeGraph AI


