🚀 Suchen Sie nach einem noch schnelleren und einfacheren Weg, um im großen Maßstab zu scrapen (nur 5 Codezeilen)? Schauen Sie sich unsere erweiterte Version auf ScrapeGraphAI.com an! 🚀

🕷️ ScrapeGraphAI: You Only Scrape Once

ScrapeGraphAI ist eine Python-Bibliothek für Web-Scraping, die LLM- und direkte Graphenlogik verwendet, um Scraping-Pipelines für Websites und lokale Dokumente (XML, HTML, JSON, Markdown usw.) zu erstellen.

Sagen Sie einfach, welche Informationen Sie extrahieren möchten, und die Bibliothek erledigt das für Sie!

🚀 Integrationen

ScrapeGraphAI bietet eine nahtlose Integration mit gängigen Frameworks und Tools, um Ihre Scraping-Fähigkeiten zu erweitern. Egal, ob Sie mit Python oder Node.js entwickeln, LLM-Frameworks verwenden oder mit No-Code-Plattformen arbeiten, wir decken alles mit unseren umfassenden Integrationsmöglichkeiten ab.

Weitere Informationen finden Sie unter folgendem Link

Integrationen:

API: Dokumentation
SDKs: Python, Node
LLM-Frameworks: Langchain, Llama Index, Crew.ai, Agno, CamelAI
Low-Code-Frameworks: Pipedream, Bubble, Zapier, n8n, Dify, Toolhouse
MCP-Server: Link

🚀 Schnelle Installation

Die Referenzseite für Scrapegraph-ai finden Sie auf der offiziellen PyPI-Seite: pypi.

pip install scrapegraphai

# WICHTIG (für das Abrufen von Website-Inhalten)
playwright install

Hinweis: Es wird empfohlen, die Bibliothek in einer virtuellen Umgebung zu installieren, um Konflikte mit anderen Bibliotheken zu vermeiden 🐱

💻 Verwendung

Es gibt mehrere Standard-Scraping-Pipelines, mit denen Informationen aus einer Website (oder lokalen Datei) extrahiert werden können.

Die häufigste ist der SmartScraperGraph, der anhand einer Benutzereingabe und einer Quell-URL Informationen aus einer einzelnen Seite extrahiert.

from scrapegraphai.graphs import SmartScraperGraph

# Definieren Sie die Konfiguration für die Scraping-Pipeline
graph_config = {
    "llm": {
        "model": "ollama/llama3.2",
        "model_tokens": 8192,
        "format": "json",
    },
    "verbose": True,
    "headless": False,
}

# Erstellen Sie die SmartScraperGraph-Instanz
smart_scraper_graph = SmartScraperGraph(
    prompt="Extract useful information from the webpage, including a description of what the company does, founders and social media links",
    source="https://scrapegraphai.com/",
    config=graph_config
)

# Führen Sie die Pipeline aus
result = smart_scraper_graph.run()

import json
print(json.dumps(result, indent=4))

Note

Für OpenAI und andere Modelle müssen Sie lediglich die LLM-Konfiguration ändern!

graph_config = {
   "llm": {
       "api_key": "YOUR_OPENAI_API_KEY",
       "model": "openai/gpt-4o-mini",
   },
   "verbose": True,
   "headless": False,
}

Die Ausgabe ist ein Wörterbuch wie folgt:

{
    "description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
    "founders": [
        {
            "name": "",
            "role": "Founder & Technical Lead",
            "linkedin": "https://www.linkedin.com/in/perinim/"
        },
        {
            "name": "Marco Vinciguerra",
            "role": "Founder & Software Engineer",
            "linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
        },
        {
            "name": "Lorenzo Padoan",
            "role": "Founder & Product Engineer",
            "linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
        }
    ],
    "social_media_links": {
        "linkedin": "https://www.linkedin.com/company/101881123",
        "twitter": "https://x.com/scrapegraphai",
        "github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
    }
}

Es gibt weitere Pipelines, mit denen Informationen aus mehreren Seiten extrahiert, Python-Skripte generiert oder sogar Audiodateien generiert werden können.

Pipeline Name	Beschreibung
SmartScraperGraph	Single-Page-Scraper, der nur eine Benutzereingabe und eine Eingabequelle benötigt.
SearchGraph	Multi-Page-Scraper, der Informationen aus den oberen n Suchergebnissen einer Suchmaschine extrahiert.
SpeechGraph	Single-Page-Scraper, der Informationen aus einer Website extrahiert und eine Audiodatei generiert.
ScriptCreatorGraph	Single-Page-Scraper, der Informationen aus einer Website extrahiert und ein Python-Skript generiert.
SmartScraperMultiGraph	Multi-Page-Scraper, der Informationen aus mehreren Seiten mit einer Eingabe und einer Liste von Quellen extrahiert.
ScriptCreatorMultiGraph	Multi-Page-Scraper, der ein Python-Skript zum Extrahieren von Informationen aus mehreren Seiten und Quellen generiert.

Für jeden dieser Graphen gibt es die Multi-Version. Sie ermöglicht parallele Aufrufe des LLM.

Es ist möglich, verschiedene LLMs über APIs wie OpenAI, Groq, Azure, Gemini, MiniMax und andere zu verwenden, oder lokale Modelle über Ollama.

Denken Sie daran, Ollama installiert zu haben und die Modelle mit dem Befehl ollama pull herunterzuladen, wenn Sie lokale Modelle verwenden möchten.

📖 Dokumentation

Die Dokumentation zu ScrapeGraphAI finden Sie hier.

🤝 Mitwirken

Fühlen Sie sich frei, beizutragen und treten Sie unserem Discord-Server bei, um mit uns über Verbesserungen zu diskutieren und uns Vorschläge zu machen!

Bitte lesen Sie die Richtlinien für Mitwirkende.

🔗 ScrapeGraph API & SDKs

Wenn Sie nach einer schnellen Lösung zur Integration von ScrapeGraph in Ihr System suchen, sehen Sie sich unsere leistungsstarke API hier! an.

Wir bieten SDKs für Python und Node.js an, die eine einfache Integration in Ihre Projekte ermöglichen. Sehen Sie sie sich unten an:

SDK	Sprache	GitHub Link
Python SDK	Python	scrapegraph-py
Node.js SDK	Node.js	scrapegraph-js

Die offizielle API-Dokumentation finden Sie hier.

🔥 Benchmark

Laut dem Benchmark von Firecrawl Firecrawl benchmark ist ScrapeGraph der beste Fetcher auf dem Markt!

📈 Telemetrie

Wir erfassen anonyme Nutzungsmetriken, um die Qualität unseres Pakets und das Benutzererlebnis zu verbessern. Die Daten helfen uns, Verbesserungen zu priorisieren und die Kompatibilität sicherzustellen. Wenn Sie dies nicht möchten, setzen Sie die Umgebungsvariable SCRAPEGRAPHAI_TELEMETRY_ENABLED=false. Weitere Informationen finden Sie in der Dokumentation hier.

❤️ Mitwirkende

🎓 Zitate

Wenn Sie unsere Bibliothek für Forschungszwecke verwendet haben, zitieren Sie uns bitte mit folgendem Hinweis:

  @misc{scrapegraph-ai,
    author = {Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/ScrapeGraphAI/Scrapegraph-ai},
    note = {A Python library for scraping leveraging large language models}
  }

Autoren

	Kontakt Info
Marco Vinciguerra
Lorenzo Padoan

📜 Lizenz

ScrapeGraphAI ist unter der MIT-Lizenz lizenziert. Weitere Informationen finden Sie in der Datei LICENSE.

Danksagungen

Wir möchten allen Mitwirkenden am Projekt und der Open-Source-Community für ihre Unterstützung danken.
ScrapeGraphAI ist nur für Datenexploration und Forschungszwecke vorgesehen. Wir sind nicht verantwortlich für einen Missbrauch der Bibliothek.

Gemacht mit ❤️ von ScrapeGraph AI

Scarf tracking

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

🚀 Suchen Sie nach einem noch schnelleren und einfacheren Weg, um im großen Maßstab zu scrapen (nur 5 Codezeilen)? Schauen Sie sich unsere erweiterte Version auf ScrapeGraphAI.com an! 🚀

🕷️ ScrapeGraphAI: You Only Scrape Once

🚀 Integrationen

🚀 Schnelle Installation

💻 Verwendung

📖 Dokumentation

🤝 Mitwirken

🔗 ScrapeGraph API & SDKs

🔥 Benchmark

📈 Telemetrie

❤️ Mitwirkende

🎓 Zitate

Autoren

📜 Lizenz

Danksagungen

Uh oh!

FilesExpand file tree

german.md

Latest commit

History

german.md

File metadata and controls

🚀 Suchen Sie nach einem noch schnelleren und einfacheren Weg, um im großen Maßstab zu scrapen (nur 5 Codezeilen)? Schauen Sie sich unsere erweiterte Version auf ScrapeGraphAI.com an! 🚀

🕷️ ScrapeGraphAI: You Only Scrape Once

🚀 Integrationen

🚀 Schnelle Installation

💻 Verwendung

📖 Dokumentation

🤝 Mitwirken

🔗 ScrapeGraph API & SDKs

🔥 Benchmark

📈 Telemetrie

❤️ Mitwirkende

🎓 Zitate

Autoren

📜 Lizenz

Danksagungen