Skip to content

Latest commit

 

History

History
228 lines (170 loc) · 12 KB

File metadata and controls

228 lines (170 loc) · 12 KB

🚀 Suchen Sie nach einem noch schnelleren und einfacheren Weg, um im großen Maßstab zu scrapen (nur 5 Codezeilen)? Schauen Sie sich unsere erweiterte Version auf ScrapeGraphAI.com an! 🚀


🕷️ ScrapeGraphAI: You Only Scrape Once

ScrapeGraphAI

English | 中文 | 日本語 | 한국어 | Русский | Türkçe | Deutsch | Español | français | Português | Italiano

PyPI Downloads

License: MIT

ScrapeGraphAI%2FScrapegraph-ai | Trendshift

ScrapeGraphAI ist eine Python-Bibliothek für Web-Scraping, die LLM- und direkte Graphenlogik verwendet, um Scraping-Pipelines für Websites und lokale Dokumente (XML, HTML, JSON, Markdown usw.) zu erstellen.

Sagen Sie einfach, welche Informationen Sie extrahieren möchten, und die Bibliothek erledigt das für Sie!

ScrapeGraphAI Hero

🚀 Integrationen

ScrapeGraphAI bietet eine nahtlose Integration mit gängigen Frameworks und Tools, um Ihre Scraping-Fähigkeiten zu erweitern. Egal, ob Sie mit Python oder Node.js entwickeln, LLM-Frameworks verwenden oder mit No-Code-Plattformen arbeiten, wir decken alles mit unseren umfassenden Integrationsmöglichkeiten ab.

Weitere Informationen finden Sie unter folgendem Link

Integrationen:

🚀 Schnelle Installation

Die Referenzseite für Scrapegraph-ai finden Sie auf der offiziellen PyPI-Seite: pypi.

pip install scrapegraphai

# WICHTIG (für das Abrufen von Website-Inhalten)
playwright install

Hinweis: Es wird empfohlen, die Bibliothek in einer virtuellen Umgebung zu installieren, um Konflikte mit anderen Bibliotheken zu vermeiden 🐱

💻 Verwendung

Es gibt mehrere Standard-Scraping-Pipelines, mit denen Informationen aus einer Website (oder lokalen Datei) extrahiert werden können.

Die häufigste ist der SmartScraperGraph, der anhand einer Benutzereingabe und einer Quell-URL Informationen aus einer einzelnen Seite extrahiert.

from scrapegraphai.graphs import SmartScraperGraph

# Definieren Sie die Konfiguration für die Scraping-Pipeline
graph_config = {
    "llm": {
        "model": "ollama/llama3.2",
        "model_tokens": 8192,
        "format": "json",
    },
    "verbose": True,
    "headless": False,
}

# Erstellen Sie die SmartScraperGraph-Instanz
smart_scraper_graph = SmartScraperGraph(
    prompt="Extract useful information from the webpage, including a description of what the company does, founders and social media links",
    source="https://scrapegraphai.com/",
    config=graph_config
)

# Führen Sie die Pipeline aus
result = smart_scraper_graph.run()

import json
print(json.dumps(result, indent=4))

Note

Für OpenAI und andere Modelle müssen Sie lediglich die LLM-Konfiguration ändern!

graph_config = {
   "llm": {
       "api_key": "YOUR_OPENAI_API_KEY",
       "model": "openai/gpt-4o-mini",
   },
   "verbose": True,
   "headless": False,
}

Die Ausgabe ist ein Wörterbuch wie folgt:

{
    "description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
    "founders": [
        {
            "name": "",
            "role": "Founder & Technical Lead",
            "linkedin": "https://www.linkedin.com/in/perinim/"
        },
        {
            "name": "Marco Vinciguerra",
            "role": "Founder & Software Engineer",
            "linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
        },
        {
            "name": "Lorenzo Padoan",
            "role": "Founder & Product Engineer",
            "linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
        }
    ],
    "social_media_links": {
        "linkedin": "https://www.linkedin.com/company/101881123",
        "twitter": "https://x.com/scrapegraphai",
        "github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
    }
}

Es gibt weitere Pipelines, mit denen Informationen aus mehreren Seiten extrahiert, Python-Skripte generiert oder sogar Audiodateien generiert werden können.

Pipeline Name Beschreibung
SmartScraperGraph Single-Page-Scraper, der nur eine Benutzereingabe und eine Eingabequelle benötigt.
SearchGraph Multi-Page-Scraper, der Informationen aus den oberen n Suchergebnissen einer Suchmaschine extrahiert.
SpeechGraph Single-Page-Scraper, der Informationen aus einer Website extrahiert und eine Audiodatei generiert.
ScriptCreatorGraph Single-Page-Scraper, der Informationen aus einer Website extrahiert und ein Python-Skript generiert.
SmartScraperMultiGraph Multi-Page-Scraper, der Informationen aus mehreren Seiten mit einer Eingabe und einer Liste von Quellen extrahiert.
ScriptCreatorMultiGraph Multi-Page-Scraper, der ein Python-Skript zum Extrahieren von Informationen aus mehreren Seiten und Quellen generiert.

Für jeden dieser Graphen gibt es die Multi-Version. Sie ermöglicht parallele Aufrufe des LLM.

Es ist möglich, verschiedene LLMs über APIs wie OpenAI, Groq, Azure, Gemini, MiniMax und andere zu verwenden, oder lokale Modelle über Ollama.

Denken Sie daran, Ollama installiert zu haben und die Modelle mit dem Befehl ollama pull herunterzuladen, wenn Sie lokale Modelle verwenden möchten.

📖 Dokumentation

Open In Colab

Die Dokumentation zu ScrapeGraphAI finden Sie hier.

🤝 Mitwirken

Fühlen Sie sich frei, beizutragen und treten Sie unserem Discord-Server bei, um mit uns über Verbesserungen zu diskutieren und uns Vorschläge zu machen!

Bitte lesen Sie die Richtlinien für Mitwirkende.

My Skills My Skills My Skills

🔗 ScrapeGraph API & SDKs

Wenn Sie nach einer schnellen Lösung zur Integration von ScrapeGraph in Ihr System suchen, sehen Sie sich unsere leistungsstarke API hier! an.

API Banner

Wir bieten SDKs für Python und Node.js an, die eine einfache Integration in Ihre Projekte ermöglichen. Sehen Sie sie sich unten an:

SDK Sprache GitHub Link
Python SDK Python scrapegraph-py
Node.js SDK Node.js scrapegraph-js

Die offizielle API-Dokumentation finden Sie hier.

🔥 Benchmark

Laut dem Benchmark von Firecrawl Firecrawl benchmark ist ScrapeGraph der beste Fetcher auf dem Markt!

here

📈 Telemetrie

Wir erfassen anonyme Nutzungsmetriken, um die Qualität unseres Pakets und das Benutzererlebnis zu verbessern. Die Daten helfen uns, Verbesserungen zu priorisieren und die Kompatibilität sicherzustellen. Wenn Sie dies nicht möchten, setzen Sie die Umgebungsvariable SCRAPEGRAPHAI_TELEMETRY_ENABLED=false. Weitere Informationen finden Sie in der Dokumentation hier.

❤️ Mitwirkende

Contributors

🎓 Zitate

Wenn Sie unsere Bibliothek für Forschungszwecke verwendet haben, zitieren Sie uns bitte mit folgendem Hinweis:

  @misc{scrapegraph-ai,
    author = {Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/ScrapeGraphAI/Scrapegraph-ai},
    note = {A Python library for scraping leveraging large language models}
  }

Autoren

Kontakt Info
Marco Vinciguerra Linkedin Badge
Lorenzo Padoan Linkedin Badge

📜 Lizenz

ScrapeGraphAI ist unter der MIT-Lizenz lizenziert. Weitere Informationen finden Sie in der Datei LICENSE.

Danksagungen

  • Wir möchten allen Mitwirkenden am Projekt und der Open-Source-Community für ihre Unterstützung danken.
  • ScrapeGraphAI ist nur für Datenexploration und Forschungszwecke vorgesehen. Wir sind nicht verantwortlich für einen Missbrauch der Bibliothek.

Gemacht mit ❤️ von ScrapeGraph AI

Scarf tracking