🚀 Vous cherchez un moyen encore plus rapide et plus simple de scraper à grande échelle (seulement 5 lignes de code) ? Découvrez notre version améliorée sur ScrapeGraphAI.com ! 🚀
English | 中文 | 日本語 | 한국어 | Русский | Türkçe | Deutsch | Español | français | Português | Italiano
ScrapeGraphAI est une bibliothèque Python de web scraping qui utilise les LLM et la logique de graphes directs pour créer des pipelines de scraping pour les sites web et les documents locaux (XML, HTML, JSON, Markdown, etc.).
Dites simplement quelles informations vous souhaitez extraire et la bibliothèque le fera pour vous !
ScrapeGraphAI offre une intégration transparente avec les frameworks et outils populaires pour améliorer vos capacités de scraping. Que vous développiez avec Python ou Node.js, utilisiez des frameworks LLM ou travailliez avec des plateformes no-code, nous avons tout prévu avec nos options d'intégration complètes.
Vous pouvez trouver plus d'informations sur le lien suivant.
Intégrations:
- API: Documentation
- SDKs: Python, Node
- Frameworks LLM: Langchain, Llama Index, Crew.ai, Agno, CamelAI
- Frameworks Low-code: Pipedream, Bubble, Zapier, n8n, Dify, Toolhouse
- Serveur MCP: Lien
La page de référence pour Scrapegraph-ai est disponible sur la page officielle de PyPI : pypi.
pip install scrapegraphai
# IMPORTANT (pour récupérer le contenu des sites web)
playwright installRemarque : il est recommandé d'installer la bibliothèque dans un environnement virtuel pour éviter les conflits avec d'autres bibliothèques 🐱
Il existe plusieurs pipelines de scraping standards qui peuvent être utilisés pour extraire des informations d'un site web (ou d'un fichier local).
Le plus courant est le SmartScraperGraph, qui extrait les informations d'une seule page à partir d'une invite utilisateur et d'une URL source.
from scrapegraphai.graphs import SmartScraperGraph
# Définir la configuration pour le pipeline de scraping
graph_config = {
"llm": {
"model": "ollama/llama3.2",
"model_tokens": 8192,
"format": "json",
},
"verbose": True,
"headless": False,
}
# Créer l'instance SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
prompt="Extract useful information from the webpage, including a description of what the company does, founders and social media links",
source="https://scrapegraphai.com/",
config=graph_config
)
# Exécuter le pipeline
result = smart_scraper_graph.run()
import json
print(json.dumps(result, indent=4))Note
Pour OpenAI et d'autres modèles, il vous suffit de modifier la configuration LLM !
graph_config = {
"llm": {
"api_key": "YOUR_OPENAI_API_KEY",
"model": "openai/gpt-4o-mini",
},
"verbose": True,
"headless": False,
}La sortie sera un dictionnaire comme suit :
{
"description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
"founders": [
{
"name": "",
"role": "Founder & Technical Lead",
"linkedin": "https://www.linkedin.com/in/perinim/"
},
{
"name": "Marco Vinciguerra",
"role": "Founder & Software Engineer",
"linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
},
{
"name": "Lorenzo Padoan",
"role": "Founder & Product Engineer",
"linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
}
],
"social_media_links": {
"linkedin": "https://www.linkedin.com/company/101881123",
"twitter": "https://x.com/scrapegraphai",
"github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
}
}Il existe d'autres pipelines qui peuvent être utilisés pour extraire des informations de plusieurs pages, générer des scripts Python, ou même générer des fichiers audio.
| Nom du pipeline | Description |
|---|---|
| SmartScraperGraph | Scraper d'une seule page qui n'a besoin que d'une invite utilisateur et d'une source d'entrée. |
| SearchGraph | Scraper multi-pages qui extrait des informations des n premiers résultats d'un moteur de recherche. |
| SpeechGraph | Scraper d'une seule page qui extrait des informations d'un site web et génère un fichier audio. |
| ScriptCreatorGraph | Scraper d'une seule page qui extrait des informations d'un site web et génère un script Python. |
| SmartScraperMultiGraph | Scraper multi-pages qui extrait des informations de plusieurs pages à partir d'une seule invite et d'une liste de sources. |
| ScriptCreatorMultiGraph | Scraper multi-pages qui génère un script Python pour extraire des informations de plusieurs pages et sources. |
Pour chacun de ces graphes, il existe la version multi. Elle permet de faire des appels au LLM en parallèle.
Il est possible d'utiliser différents LLM via des API, telles qu'OpenAI, Groq, Azure, Gemini, MiniMax et d'autres, ou des modèles locaux en utilisant Ollama.
N'oubliez pas d'installer Ollama et de télécharger les modèles en utilisant la commande ollama pull, si vous souhaitez utiliser des modèles locaux.
La documentation pour ScrapeGraphAI se trouve ici.
N'hésitez pas à contribuer et à rejoindre notre serveur Discord pour discuter avec nous des améliorations et nous donner des suggestions !
Veuillez consulter les directives de contribution.
Si vous cherchez une solution rapide pour intégrer ScrapeGraph dans votre système, consultez notre puissante API ici !
Nous proposons des SDK en Python et Node.js, ce qui facilite leur intégration dans vos projets. Découvrez-les ci-dessous :
| SDK | Langage | Lien GitHub |
|---|---|---|
| Python SDK | Python | scrapegraph-py |
| Node.js SDK | Node.js | scrapegraph-js |
La documentation officielle de l'API est disponible ici.
Selon le benchmark Firecrawl Firecrawl benchmark, ScrapeGraph est le meilleur scraper sur le marché !
Nous recueillons des mesures d'utilisation anonymes pour améliorer la qualité de notre package et l'expérience utilisateur. Les données nous aident à hiérarchiser les améliorations et à assurer la compatibilité. Si vous souhaitez vous désinscrire, définissez la variable d'environnement SCRAPEGRAPHAI_TELEMETRY_ENABLED=false. Pour plus d'informations, veuillez consulter la documentation ici.
Si vous avez utilisé notre bibliothèque à des fins de recherche, veuillez nous citer avec la référence suivante :
@misc{scrapegraph-ai,
author = {Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/ScrapeGraphAI/Scrapegraph-ai},
note = {A Python library for scraping leveraging large language models}
}
| Info Contact | |
|---|---|
| Marco Vinciguerra | |
| Lorenzo Padoan |
ScrapeGraphAI est sous licence MIT. Consultez le fichier LICENSE pour plus d'informations.
- Nous tenons à remercier tous les contributeurs au projet et la communauté open-source pour leur soutien.
- ScrapeGraphAI est destiné uniquement à l'exploration de données et à la recherche. Nous ne sommes pas responsables de toute mauvaise utilisation de la bibliothèque.
Fait avec ❤️ par ScrapeGraph AI


