🚀 Vous cherchez un moyen encore plus rapide et plus simple de scraper à grande échelle (seulement 5 lignes de code) ? Découvrez notre version améliorée sur ScrapeGraphAI.com ! 🚀

🕷️ ScrapeGraphAI: Vous ne scrapez qu'une fois

ScrapeGraphAI est une bibliothèque Python de web scraping qui utilise les LLM et la logique de graphes directs pour créer des pipelines de scraping pour les sites web et les documents locaux (XML, HTML, JSON, Markdown, etc.).

Dites simplement quelles informations vous souhaitez extraire et la bibliothèque le fera pour vous !

🚀 Intégrations

ScrapeGraphAI offre une intégration transparente avec les frameworks et outils populaires pour améliorer vos capacités de scraping. Que vous développiez avec Python ou Node.js, utilisiez des frameworks LLM ou travailliez avec des plateformes no-code, nous avons tout prévu avec nos options d'intégration complètes.

Vous pouvez trouver plus d'informations sur le lien suivant.

Intégrations:

API: Documentation
SDKs: Python, Node
Frameworks LLM: Langchain, Llama Index, Crew.ai, Agno, CamelAI
Frameworks Low-code: Pipedream, Bubble, Zapier, n8n, Dify, Toolhouse
Serveur MCP: Lien

🚀 Installation rapide

La page de référence pour Scrapegraph-ai est disponible sur la page officielle de PyPI : pypi.

pip install scrapegraphai

# IMPORTANT (pour récupérer le contenu des sites web)
playwright install

Remarque : il est recommandé d'installer la bibliothèque dans un environnement virtuel pour éviter les conflits avec d'autres bibliothèques 🐱

💻 Utilisation

Il existe plusieurs pipelines de scraping standards qui peuvent être utilisés pour extraire des informations d'un site web (ou d'un fichier local).

Le plus courant est le SmartScraperGraph, qui extrait les informations d'une seule page à partir d'une invite utilisateur et d'une URL source.

from scrapegraphai.graphs import SmartScraperGraph

# Définir la configuration pour le pipeline de scraping
graph_config = {
    "llm": {
        "model": "ollama/llama3.2",
        "model_tokens": 8192,
        "format": "json",
    },
    "verbose": True,
    "headless": False,
}

# Créer l'instance SmartScraperGraph
smart_scraper_graph = SmartScraperGraph(
    prompt="Extract useful information from the webpage, including a description of what the company does, founders and social media links",
    source="https://scrapegraphai.com/",
    config=graph_config
)

# Exécuter le pipeline
result = smart_scraper_graph.run()

import json
print(json.dumps(result, indent=4))

Note

Pour OpenAI et d'autres modèles, il vous suffit de modifier la configuration LLM !

graph_config = {
   "llm": {
       "api_key": "YOUR_OPENAI_API_KEY",
       "model": "openai/gpt-4o-mini",
   },
   "verbose": True,
   "headless": False,
}

La sortie sera un dictionnaire comme suit :

{
    "description": "ScrapeGraphAI transforms websites into clean, organized data for AI agents and data analytics. It offers an AI-powered API for effortless and cost-effective data extraction.",
    "founders": [
        {
            "name": "",
            "role": "Founder & Technical Lead",
            "linkedin": "https://www.linkedin.com/in/perinim/"
        },
        {
            "name": "Marco Vinciguerra",
            "role": "Founder & Software Engineer",
            "linkedin": "https://www.linkedin.com/in/marco-vinciguerra-7ba365242/"
        },
        {
            "name": "Lorenzo Padoan",
            "role": "Founder & Product Engineer",
            "linkedin": "https://www.linkedin.com/in/lorenzo-padoan-4521a2154/"
        }
    ],
    "social_media_links": {
        "linkedin": "https://www.linkedin.com/company/101881123",
        "twitter": "https://x.com/scrapegraphai",
        "github": "https://github.com/ScrapeGraphAI/Scrapegraph-ai"
    }
}

Il existe d'autres pipelines qui peuvent être utilisés pour extraire des informations de plusieurs pages, générer des scripts Python, ou même générer des fichiers audio.

Nom du pipeline	Description
SmartScraperGraph	Scraper d'une seule page qui n'a besoin que d'une invite utilisateur et d'une source d'entrée.
SearchGraph	Scraper multi-pages qui extrait des informations des n premiers résultats d'un moteur de recherche.
SpeechGraph	Scraper d'une seule page qui extrait des informations d'un site web et génère un fichier audio.
ScriptCreatorGraph	Scraper d'une seule page qui extrait des informations d'un site web et génère un script Python.
SmartScraperMultiGraph	Scraper multi-pages qui extrait des informations de plusieurs pages à partir d'une seule invite et d'une liste de sources.
ScriptCreatorMultiGraph	Scraper multi-pages qui génère un script Python pour extraire des informations de plusieurs pages et sources.

Pour chacun de ces graphes, il existe la version multi. Elle permet de faire des appels au LLM en parallèle.

Il est possible d'utiliser différents LLM via des API, telles qu'OpenAI, Groq, Azure, Gemini, MiniMax et d'autres, ou des modèles locaux en utilisant Ollama.

N'oubliez pas d'installer Ollama et de télécharger les modèles en utilisant la commande ollama pull, si vous souhaitez utiliser des modèles locaux.

📖 Documentation

La documentation pour ScrapeGraphAI se trouve ici.

🤝 Contribuer

N'hésitez pas à contribuer et à rejoindre notre serveur Discord pour discuter avec nous des améliorations et nous donner des suggestions !

Veuillez consulter les directives de contribution.

🔗 API et SDK ScrapeGraph

Si vous cherchez une solution rapide pour intégrer ScrapeGraph dans votre système, consultez notre puissante API ici !

Nous proposons des SDK en Python et Node.js, ce qui facilite leur intégration dans vos projets. Découvrez-les ci-dessous :

SDK	Langage	Lien GitHub
Python SDK	Python	scrapegraph-py
Node.js SDK	Node.js	scrapegraph-js

La documentation officielle de l'API est disponible ici.

🔥 Benchmark

Selon le benchmark Firecrawl Firecrawl benchmark, ScrapeGraph est le meilleur scraper sur le marché !

📈 Télémétrie

Nous recueillons des mesures d'utilisation anonymes pour améliorer la qualité de notre package et l'expérience utilisateur. Les données nous aident à hiérarchiser les améliorations et à assurer la compatibilité. Si vous souhaitez vous désinscrire, définissez la variable d'environnement SCRAPEGRAPHAI_TELEMETRY_ENABLED=false. Pour plus d'informations, veuillez consulter la documentation ici.

❤️ Contributeurs

🎓 Citations

Si vous avez utilisé notre bibliothèque à des fins de recherche, veuillez nous citer avec la référence suivante :

  @misc{scrapegraph-ai,
    author = {Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/ScrapeGraphAI/Scrapegraph-ai},
    note = {A Python library for scraping leveraging large language models}
  }

Auteurs

	Info Contact
Marco Vinciguerra
Lorenzo Padoan

📜 Licence

ScrapeGraphAI est sous licence MIT. Consultez le fichier LICENSE pour plus d'informations.

Remerciements

Nous tenons à remercier tous les contributeurs au projet et la communauté open-source pour leur soutien.
ScrapeGraphAI est destiné uniquement à l'exploration de données et à la recherche. Nous ne sommes pas responsables de toute mauvaise utilisation de la bibliothèque.

Fait avec ❤️ par ScrapeGraph AI

Scarf tracking

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

🚀 Vous cherchez un moyen encore plus rapide et plus simple de scraper à grande échelle (seulement 5 lignes de code) ? Découvrez notre version améliorée sur ScrapeGraphAI.com ! 🚀

🕷️ ScrapeGraphAI: Vous ne scrapez qu'une fois

🚀 Intégrations

🚀 Installation rapide

💻 Utilisation

📖 Documentation

🤝 Contribuer

🔗 API et SDK ScrapeGraph

🔥 Benchmark

📈 Télémétrie

❤️ Contributeurs

🎓 Citations

Auteurs

📜 Licence

Remerciements

Uh oh!

FilesExpand file tree

french.md

Latest commit

History

french.md

File metadata and controls

🚀 Vous cherchez un moyen encore plus rapide et plus simple de scraper à grande échelle (seulement 5 lignes de code) ? Découvrez notre version améliorée sur ScrapeGraphAI.com ! 🚀

🕷️ ScrapeGraphAI: Vous ne scrapez qu'une fois

🚀 Intégrations

🚀 Installation rapide

💻 Utilisation

📖 Documentation

🤝 Contribuer

🔗 API et SDK ScrapeGraph

🔥 Benchmark

📈 Télémétrie

❤️ Contributeurs

🎓 Citations

Auteurs

📜 Licence

Remerciements