[FIX] db format

Edouard Silvestre · Edouard Silvestre · commit 95d9b1dd2eb1 · 2025-11-23T13:38:18.000+01:00
diff --git a/scrap/medium_scraping.py b/scrap/medium_scraping.py
@@ -3,7 +3,6 @@
 from typing import List, Dict, Optional
 import time
 
-# Constantes de l'outil de veille
 SOURCE_SITE = "medium"
 
 RSS_FEEDS = [
@@ -17,7 +16,6 @@ def normalize_medium_entry(entry: feedparser.FeedParserDict) -> Dict:
     """Normalise une entrée RSS Medium dans le format unifié."""
     entry_id = entry.get('link', '')
     
-    # Conversion de la date
     published_date = datetime.utcnow().isoformat()
     if getattr(entry, "published_parsed", None):
         published_date = datetime.fromtimestamp(time.mktime(entry.published_parsed)).isoformat()
@@ -54,7 +52,7 @@ def scrape_medium(max_articles_per_feed: int = 10) -> List[Dict]:
             
         except Exception as e:
             print(f"❌ Error fetching {feed_url}: {e}")
-        time.sleep(1) # Respecter une pause entre les appels RSS
+        time.sleep(1)
 
     return all_items
 
diff --git a/scrap/scrap_arxiv.py b/scrap/scrap_arxiv.py
@@ -11,8 +11,7 @@ def normalize_arxiv_result(paper: arxiv.Result) -> Dict:
     
     authors = ", ".join([a.name for a in paper.authors])
     
-    # Utiliser le lien de l'abstract comme ID/URL
-    link = paper.entry_id # C'est généralement l'URL de l'abstract dans la librairie
+    link = paper.entry_id
     
     keywords_list = [paper.primary_category]
     if paper.categories:
@@ -21,7 +20,7 @@ def normalize_arxiv_result(paper: arxiv.Result) -> Dict:
     return {
         "id": link,
         "source_site": SOURCE_SITE,
-        "title": paper.title.replace('\n', ' '), # Enlever les sauts de ligne dans le titre
+        "title": paper.title.replace('\n', ' '),
         "description": paper.summary.replace('\n', ' '),
         "author_info": authors,
         "keywords": ", ".join(keywords_list),
diff --git a/scrap/scrap_le_monde.py b/scrap/scrap_le_monde.py
@@ -3,7 +3,6 @@
 from datetime import datetime
 from typing import List, Dict
 
-# Constantes de l'outil de veille
 SOURCE_SITE = "le_monde"
 
 FEEDS = [
@@ -16,14 +15,12 @@ def normalize_lemonde_entry(entry: feedparser.FeedParserDict, feed_url: str) ->
     """Normalise une entrée RSS Le Monde dans le format unifié."""
     entry_id = getattr(entry, "id", None) or getattr(entry, "link", None)
     
-    # Déterminer la date
     published_date = datetime.utcnow().isoformat()
     if getattr(entry, "published_parsed", None):
         published_date = datetime.fromtimestamp(time.mktime(entry.published_parsed)).isoformat()
     elif getattr(entry, "updated_parsed", None):
         published_date = datetime.fromtimestamp(time.mktime(entry.updated_parsed)).isoformat()
         
-    # Extraire la catégorie du flux si possible
     category = "actualité générale"
     if "international" in feed_url:
         category = "international"
@@ -38,7 +35,7 @@ def normalize_lemonde_entry(entry: feedparser.FeedParserDict, feed_url: str) ->
         "title": getattr(entry, "title", ""),
         "description": getattr(entry, "summary", ""),
         "author_info": getattr(entry, "author", "Le Monde"),
-        "keywords": category, # Utiliser la catégorie du flux comme mot-clé principal
+        "keywords": category,
         "content_url": getattr(entry, "link", ""),
         "published_date": published_date,
         "item_type": "article",
@@ -61,7 +58,7 @@ def scrape_lemonde(feeds: List[str] = FEEDS) -> List[Dict]:
                     
         except Exception as e:
             print(f"[ERREUR] du fetch du feed {feed_url}: {e}")
-        time.sleep(1) # Petite pause entre les flux
+        time.sleep(1)
 
     return all_items
 
diff --git a/scrap/scrape_github.py b/scrap/scrape_github.py
@@ -3,11 +3,9 @@
 from datetime import datetime, UTC
 from typing import List, Dict
 
-# Constantes de l'outil de veille
 SOURCE_SITE = "github"
 GITHUB_TOKEN = os.getenv("GITHUB_TOKEN") 
 
-# ... (THEMES, HEADERS, RateLimitError, sanitize_text, normalize_github_repo, build_query_for_theme restent inchangés) ...
 
 THEMES = [
     "large-language-model", "llm", "transformer", "text-generation", "retrieval-augmented-generation",
@@ -69,24 +67,17 @@ def search_github_repos(query: str, per_page: int = 20) -> List[Dict]:
         
         if resp.status_code == 403:
             retry_after = resp.headers.get("Retry-After")
-            # Lève l'erreur pour la gestion du break dans scrape_github
             raise RateLimitError(retry_after=int(retry_after) if retry_after and retry_after.isdigit() else None)
-        
-        # 🎯 CORRECTION CLÉ DANS CE BLOC :
-        # Utiliser 'resp.raise_for_status()' si vous souhaitez détecter les 4xx/5xx généraux, 
-        # mais pour la robustesse, nous allons d'abord vérifier le statut et analyser le JSON.
-        
+                
         if resp.status_code != 200:
-             # Pour toutes les autres erreurs non 403, nous loguons et retournons vide.
              print(f"[WARN] HTTP Status {resp.status_code} for query: {query}")
              return []
         
-        # Si le statut est 200, nous essayons d'analyser le JSON
         data = resp.json()
         return data.get("items", [])
         
     except RateLimitError:
-        raise # Relance RateLimitError
+        raise
     except requests.exceptions.RequestException as e:
         print(f"[ERREUR CONNEXION/HTTP] GitHub Search: {e}")
         return []
@@ -99,7 +90,7 @@ def scrape_github(themes: List[str] = THEMES, limit_per_theme: int = 20) -> List
     """Scrape GitHub pour les thèmes donnés et retourne les éléments unifiés."""
     
     all_items = []
-    stop_scraping = False # Drapeau de contrôle
+    stop_scraping = False
     
     try:
         for theme in themes:
@@ -112,7 +103,6 @@ def scrape_github(themes: List[str] = THEMES, limit_per_theme: int = 20) -> List
             try:
                 items = search_github_repos(q, limit_per_theme)
                 
-                # SÉCURITÉ SUPPLÉMENTAIRE :
                 if not isinstance(items, list):
                     print(f"[FATAL WARN] search_github_repos a retourné {type(items)} au lieu de list. Arrêt.")
                     stop_scraping = True
@@ -122,11 +112,9 @@ def scrape_github(themes: List[str] = THEMES, limit_per_theme: int = 20) -> List
                 all_items.extend(normalized_items)
                 
             except RateLimitError:
-                # Gère spécifiquement l'erreur de Rate Limit
                 print(f"[RATE LIMIT] Limite atteinte. Arrêt de la veille GitHub pour cette itération.")
                 stop_scraping = True
             except Exception as e:
-                # Gère toutes les autres exceptions de niveau thème (très peu probables maintenant)
                 print(f"[ERREUR THÈME] '{theme}': {e}")
                 continue 
                 
diff --git a/scrap/scrape_hf.py b/scrap/scrape_hf.py
@@ -1,8 +1,7 @@
 import requests
-from datetime import datetime, UTC # Importation de UTC
+from datetime import datetime, UTC
 from typing import List, Dict
 
-# Constantes de l'outil de veille
 SOURCE_SITE = "huggingface"
 
 def build_url(item: Dict, item_type: str) -> str:
@@ -11,32 +10,26 @@ def build_url(item: Dict, item_type: str) -> str:
     item_id = item.get("id")
     if item_type == "model":
         return f"{base}/{item.get('modelId')}"
-    # Correction de la liste pour inclure tous les types pertinents
     elif item_type in ("dataset", "space", "collection", "paper"): 
         return f"{base}/{item_id}"
     return base
 
 def normalize_huggingface_item(item: Dict, item_type: str) -> Dict:
     """Normalise un élément Hugging Face dans le format unifié."""
-    # Déterminer le nom et l'ID
     item_name = item.get("name") or item.get("modelId") or item.get("id")
     item_id = item.get("id") or item.get("modelId") or item.get("name")
     
-    # Déterminer l'auteur
     author = item.get("author") or item.get("organization", "")
     
-    # Déterminer la description/le résumé (souvent pas disponible dans la liste, on utilise le 'name' ou 'id' par défaut)
     description = item.get("description", item_name)
     
-    # Déterminer les mots-clés
     keywords_list = []
     if item.get("tags"):
         keywords_list.extend(item.get("tags"))
     if item.get("pipeline_tag"):
         tag = item.get("pipeline_tag")
         keywords_list.append(tag if isinstance(tag, str) else ", ".join(tag))
     
-    # Déterminer la date - Utilisation de datetime.now(UTC)
     last_modified = item.get("lastModified") or item.get("last_modified") or datetime.now(UTC).isoformat()
 
     return {
@@ -56,18 +49,15 @@ def fetch_huggingface_api(endpoint: str, item_type: str, limit: int = 20) -> Lis
     url = f"https://huggingface.co/api/{endpoint}?sort=lastModified&direction=-1&limit={limit}"
     
     try:
-        # Aucune en-tête d'authentification envoyée
         r = requests.get(url, timeout=20)
         
         if r.status_code == 404:
             return []
         
-        # Gère les autres erreurs (4xx/5xx) si elles surviennent
         r.raise_for_status()
         
         items = r.json()
         
-        # Normalisation des données
         normalized_items = [normalize_huggingface_item(item, item_type) for item in items]
         return normalized_items
         
@@ -78,7 +68,6 @@ def fetch_huggingface_api(endpoint: str, item_type: str, limit: int = 20) -> Lis
 def scrape_huggingface(limit_per_type: int = 20) -> List[Dict]:
     """Scrape le Hugging Face Hub, ignorant l'endpoint 'organizations'."""
     
-    # 🛑 L'entrée "organizations" a été retirée pour éviter l'erreur 401
     fetchers = [
         ("models", "model"),
         ("datasets", "dataset"),
diff --git a/scrap/unified_scrapper_pipeline.py b/scrap/unified_scrapper_pipeline.py
@@ -1,12 +1,8 @@
 import sqlite3
-# Importation de UTC pour la gestion moderne du temps
 from datetime import datetime, UTC 
 from typing import List, Dict
 import time
 import os
-
-# 💡 Assurez-vous d'importer vos fonctions de scraping normalisées
-# J'utilise les noms de modules que vous avez fournis
 from scrape_hf import scrape_huggingface
 from scrape_github import scrape_github
 from medium_scraping import scrape_medium
@@ -41,10 +37,8 @@ def setup_database():
 def save_unified_item(item: Dict, conn: sqlite3.Connection):
     """Insère un élément unifié dans la base de données."""
     cur = conn.cursor()
-    # ✅ CORRECTION 1: Utilisation de datetime.now(UTC) pour éviter la dépréciation
     now = datetime.now(UTC).isoformat()
     
-    # Utilisation d'INSERT OR IGNORE pour gérer le dédoublonnage par l'ID
     cur.execute("""
     INSERT OR IGNORE INTO unified_data 
     (id, source_site, title, description, author_info, keywords, content_url, published_date, item_type, created_at)
@@ -86,32 +80,26 @@ def run_scrapers_and_save():
         try:
             items = scraper_func(limit) if limit is not None else scraper_func() 
             
-            # ✅ CORRECTION 2: Gestion robuste des types de retour non-itérables (comme int ou None)
             
-            # Si 'items' est None, ou non-itérable (int), nous le traitons.
             if items is None:
                 print(f"   ❌ **ALERTE: Le scraper {name} a retourné None. Skipping.**")
                 continue
             
-            # Tenter de vérifier l'itérabilité pour attraper l'erreur 'int' object is not iterable
             try:
-                # Si l'objet n'est pas itérable (ex: int 403), cette ligne lève une TypeError
                 iter(items)
                 
             except TypeError:
                 print(f"   ❌ **ERREUR FATALE (Non-Itérable)**: Le scraper {name} a retourné un type non itérable ({type(items)}). Skipping.")
                 continue
 
-            # À ce stade, 'items' est garanti d'être itérable, mais nous vérifions si c'est une liste
             if not isinstance(items, list):
                  print(f"   ⚠️ WARNING: Le scraper {name} a retourné un objet itérable ({type(items)}) mais pas une liste. Conversion en liste.")
-                 items = list(items) # Convertir en liste au cas où ce serait un tuple/set
+                 items = list(items)
                  
             print(f"   -> {len(items)} éléments récupérés.")
             
             count_saved = 0
             for item in items:
-                # La fonction save_unified_item gère le dédoublonnage (INSERT OR IGNORE)
                 save_unified_item(item, conn)
                 count_saved += 1
             
@@ -138,12 +126,10 @@ def check_results():
         print("La base de données est vide.")
         return
 
-    # Afficher les noms de colonnes
     column_names = [description[0] for description in cur.description]
     print(f"Colonnes: {column_names}")
     print("-" * 120)
 
-    # Afficher les données
     for row in rows:
         print(row)