Merge pull request #42 from cuappdev/claire/dailySunImages

claiireyu · web-flow · commit f15c721b6bcb · 2025-10-15T18:07:02.000-04:00
Added Daily Sun Images
diff --git a/src/scrapers/daily_sun_scrape.py b/src/scrapers/daily_sun_scrape.py
@@ -3,7 +3,10 @@
 from datetime import datetime, timedelta
 from dotenv import load_dotenv
 from ..services import ArticleService
+from ..utils.constants import ARTICLE_IMG_TAG
 import logging
+from bs4 import BeautifulSoup
+import base64
 
 load_dotenv()
 
@@ -36,16 +39,32 @@ def fetch_news():
                 )
                 article_url = f"https://cornellsun.com/article/{article['slug']}"
 
+                article_image = None
+                try:
+                    response = requests.get(
+                        article_url,
+                        headers={
+                            "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36"
+                        }
+                    )
+                    response.raise_for_status()
+                    soup = BeautifulSoup(response.content, 'html.parser')
+                    img_tag = soup.select_one(ARTICLE_IMG_TAG)
+                    if img_tag and img_tag.get('src'):
+                        article_image=img_tag.get('src')
+                except Exception as e:
+                    logging.error(f"Error fetching news: {str(e)}")
                 article_doc = {
                     "title": article["headline"],
-                    "image": article["dominantMedia"]["title"] if article["dominantMedia"] else None,
+                    "image": article_image,
                     "sports_type": sports_type,
                     "published_at": published_at,
                     "url": article_url,
                     "slug": article["slug"],
                     "created_at": datetime.now()
                 }
                 articles_to_store.append(article_doc)
+             
 
         if articles_to_store:
             ArticleService.create_articles_bulk(articles_to_store)
diff --git a/src/utils/constants.py b/src/utils/constants.py
@@ -130,4 +130,4 @@
 # The maximum number of videos to retrieve
 VIDEO_LIMIT = 20
 
-
+ARTICLE_IMG_TAG = ".dom-art-container img"