aboutcode-org
diff --git a/‎vulnerabilities/pipelines/v2_importers/euvd_importer.py‎
Lines changed: 99 additions & 73 deletions b/‎vulnerabilities/pipelines/v2_importers/euvd_importer.py‎
Lines changed: 99 additions & 73 deletions
diff --git a/‎vulnerabilities/tests/pipelines/v2_importers/test_euvd_importer_v2.py‎
Lines changed: 8 additions & 51 deletions b/‎vulnerabilities/tests/pipelines/v2_importers/test_euvd_importer_v2.py‎
Lines changed: 8 additions & 51 deletions
@@ -9,6 +9,7 @@
 
 import json
 import logging
+import math
 import time
 from datetime import datetime
 from http import HTTPStatus
@@ -47,86 +48,111 @@ def steps(cls):
         return (cls.collect_and_store_advisories,)
 
     def fetch_data(self):
-        # Return cached data if already fetched
         if self._cached_data is not None:
             logger.info(f"Using cached data: {len(self._cached_data)} items")
             return self._cached_data
 
-        headers = {"User-Agent": "VulnerableCode"}
         all_items = []
-        page = 0
         size = 100
-        max_retries = 100
+        max_retries = 2
 
         logger.info(f"Fetching data from EUVD API: {self.url}")
 
-        while True:
-
-            retry_count = 0
-            success = False
-
-            while retry_count < max_retries and not success:
-                try:
-                    params = {"size": size, "page": page}
-                    response = requests.get(self.url, headers=headers, params=params, timeout=30)
-
-                    if response.status_code != HTTPStatus.OK:
-                        logger.error(f"API returned status {response.status_code} for page {page}")
-                        retry_count += 1
-                        if retry_count < max_retries:
-                            sleep_time = min(10 * (2 ** min(retry_count - 1, 5)), 60)
-                            logger.info(
-                                f"Retrying page {page} in {sleep_time}s (attempt {retry_count}/{max_retries})"
-                            )
-                            time.sleep(sleep_time)
-                            continue
-                        else:
-                            logger.error(f"Max retries reached for page {page}")
-                            return all_items
-
-                    data = response.json()
-                    items = data.get("items", [])
-
-                    if not items:
-                        logger.info(f"No items in response for page {page}; stopping fetch.")
-                        logger.info(
-                            f"Fetch completed successfully. Total items collected: {len(all_items)}"
-                        )
-
-                        # Cache the fetched data for reuse
-                        self._cached_data = all_items
-                        logger.info(f"Cached {len(all_items)} items for reuse")
-
-                        return all_items
-
-                    all_items.extend(items)
-                    logger.info(
-                        f"Fetched page {page}: {len(items)} items (total: {len(all_items)})"
-                    )
-                    success = True
-                    page += 1
-
-                except requests.exceptions.Timeout as e:
-                    retry_count += 1
-                    if retry_count < max_retries:
-                        logger.warning(
-                            f"Timeout on page {page}: {e}. Retrying in 10s (attempt {retry_count}/{max_retries})"
-                        )
-                        time.sleep(10)
-                    else:
-                        logger.error(f"Max retries reached for page {page} after timeout")
-                        return all_items
-
-                except Exception as e:
-                    retry_count += 1
-                    if retry_count < max_retries:
-                        logger.error(
-                            f"Error fetching page {page}: {e}. Retrying in 10s (attempt {retry_count}/{max_retries})"
-                        )
-                        time.sleep(10)
-                    else:
-                        logger.error(f"Max retries reached for page {page}")
-                        return all_items
+        total_count = self._fetch_total_count(size, max_retries)
+        if total_count is None:
+            logger.error("Failed to fetch total count from API")
+            return all_items
+
+        total_pages = math.ceil(total_count / size)
+        logger.info(f"Total advisories: {total_count}, Total pages: {total_pages}")
+
+        first_page_data = self._fetch_page(0, size, max_retries)
+        if first_page_data:
+            all_items.extend(first_page_data)
+            logger.info(f"Fetched page 0: {len(first_page_data)} items (total: {len(all_items)})")
+
+        for page in range(1, total_pages):
+            page_data = self._fetch_page(page, size, max_retries)
+            if page_data is None:
+                logger.warning(f"Skipping page {page} after failed retries")
+                continue
+
+            if not page_data:
+                logger.info(f"No items in response for page {page}; stopping fetch.")
+                break
+
+            all_items.extend(page_data)
+            logger.info(f"Fetched page {page}: {len(page_data)} items (total: {len(all_items)})")
+
+        logger.info(f"Fetch completed successfully. Total items collected: {len(all_items)}")
+
+        self._cached_data = all_items
+        logger.info(f"Cached {len(all_items)} items for reuse")
+
+        return all_items
+
+    def _make_request_with_retry(self, params, max_retries, context):
+        headers = {"User-Agent": "VulnerableCode"}
+
+        for attempt in range(max_retries):
+            try:
+                response = requests.get(self.url, headers=headers, params=params, timeout=30)
+
+                if response.status_code != HTTPStatus.OK:
+                    logger.error(f"API returned status {response.status_code} for {context}")
+                    if attempt < max_retries - 1:
+                        logger.info(f"Retrying {context} (attempt {attempt + 1}/{max_retries})")
+                        time.sleep(3)
+                        continue
+                    return None
+
+                return response.json()
+
+            except requests.exceptions.Timeout:
+                logger.warning(f"Timeout on {context} (attempt {attempt + 1}/{max_retries})")
+                if attempt < max_retries - 1:
+                    time.sleep(3)
+                    continue
+                return None
+
+            except requests.exceptions.RequestException as e:
+                logger.error(
+                    f"Network error on {context}: {e} (attempt {attempt + 1}/{max_retries})"
+                )
+                if attempt < max_retries - 1:
+                    time.sleep(3)
+                    continue
+                return None
+
+            except (ValueError, KeyError) as e:
+                logger.error(f"Error parsing response for {context}: {e}")
+                return None
+
+        return None
+
+    def _fetch_total_count(self, size, max_retries):
+        """Fetch the total count of advisories from the API."""
+        params = {"size": size, "page": 0}
+        data = self._make_request_with_retry(params, max_retries, "total count")
+
+        if data is None:
+            return None
+
+        total = data.get("total")
+        if total is None:
+            logger.error("No 'total' field in API response")
+
+        return total
+
+    def _fetch_page(self, page, size, max_retries):
+        """Fetch a single page of advisories from the API."""
+        params = {"size": size, "page": page}
+        data = self._make_request_with_retry(params, max_retries, f"page {page}")
+
+        if data is None:
+            return None
+
+        return data.get("items", [])
 
     def advisories_count(self) -> int:
         return len(self.fetch_data())
@@ -137,7 +163,7 @@ def collect_advisories(self) -> Iterable[AdvisoryData]:
                 advisory = self.parse_advisory(raw_data)
                 if advisory:
                     yield advisory
-            except Exception as e:
+            except (ValueError, KeyError, TypeError) as e:
                 logger.error(f"Failed to parse advisory: {e}")
                 logger.debug(f"Raw data: {raw_data}")
                 continue
@@ -162,7 +188,7 @@ def parse_advisory(self, raw_data: dict) -> AdvisoryData:
                     date_published = date_published.replace(
                         tzinfo=datetime.now().astimezone().tzinfo
                     )
-            except Exception as e:
+            except (ValueError, TypeError) as e:
                 logger.warning(f"Failed to parse date '{date_str}': {e}")
 
         references = []
 
@@ -13,8 +13,8 @@
 from unittest.mock import Mock
 from unittest.mock import patch
 
-from vulnerabilities.importer import AdvisoryData
 from vulnerabilities.pipelines.v2_importers.euvd_importer import EUVDImporterPipeline
+from vulnerabilities.tests import util_tests
 
 TEST_DATA = Path(__file__).parent.parent.parent / "test_data" / "euvd"
 
@@ -30,60 +30,17 @@ def test_collect_advisories(self, mock_get):
         sample2 = json.loads(sample2_path.read_text(encoding="utf-8"))
 
         mock_responses = [
+            Mock(status_code=200, json=lambda: sample1),
             Mock(status_code=200, json=lambda: sample1),
             Mock(status_code=200, json=lambda: sample2),
-            Mock(status_code=200, json=lambda: {"items": []}),
         ]
         mock_get.side_effect = mock_responses
 
         pipeline = EUVDImporterPipeline()
-        advisories = list(pipeline.collect_advisories())
-
-        assert len(advisories) == 5
-
-        first = advisories[0]
-        assert isinstance(first, AdvisoryData)
-        assert first.advisory_id == "EUVD-2025-197757"
-        assert "EUVD-2025-197757" in first.aliases
-        assert "CVE-2025-13284" in first.aliases
-        assert first.summary == "ThinPLUS vulnerability that allows remote code execution"
-        assert first.date_published is not None
-        assert len(first.severities) == 1
-        assert first.severities[0].system.identifier == "cvssv3.1"
-        assert first.severities[0].value == "9.8"
-        assert (
-            first.severities[0].scoring_elements == "CVSS:3.1/AV:N/AC:L/PR:N/UI:N/S:U/C:H/I:H/A:H"
-        )
-
-        urls = [ref.url for ref in first.references_v2]
-        assert "https://nvd.nist.gov/vuln/detail/CVE-2025-13284" in urls
-        assert "https://euvd.enisa.europa.eu/vulnerability/EUVD-2025-197757" in urls
-
-        second = advisories[1]
-        assert second.advisory_id == "EUVD-2024-123456"
-        assert "CVE-2024-12345" in second.aliases
-        assert "CVE-2024-67890" in second.aliases
-        assert len([a for a in second.aliases if a.startswith("CVE-")]) == 2
-
-        urls = [ref.url for ref in second.references_v2]
-        assert "https://example.com/advisory1" in urls
-        assert "https://example.com/advisory2" in urls
-
-        third = advisories[2]
-        assert third.advisory_id == "EUVD-2023-999999"
-        assert third.severities[0].system.identifier == "cvssv3"
-        assert third.severities[0].value == "5.3"
-
-        fourth = advisories[3]
-        assert fourth.advisory_id == "EUVD-2022-555555"
-        assert fourth.summary == ""
-        assert fourth.severities[0].system.identifier == "cvssv2"
-        assert fourth.severities[0].value == "4.3"
-
-        fifth = advisories[4]
-        assert fifth.advisory_id == "EUVD-2021-111111"
-        assert len([a for a in fifth.aliases if a.startswith("CVE-")]) == 0
-        assert fifth.summary == "Advisory without CVE alias but with EUVD ID"
+        advisories = [data.to_dict() for data in list(pipeline.collect_advisories())]
+
+        expected_file = TEST_DATA / "euvd-expected.json"
+        util_tests.check_results_against_json(advisories, expected_file)
 
     def test_get_scoring_system(self):
         """Test CVSS version to scoring system mapping"""
@@ -111,10 +68,10 @@ def test_get_scoring_system(self):
     @patch("vulnerabilities.pipelines.v2_importers.euvd_importer.requests.get")
     def test_advisories_count(self, mock_get):
         """Test counting advisories"""
-        sample_data = {"items": [{"id": "1"}, {"id": "2"}, {"id": "3"}]}
+        sample_data = {"items": [{"id": "1"}, {"id": "2"}, {"id": "3"}], "total": 3}
         mock_responses = [
             Mock(status_code=200, json=lambda: sample_data),
-            Mock(status_code=200, json=lambda: {"items": []}),
+            Mock(status_code=200, json=lambda: sample_data),
         ]
         mock_get.side_effect = mock_responses