refactor: pdf-incomplete

geritwagner · geritwagner · commit 24b6b8acb07b · 2026-05-19T19:26:51.000+02:00
diff --git a/colrev/record/qm/pdf_checkers/pdf_incomplete.py b/colrev/record/qm/pdf_checkers/pdf_incomplete.py
@@ -5,6 +5,7 @@
 
 import re
 from pathlib import Path
+from typing import Optional
 
 import colrev.env.utils
 import colrev.record.qm.quality_model
@@ -53,100 +54,117 @@ def run(self, *, record: colrev.record.record_pdf.PDFRecord) -> None:
             record.remove_field_provenance_note(key=Fields.FILE, note=self.msg)
 
     def _pages_match_pdf(self, *, record: colrev.record.record_pdf.PDFRecord) -> bool:
+        nr_pages_in_file = self._get_pdf_page_count(record=record)
+        if nr_pages_in_file is None:
+            return False
 
-        def longer_with_appendix(
-            *,
-            record: colrev.record.record_pdf.PDFRecord,
-            nr_pages: int,
-        ) -> bool:
-            if 10 < nr_pages < record.data[Fields.NR_PAGES_IN_FILE]:
-                text = record.extract_text_by_page(
-                    pages=list(
-                        range(nr_pages + 1, record.data[Fields.NR_PAGES_IN_FILE] + 1)
-                    )
-                )
-                if "appendi" in text.lower():
-                    return True
+        if self._contains_full_version_purchase_notice(record=record):
             return False
 
-        def roman_to_int(input_str: str) -> int:
-            input_str = input_str.lower()
-            roman = {
-                "i": 1,
-                "v": 5,
-                "x": 10,
-                "l": 50,
-                "c": 100,
-                "d": 500,
-                "m": 1000,
-                "iv": 4,
-                "ix": 9,
-                "xl": 40,
-                "xc": 90,
-                "cd": 400,
-                "cm": 900,
-            }
-            i = 0
-            num = 0
-            while i < len(input_str):
-                if i + 1 < len(input_str) and input_str[i : i + 2] in roman:
-                    num += roman[input_str[i : i + 2]]
-                    i += 2
-                else:
-                    num += roman[input_str[i]]
-                    i += 1
-            return num
-
-        def get_nr_pages(*, pages: str) -> int:
-            pages_str = pages
-
-            roman_pages_matched = re.match(ROMAN_PAGES_PATTERN, pages)
-            if roman_pages_matched:
-                start_page, end_page = map(
-                    roman_to_int, roman_pages_matched.group().split("--")
-                )
-                pages_str = f"{start_page}--{end_page}"
-
-            roman_page_matched = re.match(ROMAN_PAGE_PATTERN, pages)
-            if roman_page_matched:
-                page = roman_page_matched.group()
-                pages_str = f"{roman_to_int(page)}"
+        expected_page_count = self._get_expected_page_count(record=record)
+        if expected_page_count is None:
+            return True
 
-            if "--" in pages_str:
-                start_page, end_page = map(int, pages_str.split("--"))
-                nr_pages = end_page - start_page + 1
-            elif "-" in pages_str:
-                start_page, end_page = map(int, pages_str.split("-"))
-                nr_pages = end_page - start_page + 1
-            else:
-                nr_pages = 1
-            return nr_pages
+        if self._longer_with_appendix(
+            record=record,
+            nr_pages=expected_page_count,
+            nr_pages_in_file=nr_pages_in_file,
+        ):
+            return True
 
-        # Get nr pages from PDF (set in quality_model)
-        if Fields.NR_PAGES_IN_FILE not in record.data:
-            return False
+        return expected_page_count == nr_pages_in_file
 
-        # Not complete if there is a FULL_VERSION_PURCHASE_NOTICE
-        if any(
-            FULL_VERSION_PURCHASE_NOTICE
+    def _get_pdf_page_count(
+        self, *, record: colrev.record.record_pdf.PDFRecord
+    ) -> Optional[int]:
+        if Fields.NR_PAGES_IN_FILE not in record.data:
+            return None
+        return record.data[Fields.NR_PAGES_IN_FILE]
+
+    def _contains_full_version_purchase_notice(
+        self, *, record: colrev.record.record_pdf.PDFRecord
+    ) -> bool:
+        return any(
+            full_version_purchase_notice
             in record.data[Fields.TEXT_FROM_PDF].lower().replace(" ", "")
-            for FULL_VERSION_PURCHASE_NOTICE in FULL_VERSION_PURCHASE_NOTICES
-        ):
-            return False
-
-        # Get nr pages from pages field
+            for full_version_purchase_notice in FULL_VERSION_PURCHASE_NOTICES
+        )
+
+    def _longer_with_appendix(
+        self,
+        *,
+        record: colrev.record.record_pdf.PDFRecord,
+        nr_pages: int,
+        nr_pages_in_file: int,
+    ) -> bool:
+        if 10 < nr_pages < nr_pages_in_file:
+            text = record.extract_text_by_page(
+                pages=list(range(nr_pages + 1, nr_pages_in_file + 1))
+            )
+            if "appendi" in text.lower():
+                return True
+        return False
+
+    def _roman_to_int(self, input_str: str) -> int:
+        input_str = input_str.lower()
+        roman = {
+            "i": 1,
+            "v": 5,
+            "x": 10,
+            "l": 50,
+            "c": 100,
+            "d": 500,
+            "m": 1000,
+            "iv": 4,
+            "ix": 9,
+            "xl": 40,
+            "xc": 90,
+            "cd": 400,
+            "cm": 900,
+        }
+        i = 0
+        num = 0
+        while i < len(input_str):
+            if i + 1 < len(input_str) and input_str[i : i + 2] in roman:
+                num += roman[input_str[i : i + 2]]
+                i += 2
+            else:
+                num += roman[input_str[i]]
+                i += 1
+        return num
+
+    def _normalize_pages_str(self, *, pages: str) -> str:
+        pages_str = pages
+
+        roman_pages_matched = re.match(ROMAN_PAGES_PATTERN, pages)
+        if roman_pages_matched:
+            start_page, end_page = map(
+                self._roman_to_int, roman_pages_matched.group().split("--")
+            )
+            pages_str = f"{start_page}--{end_page}"
+
+        roman_page_matched = re.match(ROMAN_PAGE_PATTERN, pages)
+        if roman_page_matched:
+            page = roman_page_matched.group()
+            pages_str = f"{self._roman_to_int(page)}"
+
+        return pages_str
+
+    def _get_expected_page_count(
+        self, *, record: colrev.record.record_pdf.PDFRecord
+    ) -> Optional[int]:
         try:
-            nr_pages = get_nr_pages(pages=record.data[Fields.PAGES])
+            pages_str = self._normalize_pages_str(pages=record.data[Fields.PAGES])
+            if "--" in pages_str:
+                start_page, end_page = map(int, pages_str.split("--"))
+                return end_page - start_page + 1
+            if "-" in pages_str:
+                start_page, end_page = map(int, pages_str.split("-"))
+                return end_page - start_page + 1
+            return 1
         except ValueError:
             # e.g., S49--S50
-            return True
-
-        # Special case: if the PDF has more pages than the pages field, it may be complete
-        if longer_with_appendix(record=record, nr_pages=nr_pages):
-            return True
-
-        # If the PDF has the same number of pages as the pages field, it is complete
-        return nr_pages == record.data[Fields.NR_PAGES_IN_FILE]
+            return None
 
 
 def register(quality_model: colrev.record.qm.quality_model.QualityModel) -> None: