Skip to content

Commit feb49fe

Browse files
committed
Enhance temporal pattern matching to include 'bilagan' for improved accuracy
1 parent de52cc4 commit feb49fe

1 file changed

Lines changed: 16 additions & 14 deletions

File tree

formatters/format_sfs_text.py

Lines changed: 16 additions & 14 deletions
Original file line numberDiff line numberDiff line change
@@ -56,11 +56,11 @@
5656
ARTICLE_CLOSE_TAG_PATTERN = r'^\s*</article>\s*$'
5757

5858
# Temporal patterns
59-
INTOFORCE_ANY_PATTERN = r'/(?:rubriken |kapitlet |kapitelrubriken )?träder i kraft [Ii]:[^/]+'
60-
INTOFORCE_FULL_TEMPORAL_TAG_PATTERN = r'/(?:rubriken |kapitlet |kapitelrubriken )?träder i kraft [Ii]:[^/]+/\s*'
59+
INTOFORCE_ANY_PATTERN = r'/(?:rubriken |kapitlet |kapitelrubriken |bilagan )?träder i kraft [Ii]:[^/]+'
60+
INTOFORCE_FULL_TEMPORAL_TAG_PATTERN = r'/(?:rubriken |kapitlet |kapitelrubriken |bilagan )?träder i kraft [Ii]:[^/]+/\s*'
6161
INTOFORCE_DATE_EXTRACT_PATTERN = r'[Ii]:(\d{4}-\d{2}-\d{2})'
6262

63-
REVOKE_FULL_TEMPORAL_TAG_PATTERN = r'/(?:rubriken |kapitlet |kapitelrubriken )?upphör att gälla [Uu]:[^/]+/\s*'
63+
REVOKE_FULL_TEMPORAL_TAG_PATTERN = r'/(?:rubriken |kapitlet |kapitelrubriken |bilagan )?upphör att gälla [Uu]:[^/]+/\s*'
6464
REVOKE_DATE_EXTRACT_PATTERN = r'[Uu]:(\d{4}-\d{2}-\d{2})'
6565

6666
# Exclusion patterns
@@ -409,9 +409,8 @@ def _is_section_upphord(header_line: str, content: str) -> bool:
409409
"""
410410
Kontrollera om en sektion ska markeras som upphörd baserat på rubrik och innehåll.
411411
412-
Söker efter "/Rubriken upphör att gälla ", "/Upphör att gälla ", "/Kapitlet upphör att gälla ",
413-
eller "/Kapitelrubriken upphör att gälla " i både rubrikens text och det direkta innehållet.
414-
Sökningen är case-insensitive.
412+
Söker efter "upphör att gälla" med olika prefix i både rubrikens text och det direkta innehållet.
413+
Sökningen är case-insensitive och flexibel för vad som följer efter "gälla".
415414
416415
Args:
417416
header_line (str): Rubrikraden (med markdown-markeringar som ###)
@@ -425,14 +424,17 @@ def _is_section_upphord(header_line: str, content: str) -> bool:
425424
content_lower = content.lower()
426425

427426
# Kontrollera både i rubrik och innehåll efter upphör-markeringar
428-
return ('/rubriken upphör att gälla ' in header_lower or
429-
'/upphör att gälla ' in header_lower or
430-
'/kapitlet upphör att gälla ' in header_lower or
431-
'/kapitelrubriken upphör att gälla ' in header_lower or
432-
'/rubriken upphör att gälla ' in content_lower or
433-
'/upphör att gälla ' in content_lower or
434-
'/kapitlet upphör att gälla ' in content_lower or
435-
'/kapitelrubriken upphör att gälla ' in content_lower)
427+
# Använd 'in' för att matcha oavsett vad som följer efter "gälla"
428+
return ('/rubriken upphör att gälla' in header_lower or
429+
'/upphör att gälla' in header_lower or
430+
'/kapitlet upphör att gälla' in header_lower or
431+
'/kapitelrubriken upphör att gälla' in header_lower or
432+
'/bilagan upphör att gälla' in header_lower or
433+
'/rubriken upphör att gälla' in content_lower or
434+
'/upphör att gälla' in content_lower or
435+
'/kapitlet upphör att gälla' in content_lower or
436+
'/kapitelrubriken upphör att gälla' in content_lower or
437+
'/bilagan upphör att gälla' in content_lower)
436438

437439

438440
def _is_section_ikraft(header_line: str, content: str) -> bool:

0 commit comments

Comments
 (0)