fix(robot): match longest BDD prefix first for multi-word prefixes

d-biehl · d-biehl · commit dad536ecc44e · 2026-04-01T17:31:23.000+02:00
French BDD prefixes like "Étant donné que", "Et que", "Mais que" were not fully recognized because shorter prefixes (e.g. "Et") matched before longer ones (e.g. "Et que"). Replaced manual iteration and set lookups with a regex-based approach matching Robot Framework's own strategy: prefixes sorted by length (longest first), compiled into a cached regex pattern. This applies to keyword_finder, model_helper (split/strip/is_bdd), and semantic tokens. Fixes #560
diff --git a/packages/language_server/src/robotcode/language_server/robotframework/parts/semantic_tokens.py b/packages/language_server/src/robotcode/language_server/robotframework/parts/semantic_tokens.py
@@ -56,7 +56,7 @@
     SemanticTokenTypes,
 )
 from robotcode.core.text_document import TextDocument, range_to_utf16
-from robotcode.robot.diagnostics.keyword_finder import DEFAULT_BDD_PREFIXES
+from robotcode.robot.diagnostics.keyword_finder import DEFAULT_BDD_PREFIX_REGEXP, build_bdd_prefix_regexp
 from robotcode.robot.diagnostics.library_doc import (
     ALL_RUN_KEYWORDS_MATCHERS,
     BUILTIN_LIBRARY_NAME,
@@ -1116,24 +1116,15 @@ def generate_sem_sub_tokens(
                         if bdd_match:
                             bdd_len = len(bdd_match.group(1))
                     else:
-                        bdd_prefixes = (
-                            namespace.languages.bdd_prefixes
+                        bdd_regexp = (
+                            build_bdd_prefix_regexp(frozenset(namespace.languages.bdd_prefixes))
                             if namespace.languages is not None
-                            else DEFAULT_BDD_PREFIXES
+                            else DEFAULT_BDD_PREFIX_REGEXP
                         )
 
-                        for prefix in bdd_prefixes:
-                            if token.value.startswith(prefix + " "):
-                                bdd_len = len(prefix)
-                                break
-                        else:
-                            parts = token.value.split()
-                            if len(parts) > 1:
-                                for index in range(1, len(parts)):
-                                    prefix = " ".join(parts[:index]).title()
-                                    if prefix in bdd_prefixes:
-                                        bdd_len = len(prefix)
-                                        break
+                        bdd_match = bdd_regexp.match(token.value)
+                        if bdd_match:
+                            bdd_len = len(bdd_match.group(1))
 
                     if bdd_len > 0:
                         yield SemTokenInfo.from_token(
diff --git a/packages/robot/src/robotcode/robot/diagnostics/keyword_finder.py b/packages/robot/src/robotcode/robot/diagnostics/keyword_finder.py
@@ -1,7 +1,7 @@
 import functools
 import re
 from itertools import chain
-from typing import Dict, Iterable, Iterator, List, NamedTuple, Optional, Sequence, Tuple
+from typing import Dict, FrozenSet, Iterable, Iterator, List, NamedTuple, Optional, Sequence, Tuple
 
 from robot.libraries import STDLIBS
 from robotcode.core.lsp.types import (
@@ -38,6 +38,16 @@ class CancelSearchError(Exception):
 DEFAULT_BDD_PREFIXES = {"Given ", "When ", "Then ", "And ", "But "}
 
 
+@functools.lru_cache(maxsize=None)
+def build_bdd_prefix_regexp(prefixes: FrozenSet[str]) -> "re.Pattern[str]":
+    sorted_prefixes = sorted(prefixes, key=len, reverse=True)
+    pattern = "|".join(p.strip().replace(" ", r"\s") for p in sorted_prefixes).lower()
+    return re.compile(rf"({pattern})\s", re.IGNORECASE)
+
+
+DEFAULT_BDD_PREFIX_REGEXP = build_bdd_prefix_regexp(frozenset(DEFAULT_BDD_PREFIXES))
+
+
 class KeywordFinder:
     def __init__(
         self,
@@ -501,14 +511,9 @@ def _create_custom_and_standard_keyword_conflict_warning_message(
 
     @functools.cached_property
     def bdd_prefix_regexp(self) -> "re.Pattern[str]":
-        prefixes = (
-            "|".join(
-                self._languages.bdd_prefixes if self._languages is not None else ["given", "when", "then", "and", "but"]
-            )
-            .replace(" ", r"\s")
-            .lower()
-        )
-        return re.compile(rf"({prefixes})\s", re.IGNORECASE)
+        if self._languages is not None:
+            return build_bdd_prefix_regexp(frozenset(self._languages.bdd_prefixes))
+        return DEFAULT_BDD_PREFIX_REGEXP
 
     def _get_bdd_style_keyword(self, name: str) -> Optional[KeywordDoc]:
         match = self.bdd_prefix_regexp.match(name)
diff --git a/packages/robot/src/robotcode/robot/diagnostics/model_helper.py b/packages/robot/src/robotcode/robot/diagnostics/model_helper.py
@@ -39,7 +39,7 @@
     VariableDefinition,
     VariableNotFoundDefinition,
 )
-from .keyword_finder import DEFAULT_BDD_PREFIXES
+from .keyword_finder import DEFAULT_BDD_PREFIX_REGEXP, build_bdd_prefix_regexp
 from .library_doc import (
     ArgumentInfo,
     KeywordArgumentKind,
@@ -562,38 +562,35 @@ def get_expression_statement_types(cls) -> Tuple[Type[Any], ...]:
     BDD_TOKEN_REGEX = re.compile(r"^(Given|When|Then|And|But)\s", flags=re.IGNORECASE)
     BDD_TOKEN = re.compile(r"^(Given|When|Then|And|But)$", flags=re.IGNORECASE)
 
+    @classmethod
+    def _get_bdd_prefix_regexp(cls, namespace: "Namespace") -> "re.Pattern[str]":
+        if namespace.languages is not None:
+            return build_bdd_prefix_regexp(frozenset(namespace.languages.bdd_prefixes))
+        return DEFAULT_BDD_PREFIX_REGEXP
+
     @classmethod
     def split_bdd_prefix(cls, namespace: "Namespace", token: Token) -> Tuple[Optional[Token], Optional[Token]]:
-        bdd_token = None
-
-        parts = token.value.split()
-        if len(parts) < 2:
-            return None, token
-
-        for index in range(1, len(parts)):
-            prefix = " ".join(parts[:index]).title()
-            if prefix in (
-                namespace.languages.bdd_prefixes if namespace.languages is not None else DEFAULT_BDD_PREFIXES
-            ):
-                bdd_len = len(prefix)
-                bdd_token = Token(
-                    token.type,
-                    token.value[:bdd_len],
-                    token.lineno,
-                    token.col_offset,
-                    token.error,
-                )
+        bdd_match = cls._get_bdd_prefix_regexp(namespace).match(token.value)
+        if bdd_match:
+            bdd_len = len(bdd_match.group(1))
+            bdd_token = Token(
+                token.type,
+                token.value[:bdd_len],
+                token.lineno,
+                token.col_offset,
+                token.error,
+            )
 
-                token = Token(
-                    token.type,
-                    token.value[bdd_len + 1 :],
-                    token.lineno,
-                    token.col_offset + bdd_len + 1,
-                    token.error,
-                )
-                break
+            token = Token(
+                token.type,
+                token.value[bdd_len + 1 :],
+                token.lineno,
+                token.col_offset + bdd_len + 1,
+                token.error,
+            )
+            return bdd_token, token
 
-        return bdd_token, token
+        return None, token
 
     @classmethod
     def strip_bdd_prefix(cls, namespace: "Namespace", token: Token) -> Token:
@@ -611,24 +608,16 @@ def strip_bdd_prefix(cls, namespace: "Namespace", token: Token) -> Token:
                 )
             return token
 
-        parts = token.value.split()
-        if len(parts) < 2:
-            return token
-
-        for index in range(1, len(parts)):
-            prefix = " ".join(parts[:index]).title()
-            if prefix in (
-                namespace.languages.bdd_prefixes if namespace.languages is not None else DEFAULT_BDD_PREFIXES
-            ):
-                bdd_len = len(prefix)
-                token = Token(
-                    token.type,
-                    token.value[bdd_len + 1 :],
-                    token.lineno,
-                    token.col_offset + bdd_len + 1,
-                    token.error,
-                )
-                break
+        bdd_match = cls._get_bdd_prefix_regexp(namespace).match(token.value)
+        if bdd_match:
+            bdd_len = len(bdd_match.group(1))
+            token = Token(
+                token.type,
+                token.value[bdd_len + 1 :],
+                token.lineno,
+                token.col_offset + bdd_len + 1,
+                token.error,
+            )
 
         return token
 
@@ -638,17 +627,8 @@ def is_bdd_token(cls, namespace: "Namespace", token: Token) -> bool:
             bdd_match = cls.BDD_TOKEN.match(token.value)
             return bool(bdd_match)
 
-        parts = token.value.split()
-
-        for index in range(len(parts)):
-            prefix = " ".join(parts[: index + 1]).title()
-
-            if prefix.title() in (
-                namespace.languages.bdd_prefixes if namespace.languages is not None else DEFAULT_BDD_PREFIXES
-            ):
-                return True
-
-        return False
+        bdd_match = cls._get_bdd_prefix_regexp(namespace).match(token.value + " ")
+        return bdd_match is not None and len(bdd_match.group(1)) == len(token.value)
 
     @classmethod
     def get_keyword_definition_at_token(cls, library_doc: LibraryDoc, token: Token) -> Optional[KeywordDoc]:
diff --git a/tests/robotcode/language_server/robotframework/parts/test_semantic_tokens_unit.py b/tests/robotcode/language_server/robotframework/parts/test_semantic_tokens_unit.py
@@ -1842,5 +1842,142 @@ def test_complex_library_imports_and_usage(self) -> None:
         assert successful_tokens >= total_tokens * 0.7  # 70% success rate minimum
 
 
+class TestBddPrefixSemanticTokens:
+    """Test that generate_sem_sub_tokens correctly emits BDD_PREFIX tokens for multi-word and French prefixes."""
+
+    FRENCH_BDD_PREFIXES = {
+        "Étant Donné",
+        "Étant Donné Que",
+        "Étant Donné Qu'",
+        "Soit",
+        "Sachant Que",
+        "Sachant Qu'",
+        "Sachant",
+        "Etant Donné",
+        "Etant Donné Que",
+        "Etant Donné Qu'",
+        "Etant Donnée",
+        "Etant Données",
+        "Lorsque",
+        "Quand",
+        "Lorsqu'",
+        "Alors",
+        "Donc",
+        "Et",
+        "Et Que",
+        "Et Qu'",
+        "Mais",
+        "Mais Que",
+        "Mais Qu'",
+    }
+
+    @staticmethod
+    def _make_namespace(bdd_prefixes: Any = None) -> Any:
+        ns = type(
+            "MockNamespace",
+            (),
+            {
+                "find_keyword": lambda self, name, **kwargs: None,
+                "languages": None,
+                "namespaces": {},
+            },
+        )()
+        if bdd_prefixes is not None:
+            ns.languages = type("MockLanguages", (), {"bdd_prefixes": bdd_prefixes})()
+        return ns
+
+    def setup_method(self) -> None:
+        self.generator = SemanticTokenGenerator()
+
+    def _get_bdd_tokens(self, token_value: str, bdd_prefixes: Any = None) -> list[SemTokenInfo]:
+        token = Token(Token.KEYWORD, token_value, 1, 4)
+        node = KeywordCall([])
+        ns = self._make_namespace(bdd_prefixes)
+        return list(self.generator.generate_sem_sub_tokens(ns, None, token, node))
+
+    def _assert_bdd_prefix_token(self, tokens: list[SemTokenInfo], expected_prefix: str, start_col: int = 4) -> None:
+        bdd_tokens = [t for t in tokens if t.sem_token_type == RobotSemTokenTypes.BDD_PREFIX]
+        assert len(bdd_tokens) == 1, (
+            f"Expected exactly 1 BDD_PREFIX token for '{expected_prefix}', "
+            f"got {len(bdd_tokens)}: {[(t.col_offset, t.length) for t in bdd_tokens]}"
+        )
+        bdd = bdd_tokens[0]
+        assert bdd.col_offset == start_col
+        assert bdd.length == len(expected_prefix), (
+            f"Expected BDD prefix length {len(expected_prefix)} for '{expected_prefix}', got {bdd.length}"
+        )
+
+    @pytest.mark.parametrize(
+        ("text", "expected_prefix"),
+        [
+            ("Given something", "Given"),
+            ("When something", "When"),
+            ("Then something", "Then"),
+            ("And something", "And"),
+            ("But something", "But"),
+        ],
+    )
+    def test_english_bdd_prefix_tokens(self, text: str, expected_prefix: str) -> None:
+        tokens = self._get_bdd_tokens(text)
+        self._assert_bdd_prefix_token(tokens, expected_prefix)
+
+    @pytest.mark.skipif(RF_VERSION < (6, 0), reason="Language support requires RF >= 6.0")
+    @pytest.mark.parametrize(
+        ("text", "expected_prefix"),
+        [
+            ("Et que My Keyword", "Et que"),
+            ("Et My Keyword", "Et"),
+            ("Étant donné que My Keyword", "Étant donné que"),
+            ("Étant donné My Keyword", "Étant donné"),
+            ("Mais que My Keyword", "Mais que"),
+            ("Mais My Keyword", "Mais"),
+            ("Sachant que My Keyword", "Sachant que"),
+            ("Sachant My Keyword", "Sachant"),
+            ("Lorsque My Keyword", "Lorsque"),
+            ("Alors My Keyword", "Alors"),
+            ("Donc My Keyword", "Donc"),
+            ("Etant donné que My Keyword", "Etant donné que"),
+        ],
+    )
+    def test_french_bdd_prefix_tokens(self, text: str, expected_prefix: str) -> None:
+        tokens = self._get_bdd_tokens(text, self.FRENCH_BDD_PREFIXES)
+        self._assert_bdd_prefix_token(tokens, expected_prefix)
+
+    @pytest.mark.skipif(RF_VERSION < (6, 0), reason="Language support requires RF >= 6.0")
+    def test_french_no_bdd_prefix(self) -> None:
+        tokens = self._get_bdd_tokens("My Keyword", self.FRENCH_BDD_PREFIXES)
+        bdd_tokens = [t for t in tokens if t.sem_token_type == RobotSemTokenTypes.BDD_PREFIX]
+        assert len(bdd_tokens) == 0
+
+    @pytest.mark.skipif(RF_VERSION < (6, 0), reason="Language support requires RF >= 6.0")
+    def test_french_longest_prefix_wins_et_que_vs_et(self) -> None:
+        """Regression: 'Et que' must match as full prefix, not just 'Et'."""
+        tokens = self._get_bdd_tokens("Et que My Keyword", self.FRENCH_BDD_PREFIXES)
+        self._assert_bdd_prefix_token(tokens, "Et que")
+
+    @pytest.mark.skipif(RF_VERSION < (6, 0), reason="Language support requires RF >= 6.0")
+    def test_french_longest_prefix_wins_mais_que_vs_mais(self) -> None:
+        """Regression: 'Mais que' must match as full prefix, not just 'Mais'."""
+        tokens = self._get_bdd_tokens("Mais que My Keyword", self.FRENCH_BDD_PREFIXES)
+        self._assert_bdd_prefix_token(tokens, "Mais que")
+
+    @pytest.mark.skipif(RF_VERSION < (6, 0), reason="Language support requires RF >= 6.0")
+    def test_french_longest_prefix_wins_etant_donne_que_vs_etant_donne(self) -> None:
+        """Regression: 'Étant donné que' must match as full prefix, not just 'Étant donné'."""
+        tokens = self._get_bdd_tokens("Étant donné que My Keyword", self.FRENCH_BDD_PREFIXES)
+        self._assert_bdd_prefix_token(tokens, "Étant donné que")
+
+    @pytest.mark.skipif(RF_VERSION < (6, 0), reason="Language support requires RF >= 6.0")
+    def test_separator_token_after_bdd_prefix(self) -> None:
+        """The space after BDD prefix must also be emitted as a token."""
+        tokens = self._get_bdd_tokens("Et que My Keyword", self.FRENCH_BDD_PREFIXES)
+        bdd_tokens = [t for t in tokens if t.sem_token_type == RobotSemTokenTypes.BDD_PREFIX]
+        assert len(bdd_tokens) == 1
+        bdd = bdd_tokens[0]
+        # Separator token is the space between prefix and keyword, length=1
+        sep_candidates = [t for t in tokens if t.col_offset == bdd.col_offset + bdd.length and t.length == 1]
+        assert len(sep_candidates) == 1, "Expected a separator token (space) after BDD prefix"
+
+
 if __name__ == "__main__":
     pytest.main([__file__])
diff --git a/tests/robotcode/robot/diagnostics/test_bdd_prefixes.py b/tests/robotcode/robot/diagnostics/test_bdd_prefixes.py