Translate maime prompt templates to target languages (fi, da)

Daniel Zautner · Daniel Zautner · commit 4311b36f2fd1 · 2026-03-25T10:29:01.000+02:00
The instruction prompts were in English for all language variants.
Now Finnish tasks get Finnish prompts and Danish tasks get Danish prompts.
The boxed answer format tokens are kept as-is for scorer compatibility.
diff --git a/src/lighteval/tasks/multilingual/tasks/maime.py b/src/lighteval/tasks/multilingual/tasks/maime.py
@@ -33,39 +33,53 @@
 from lighteval.tasks.requests import Doc
 
 
-# Prompt template adapted from AIME task
-# Note: Uses English instructions for consistency with AIME
-MATH_PROMPT_TEMPLATE = dedent("""
-Solve the following math problem efficiently and clearly.  
-The last line of your response should be of the following format: 
-'Therefore, the final answer is: $\\boxed{{ANSWER}}$. I hope it is correct' 
-(without quotes) where ANSWER is just the final number or expression 
-that solves the problem. Think step by step before answering.
+# Per-language prompt templates
+MATH_PROMPT_TEMPLATES = {
+    "fi": dedent("""
+Ratkaise seuraava matemaattinen tehtävä tehokkaasti ja selkeästi.
+Vastauksesi viimeisen rivin tulee olla seuraavassa muodossa:
+'Näin ollen lopullinen vastaus on: $\\boxed{{ANSWER}}$. Toivottavasti se on oikein'
+(ilman lainausmerkkejä), jossa ANSWER on pelkästään lopullinen luku tai lauseke,
+joka ratkaisee tehtävän. Ajattele vaihe vaiheelta ennen vastaamista.
 
 {prompt}
-""")
+"""),
+    "da": dedent("""
+Løs følgende matematiske problem effektivt og tydeligt.
+Den sidste linje i dit svar skal være i følgende format:
+'Derfor er det endelige svar: $\\boxed{{ANSWER}}$. Jeg håber, det er korrekt'
+(uden anførselstegn), hvor ANSWER kun er det endelige tal eller udtryk,
+der løser problemet. Tænk trin for trin, før du svarer.
 
+{prompt}
+"""),
+}
 
 
 def record_to_sample(record):
     return Sample(input=record["question"], target=record["solution"])
 
 
-def maime_prompt(line, task_name: str = None):
-    return Doc(
-        task_name=task_name,
-        query=MATH_PROMPT_TEMPLATE.format(prompt=line["question"]),
-        choices=[line["solution"]],
-        gold_index=0,
-    )
+def _maime_prompt_fn(lang: str):
+    template = MATH_PROMPT_TEMPLATES[lang]
+
+    def maime_prompt(line, task_name: str = None):
+        return Doc(
+            task_name=task_name,
+            query=template.format(prompt=line["question"]),
+            choices=[line["solution"]],
+            gold_index=0,
+        )
+
+    return maime_prompt
 
 
 # Danish tasks
 maime25_da = LightevalTaskConfig(
     name="maime25:da",
-    prompt_function=maime_prompt,
+    prompt_function=_maime_prompt_fn("da"),
     sample_fields=record_to_sample,
-    solver=[prompt_template(MATH_PROMPT_TEMPLATE), generate(cache=True)],
+    solver=[prompt_template(MATH_PROMPT_TEMPLATES["da"]), generate(cache=True)],
     scorer=math_scorer(),
     hf_repo="LumiOpen/mAIME2025",
     hf_subset="da_combined",
@@ -83,7 +97,7 @@ def maime_prompt(line, task_name: str = None):
 
 maime25_da_avg = LightevalTaskConfig(
     name="maime25_avg:da",
-    prompt_function=maime_prompt,
+    prompt_function=_maime_prompt_fn("da"),
     sample_fields=record_to_sample,
     hf_repo="LumiOpen/mAIME2025",
     hf_subset="da_combined",
@@ -98,7 +112,7 @@ def maime_prompt(line, task_name: str = None):
 
 maime25_da_gpassk = LightevalTaskConfig(
     name="maime25_gpassk:da",
-    prompt_function=maime_prompt,
+    prompt_function=_maime_prompt_fn("da"),
     sample_fields=record_to_sample,
     hf_repo="LumiOpen/mAIME2025",
     hf_subset="da_combined",
@@ -114,9 +128,9 @@ def maime_prompt(line, task_name: str = None):
 # Finnish tasks
 maime25_fi = LightevalTaskConfig(
     name="maime25:fi",
-    prompt_function=maime_prompt,
+    prompt_function=_maime_prompt_fn("fi"),
     sample_fields=record_to_sample,
-    solver=[prompt_template(MATH_PROMPT_TEMPLATE), generate(cache=True)],
+    solver=[prompt_template(MATH_PROMPT_TEMPLATES["fi"]), generate(cache=True)],
     scorer=math_scorer(),
     hf_repo="LumiOpen/mAIME2025",
     hf_subset="fi_combined",
@@ -134,7 +148,7 @@ def maime_prompt(line, task_name: str = None):
 
 maime25_fi_avg = LightevalTaskConfig(
     name="maime25_avg:fi",
-    prompt_function=maime_prompt,
+    prompt_function=_maime_prompt_fn("fi"),
     sample_fields=record_to_sample,
     hf_repo="LumiOpen/mAIME2025",
     hf_subset="fi_combined",
@@ -149,7 +163,7 @@ def maime_prompt(line, task_name: str = None):
 
 maime25_fi_gpassk = LightevalTaskConfig(
     name="maime25_gpassk:fi",
-    prompt_function=maime_prompt,
+    prompt_function=_maime_prompt_fn("fi"),
     sample_fields=record_to_sample,
     hf_repo="LumiOpen/mAIME2025",
     hf_subset="fi_combined",