EvolvingLMMs-Lab
diff --git a/‎.gitignore‎
Lines changed: 2 additions & 0 deletions b/‎.gitignore‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎lmms_eval/api/model.py‎
Lines changed: 11 additions & 0 deletions b/‎lmms_eval/api/model.py‎
Lines changed: 11 additions & 0 deletions
diff --git a/‎lmms_eval/api/task.py‎
Lines changed: 4 additions & 1 deletion b/‎lmms_eval/api/task.py‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎lmms_eval/models/__init__.py‎
Lines changed: 5 additions & 0 deletions b/‎lmms_eval/models/__init__.py‎
Lines changed: 5 additions & 0 deletions
@@ -81,3 +81,5 @@ CLAUDE.md
 .opencode
 .ignored/
 .worktrees/
+Bagel/
+MMaDA/
@@ -118,6 +118,17 @@ def generate_until_multi_round(self, requests) -> List[str]:
         """
         pass
 
+    def generate_visual_cot(self, requests) -> List[str]:
+        """Visual CoT (GtA) generation: two-stage pipeline that generates an
+        auxiliary visualization image (Stage 1) and then answers using both
+        the original and generated images (Stage 2).
+
+        Models that support GtA must override this method.
+        """
+        raise NotImplementedError(
+            f"{type(self).__name__} does not support Visual CoT (GtA). " f"To run visual_cot tasks, the model must implement generate_visual_cot(). " f"Supported models: ovis_u1, bagel_unig2u, illume_plus, qwen_image_edit"
+        )
+
     @classmethod
     def create_from_arg_string(cls: Type[T], arg_string: str, additional_config: Optional[dict] = None) -> T:
         """
 
@@ -59,6 +59,7 @@
     "generate_until",
     "generate_until_multi_round",
     "generate_until_agentic",
+    "generate_visual_cot",
 ]
 
 
@@ -1563,6 +1564,8 @@ def construct_requests(self, doc_id: int, ctx: str, **kwargs) -> Union[List[Inst
 
         elif self.OUTPUT_TYPE == "generate_until":
             arguments = (ctx, copy.deepcopy(self.config.generation_kwargs), self.doc_to_visual, doc_id, self.config.task, split)
+        elif self.OUTPUT_TYPE == "generate_visual_cot":
+            arguments = (ctx, copy.deepcopy(self.config.generation_kwargs), self.doc_to_visual, doc_id, self.config.task, split)
         elif self.OUTPUT_TYPE == "generate_until_multi_round":
             arguments = (ctx, copy.deepcopy(self.config.generation_kwargs), self.doc_to_visual, partial(self.config.doc_to_text, lmms_eval_specific_kwargs=self.lmms_eval_specific_kwargs), doc_id, self.config.task, split)
         elif self.OUTPUT_TYPE == "generate_until_agentic":
@@ -1572,7 +1575,7 @@ def construct_requests(self, doc_id: int, ctx: str, **kwargs) -> Union[List[Inst
     # TODO: we add a full_docs interface here for some evaluations that needs to access the full datasets during process_results function. we may have better ways to handle this.
     @retry(stop=(stop_after_attempt(5) | stop_after_delay(1200)), wait=wait_fixed(2))
     def process_results(self, doc, results, full_docs=None):
-        if self.OUTPUT_TYPE == "generate_until":
+        if self.OUTPUT_TYPE in ("generate_until", "generate_visual_cot"):
             if isinstance(results, list) and isinstance(results[0], list):
                 results = [res.strip() for res in results[0]]
             else:
 
@@ -23,6 +23,7 @@
     "auroracap": "AuroraCap",
     "bagel": "Bagel",
     "bagel_umm": "BagelUMM",
+    "bagel_unig2u": "BagelUniG2U",
     "baichuan_omni": "BaichuanOmni",
     "batch_gpt4": "BatchGPT4",
     "claude": "Claude",
@@ -40,6 +41,7 @@
     "gemma3": "Gemma3",
     "gpt4v": "GPT4V",
     "idefics2": "Idefics2",
+    "illume_plus": "ILLUMEPlus",
     "instructblip": "InstructBLIP",
     "internvideo2_5": "InternVideo2_5",
     "internvideo2": "InternVideo2",
@@ -63,12 +65,14 @@
     "minicpm_o": "MiniCPM_O",
     "minicpm_v": "MiniCPM_V",
     "minimonkey": "MiniMonkey",
+    "mmada": "MMaDA",
     "moviechat": "MovieChat",
     "mplug_owl_video": "mplug_Owl",
     "ola": "Ola",
     "omnivinci": "OmniVinci",
     "openai": "OpenAICompatible",
     "oryx": "Oryx",
+    "ovis_u1": "OvisU1",
     "penguinvl": "PenguinVL",
     "phi3v": "Phi3v",
     "phi4_multimodal": "Phi4",
@@ -79,6 +83,7 @@
     "qwen2_5_vl": "Qwen2_5_VL",
     "qwen2_audio": "Qwen2_Audio",
     "qwen2_vl": "Qwen2_VL",
+    "qwen_image_edit": "QwenImageEdit",
     "qwen3_omni": "Qwen3_Omni",
     "qwen3_vl": "Qwen3_VL",
     "qwen3_5": "Qwen3_5",