support ovis2_5

ZX-ModelCloud · ZX-ModelCloud · commit 1f0a20485dbf · 2026-05-18T11:03:54.000Z
Signed-off-by: ZX-ModelCloud &lt;zx@modelcloud.ai&gt;
diff --git a/README.md b/README.md
@@ -21,6 +21,7 @@
 
 ## Latest News
 
+* 05/18/2026 7.1.0-dev `main`: ✨ Added `ovis2_5` model support
 * 05/13/2026 7.1.0-dev `main`: ✨ Added `minicpmv_4_6` model support
 * 05/07/2026 7.1.0-dev `main`: ✨ Added `GLM-4.5V`, `GLM-4.6V`, `Zamba` and `Zamba2` model support
 * 04/29/2026 7.1.0-dev `main`: ✨ Added PoolSideAI `Laguna` model support for fused Laguna MoE checkpoints. Added `ERNIE 4.5 VL MoE`, `Ling-2.6-flash` and NVIDIA `Nemotron 3 Nano Omni` model support.
@@ -255,7 +256,7 @@ Selected public references where teams or companies explicitly mention GPT-QMode
 | DBRX Converted           | ✅ | GPT-2                           | ✅ | Llama 3.2 VL     | ✅ | Nemotron Ultra      | ✅ | TeleChat2               | ✅ |
 | Deci                     | ✅ | GPT-J                           | ✅ | Llama 4          | ✅ | OPT                 | ✅ | Trinity                 | ✅ |
 | DeepSeek-V2/V3/R1        | ✅ | GPT-OSS                         | ✅ | LongCat Flash    | ✅ | OLMo2 / LLaDA2      | ✅ | Yi                      | ✅ |
-| DeepSeek-V2-Lite         | ✅ | Granite / Granite MoE           | ✅ | LongLLaMA        | ✅ | Ovis 1.6/2          | ✅ | Seed-OSS                | ✅ |
+| DeepSeek-V2-Lite         | ✅ | Granite / Granite MoE           | ✅ | LongLLaMA        | ✅ | Ovis 1.6/2/2.5      | ✅ | Seed-OSS                | ✅ |
 | Dream                    | ✅ | GRIN-MoE                        | ✅ | Instella         | ✅ | Phi 1-4             | ✅ | Voxtral                 | ✅ |
 | ERNIE 4.5 / MoE / VL MoE | ✅ | GLM 4/4V/4.5V/4.6V/5/5.1/OCR/ASR | ✅ | GLM4 MoE / Lite / 4.5V MoE | ✅ | MiniCPM 3/O/V/V 4_6 | ✅ | PanGu-α                 | ✅ |
 | XVERSE                   | ✅ | Brumby                          | ✅ | Hymba            | ✅ | Mistral             | ✅ | Qwen 1/2/3/3.5          | ✅ |
diff --git a/gptqmodel/models/auto.py b/gptqmodel/models/auto.py
@@ -142,6 +142,7 @@
 from .definitions.opt import OptQModel  # noqa: E402
 from .definitions.ovis import OvisQModel  # noqa: E402
 from .definitions.ovis2 import Ovis2QModel  # noqa: E402
+from .definitions.ovis2_5 import Ovis2_5QModel  # noqa: E402
 from .definitions.pangu_alpha import PanguAlphaQModel  # noqa: E402
 from .definitions.phi import PhiQModel  # noqa: E402
 from .definitions.phi3 import Phi3QModel, PhiMoEGPTQForCausalLM  # noqa: E402
@@ -277,6 +278,7 @@
     "olmo2": LlamaQModel, # 100% llama clone
     "ovis": OvisQModel,
     "ovis2": Ovis2QModel,
+    "ovis2_5": Ovis2_5QModel,
     "telechat": TeleChat2QModel,
     "instella": InstellaQModel,
     "mimo": MimoQModel,
diff --git a/gptqmodel/models/definitions/ovis2_5.py b/gptqmodel/models/definitions/ovis2_5.py
@@ -0,0 +1,154 @@
+# SPDX-FileCopyrightText: 2024-2025 ModelCloud.ai
+# SPDX-FileCopyrightText: 2024-2025 qubitium@modelcloud.ai
+# SPDX-License-Identifier: Apache-2.0
+# Contact: qubitium@modelcloud.ai, x.com/qubitium
+from types import SimpleNamespace
+from typing import Dict, Optional
+
+import requests
+from PIL import Image
+import torch
+from transformers import AutoModelForCausalLM, AutoProcessor, ProcessorMixin
+
+from ...utils.calibration import batched
+from ...utils.image import extract_vision_info, fetch_image
+from ...utils.model import MODALITY, move_to
+from ...utils.offload import offload_to_disk
+from .._const import CPU
+from ..base import BaseQModel
+
+class Ovis2_5QModel(BaseQModel):
+    loader = AutoModelForCausalLM
+
+    pre_lm_head_norm_module = "llm.model.model.norm"
+
+    # HF_CONVERSION_MAP_REVERSED = (
+    #     # Ovis 2.5 builds the SigLIP visual backbone via `AutoModel`, whose
+    #     # runtime shell exposes `visual_tokenizer.vit.*` directly, while
+    #     # checkpoint tensors still live under `visual_tokenizer.vit.vision_model.*`.
+    #     SimpleNamespace(
+    #         source_patterns=[r"^visual_tokenizer\.vit\.(?!vision_model\.)(.+)$"],
+    #         target_patterns=[r"^visual_tokenizer.vit.vision_model.\1"],
+    #         operations=[],
+    #     ),
+    # )
+
+    module_tree = [
+        "llm",
+        "model",
+        "layers",
+        "#",
+        {
+            "input_layernorm": ("input_layernorm:!",),
+            "self_attn": ("q_proj:0", "k_proj:0", "v_proj:0", "o_proj:1"),
+            "post_attention_layernorm": ("post_attention_layernorm:!",),
+            "mlp": ("gate_proj:0", "up_proj:0", "down_proj:1"),
+        }
+    ]
+
+    modality = [MODALITY.IMAGE_TO_TEXT]
+
+    require_load_processor = True
+
+    def pre_quantize_generate_hook_start(self):
+        self.shell_module_materialize(self.model.llm.model.embed_tokens, self.quantize_config.device)
+        self.shell_module_materialize(self.model.llm.model.rotary_emb, self.quantize_config.device)
+        self.shell_module_materialize(self.model.visual_tokenizer, self.quantize_config.device)
+        self.shell_module_materialize(self.model.vte, self.quantize_config.device)
+
+        # VisionRotaryEmbedding cannot be correctly reconstructed via `_build_nonpersistent_buffer_template()`.
+        # Therefore, VisionRotaryEmbedding is manually reconstructed here.
+        rotary_pos_emb_cls = type(self.model.visual_tokenizer.vit.vision_model.encoder.rotary_pos_emb)
+        config = self.model.config.vit_config
+        assert "VisionRotaryEmbedding" in rotary_pos_emb_cls.__name__
+        rotary_pos_emb = rotary_pos_emb_cls(config.hidden_size // config.num_attention_heads // 2).to(self.quantize_config.device)
+        self.model.visual_tokenizer.vit.vision_model.encoder.rotary_pos_emb = rotary_pos_emb
+
+    def pre_quantize_generate_hook_end(self):
+        if self.quantize_config.offload_to_disk:
+            offload_to_disk(model=self.model.llm,
+                            module=self.model.llm.model.embed_tokens,
+                            disk_path=self.quantize_config.offload_to_disk_path,
+                            )
+            offload_to_disk(model=self.model.llm,
+                            module=self.model.llm.model.rotary_emb,
+                            disk_path=self.quantize_config.offload_to_disk_path,
+                            )
+            offload_to_disk(model=self.model,
+                            module=self.model.visual_tokenizer,
+                            disk_path=self.quantize_config.offload_to_disk_path,
+                            )
+            offload_to_disk(model=self.model,
+                            module=self.model.vte,
+                            disk_path=self.quantize_config.offload_to_disk_path,
+                            )
+            return
+
+        self.model.llm.model.embed_tokens = move_to(self.model.llm.model.embed_tokens, device=CPU)
+        self.model.llm.model.rotary_emb = move_to(self.model.llm.model.rotary_emb, device=CPU)
+        self.model.visual_tokenizer = move_to(self.model.visual_tokenizer, device=CPU)
+        self.model.vte = move_to(self.model.vte, device=CPU)
+
+    def preprocess_dataset(self, sample: Dict) -> Dict:
+        return sample
+
+    def load_processor(self) -> ProcessorMixin:
+        return AutoProcessor.from_pretrained(self.model_local_path)
+
+    @staticmethod
+    def process_vision_info(
+            conversations: list[dict] | list[list[dict]],
+    ) -> Optional[list[Image.Image]]:
+        vision_infos = extract_vision_info(conversations)
+        # Read images
+        image_inputs = []
+        for vision_info in vision_infos:
+            if "image" in vision_info or "image_url" in vision_info:
+                image_inputs.append(fetch_image(vision_info))
+            else:
+                raise ValueError("image, image_url should in content.")
+        if len(image_inputs) == 0:
+            image_inputs = None
+        return image_inputs
+
+    @staticmethod
+    def replace_image_with_pil(sample):
+        """
+        image url -> PIL.Image
+        """
+
+        for msg in sample:
+            if "content" not in msg and not isinstance(msg["content"], dict):
+                continue
+
+            for item in msg["content"]:
+                if isinstance(item, dict) and item.get("type") == "image":
+                    item["image"] = Image.open(
+                        requests.get(item["image"], stream=True).raw
+                    )
+
+        return sample
+
+    def prepare_dataset(self, calibration_dataset, batch_size: int = 1, **kwargs):
+        calib_data = []
+        for batch in batched(calibration_dataset, batch_size, process_func=self.preprocess_dataset):
+            for sample in batch:
+                sample = self.replace_image_with_pil(sample)
+                input_ids, pixel_values, grid_thws = self.model.preprocess_inputs(
+                    messages=sample,
+                    add_generation_prompt=True,
+                )
+                attention_mask = torch.ne(input_ids, self.model.text_tokenizer.pad_token_id)
+
+                if pixel_values is not None:
+                    pixel_values = pixel_values.to(dtype=self.model.visual_tokenizer.vit.dtype)
+
+                calib_data.append(
+                    {
+                        "input_ids": input_ids,
+                        "attention_mask": attention_mask,
+                        "pixel_values": pixel_values,
+                        "grid_thws": grid_thws,
+                    }
+                )
+        return calib_data
diff --git a/tests/models/ovis/image_to_test_dataset.py b/tests/models/ovis/image_to_test_dataset.py
@@ -11,6 +11,7 @@
 from gptqmodel.models.definitions.minicpmv_4_6 import MiniCPMV4_6QModel
 from gptqmodel.models.definitions.ovis import OvisQModel
 from gptqmodel.models.definitions.ovis2 import Ovis2QModel
+from gptqmodel.models.definitions.ovis2_5 import Ovis2_5QModel
 from gptqmodel.models.definitions.qwen3_vl import Qwen3_VLQModel
 
 
@@ -94,6 +95,9 @@ def get_calib_dataset(model):
     if isinstance(model, Ovis2QModel):
         return prepare_dataset(format_ovis2_dataset, n_sample=20)
 
+    if isinstance(model, Ovis2_5QModel):
+        return prepare_dataset(format_ovis2_dataset, n_sample=20)
+
     if (
         isinstance(model, BaseQwen2VLGPTQ)
         or isinstance(model, Qwen3_VLQModel)
diff --git a/tests/models/test_ovis2_5.py b/tests/models/test_ovis2_5.py
@@ -0,0 +1,62 @@
+# SPDX-FileCopyrightText: 2024-2025 ModelCloud.ai
+# SPDX-FileCopyrightText: 2024-2025 qubitium@modelcloud.ai
+# SPDX-License-Identifier: Apache-2.0
+# Contact: qubitium@modelcloud.ai, x.com/qubitium
+
+import os.path
+
+import torch
+
+from model_test import ModelTest
+from PIL import Image
+
+
+class Test(ModelTest):
+    NATIVE_MODEL_ID = "/monster/data/model/Ovis2.5-2B" # AIDC-AI/Ovis2.5-2B
+
+    TRUST_REMOTE_CODE = True
+    EVAL_BATCH_SIZE = 1
+    MODEL_COMPAT_FAST_LAYER_POSITION = "first"
+
+    def test_ovis(self):
+        model, _tokenizer, _processor = self.quantModel(
+            self.NATIVE_MODEL_ID,
+            trust_remote_code=self.TRUST_REMOTE_CODE,
+            dtype=self.TORCH_DTYPE,
+            batch_size=1,
+            call_perform_post_quant_validation=False
+        )
+
+        text_tokenizer = model.text_tokenizer
+
+        image_path = os.path.join(os.path.dirname(os.path.abspath(__file__)), "ovis/10016.jpg")
+        image = Image.open(image_path)
+        messages = [{
+            "role": "user",
+            "content": [
+                {"type": "image", "image": image},
+                {"type": "text", "text": "What does this picture show?"},
+            ],
+        }]
+
+        input_ids, pixel_values, grid_thws = model.preprocess_inputs(
+            messages=messages,
+            add_generation_prompt=True,
+        )
+        input_ids = input_ids.to(model.device)
+        pixel_values = pixel_values.to(
+            dtype=model.visual_tokenizer.vit.dtype,
+            device=model.device,
+        ) if pixel_values is not None else None
+        grid_thws = grid_thws.to(model.device) if grid_thws is not None else None
+
+        with torch.inference_mode():
+            output_ids = model.generate(
+                inputs=input_ids,
+                pixel_values=pixel_values,
+                grid_thws=grid_thws,
+            )
+            output = text_tokenizer.decode(output_ids[0], skip_special_tokens=True)
+            print(f'Output:\n{output}')
+
+            self.assertIn("snow", output.lower())