InternLM · irexyc · Jun 25, 2026 · Jun 25, 2026 · Jun 25, 2026 · Jun 29, 2026
diff --git a/lmdeploy/serve/processors/multimodal.py b/lmdeploy/serve/processors/multimodal.py
@@ -399,13 +399,14 @@ async def _get_multimodal_prompt_input(self,
                                                            mm_processor_kwargs=mm_processor_kwargs)
             else:
                 results = await self.vl_encoder.preprocess(messages, mm_processor_kwargs=mm_processor_kwargs)
-                results = await self.vl_encoder.async_infer(results)
+                if not self.vl_encoder.model._turbomind_native_vision:
+                    results = await self.vl_encoder.async_infer(results)
                 results = await self.vl_encoder.wrap_for_turbomind(messages=results,
-                                                                chat_template=chat_template,
-                                                                tokenizer=self.tokenizer,
-                                                                sequence_start=sequence_start,
-                                                                tools=tools,
-                                                                chat_template_kwargs=chat_template_kwargs)
+                                                                   chat_template=chat_template,
+                                                                   tokenizer=self.tokenizer,
+                                                                   sequence_start=sequence_start,
+                                                                   tools=tools,
+                                                                   chat_template_kwargs=chat_template_kwargs)
         elif self.backend == 'pytorch':
             if self.vl_encoder._uses_new_preprocess:
                 input_prompt = self.vl_encoder.model.get_input_prompt(messages=messages,

diff --git a/lmdeploy/turbomind/models/__init__.py b/lmdeploy/turbomind/models/__init__.py
@@ -6,5 +6,6 @@
 from .llama import LlamaModel  # noqa: F401
 from .mixtral import MixtralModel  # noqa: F401
 from .qwen2 import Qwen2Model  # noqa: F401
+from .qwen2_vl import Qwen2VLModel  # noqa: F401
 from .qwen3 import Qwen3TextModel  # noqa: F401
 from .qwen3_5 import Qwen3_5Model, Qwen3_5TextModel, Qwen3_5VisionModel  # noqa: F401