InternLM
diff --git a/‎autotest/tools/pipeline/mllm_case.py‎
Lines changed: 1 addition & 2 deletions b/‎autotest/tools/pipeline/mllm_case.py‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎docs/en/multi_modal/internvl.md‎
Lines changed: 1 addition & 1 deletion b/‎docs/en/multi_modal/internvl.md‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/en/multi_modal/minicpmv.md‎
Lines changed: 1 addition & 1 deletion b/‎docs/en/multi_modal/minicpmv.md‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/en/multi_modal/qwen2_5_vl.md‎
Lines changed: 1 addition & 1 deletion b/‎docs/en/multi_modal/qwen2_5_vl.md‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/zh_cn/multi_modal/internvl.md‎
Lines changed: 1 addition & 1 deletion b/‎docs/zh_cn/multi_modal/internvl.md‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/zh_cn/multi_modal/minicpmv.md‎
Lines changed: 1 addition & 1 deletion b/‎docs/zh_cn/multi_modal/minicpmv.md‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/zh_cn/multi_modal/qwen2_5_vl.md‎
Lines changed: 1 addition & 1 deletion b/‎docs/zh_cn/multi_modal/qwen2_5_vl.md‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lmdeploy/pytorch/model_inputs.py‎
Lines changed: 3 additions & 3 deletions b/‎lmdeploy/pytorch/model_inputs.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎lmdeploy/pytorch/models/chatglm2.py‎
Lines changed: 5 additions & 5 deletions b/‎lmdeploy/pytorch/models/chatglm2.py‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎lmdeploy/pytorch/models/cogvlm.py‎
Lines changed: 5 additions & 5 deletions b/‎lmdeploy/pytorch/models/cogvlm.py‎
Lines changed: 5 additions & 5 deletions
@@ -5,9 +5,8 @@
 from PIL import Image
 
 from lmdeploy import GenerationConfig, PytorchEngineConfig, TurbomindEngineConfig, pipeline
-from lmdeploy.vl import load_image
+from lmdeploy.vl import encode_image_base64, load_image
 from lmdeploy.vl.constants import IMAGE_TOKEN
-from lmdeploy.vl.utils import encode_image_base64
 
 gen_config = GenerationConfig(max_new_tokens=500, min_new_tokens=10)
 
 
@@ -116,7 +116,7 @@ import numpy as np
 from lmdeploy import pipeline, GenerationConfig
 from decord import VideoReader, cpu
 from lmdeploy.vl.constants import IMAGE_TOKEN
-from lmdeploy.vl.utils import encode_image_base64
+from lmdeploy.vl import encode_image_base64
 from PIL import Image
 pipe = pipeline('OpenGVLab/InternVL2-8B', log_level='INFO')
 
 
@@ -97,7 +97,7 @@ print(out.text)
 
 ```python
 from lmdeploy import pipeline, GenerationConfig
-from lmdeploy.vl.utils import encode_image_base64
+from lmdeploy.vl import encode_image_base64
 import torch
 from PIL import Image
 from transformers import AutoModel, AutoTokenizer
 
@@ -99,7 +99,7 @@ import numpy as np
 from lmdeploy import pipeline, GenerationConfig
 from decord import VideoReader, cpu
 from lmdeploy.vl.constants import IMAGE_TOKEN
-from lmdeploy.vl.utils import encode_image_base64
+from lmdeploy.vl import encode_image_base64
 from PIL import Image
 pipe = pipeline('Qwen/Qwen2.5-VL-7B-Instruct', log_level='INFO')
 
 
@@ -116,7 +116,7 @@ import numpy as np
 from lmdeploy import pipeline, GenerationConfig
 from decord import VideoReader, cpu
 from lmdeploy.vl.constants import IMAGE_TOKEN
-from lmdeploy.vl.utils import encode_image_base64
+from lmdeploy.vl import encode_image_base64
 from PIL import Image
 pipe = pipeline('OpenGVLab/InternVL2-8B', log_level='INFO')
 
 
@@ -97,7 +97,7 @@ print(out.text)
 
 ```python
 from lmdeploy import pipeline, GenerationConfig
-from lmdeploy.vl.utils import encode_image_base64
+from lmdeploy.vl import encode_image_base64
 import torch
 from PIL import Image
 from transformers import AutoModel, AutoTokenizer
 
@@ -99,7 +99,7 @@ import numpy as np
 from lmdeploy import pipeline, GenerationConfig
 from decord import VideoReader, cpu
 from lmdeploy.vl.constants import IMAGE_TOKEN
-from lmdeploy.vl.utils import encode_image_base64
+from lmdeploy.vl import encode_image_base64
 from PIL import Image
 pipe = pipeline('Qwen/Qwen2.5-VL-7B-Instruct', log_level='INFO')
 
 
@@ -11,7 +11,7 @@
 import lmdeploy.pytorch.distributed as dist
 from lmdeploy.pytorch.backends import get_backend
 from lmdeploy.pytorch.config import CacheConfig, DLLMConfig, ModelConfig, QuantizationConfig
-from lmdeploy.pytorch.multimodal.data_type import MultiModalTensor
+from lmdeploy.pytorch.multimodal.data_type import MultiModalData
 from lmdeploy.pytorch.utils import CtxMgrBase, singleton
 
 if TYPE_CHECKING:
@@ -66,7 +66,7 @@ class VisionModelInputs:
     input_embeddings: List[List[torch.Tensor]] = None
     input_embedding_ranges: List[torch.LongTensor] = None
     input_embedding_indexing: torch.BoolTensor = None
-    input_multimodals: List[MultiModalTensor] = None
+    input_multimodals: List[MultiModalData] = None
 
     def to_device(self, device: str, non_blocking: bool = False):
         """To device."""
@@ -255,7 +255,7 @@ class StepContext:
     local_adapter_ids: torch.LongTensor = None
     input_embeddings: torch.Tensor = None
     input_embedding_indexing: torch.Tensor = None
-    input_multimodals: List[MultiModalTensor] = None
+    input_multimodals: List[MultiModalData] = None
     vision_inputs: VisionModelInputs = None
     attn_metadata: Any = None
     kv_quant_policy: Literal[0, 4, 8] = 0
 
@@ -9,7 +9,7 @@
 
 from lmdeploy.pytorch.engine.input_process import BaseModelInputProcessor, PreprocessInputResult
 from lmdeploy.pytorch.model_inputs import StepContext, StepContextManager
-from lmdeploy.pytorch.multimodal.data_type import MultiModalTensor
+from lmdeploy.pytorch.multimodal.data_type import MultiModalData
 from lmdeploy.pytorch.nn import (ApplyRotaryEmb, Attention, RMSNorm, RopeType, SiluAndMul, build_rotary_embedding,
                                  build_rotary_params)
 from lmdeploy.pytorch.nn.linear import (build_colwise_linear, build_down_linear, build_gateup_linear, build_o_proj,
@@ -866,10 +866,10 @@ def preprocess_input(self,
             if isinstance(num_pad, torch.Tensor):
                 num_pad = num_pad.item()
 
-            mm_data = MultiModalTensor(data=pixel_values,
-                                       start=offset,
-                                       end=offset + num_pad,
-                                       meta=dict(image_token_id=image_token_id))
+            mm_data = MultiModalData(data=pixel_values,
+                                     start=offset,
+                                     end=offset + num_pad,
+                                     meta=dict(image_token_id=image_token_id))
             input_imgs.append(mm_data)
 
         result = PreprocessInputResult(
 
@@ -12,7 +12,7 @@
 from lmdeploy.pytorch.distributed import get_tp_world_rank
 from lmdeploy.pytorch.engine.input_process import BaseModelInputProcessor, PreprocessInputResult
 from lmdeploy.pytorch.model_inputs import StepContext, StepContextManager
-from lmdeploy.pytorch.multimodal.data_type import MultiModalTensor
+from lmdeploy.pytorch.multimodal.data_type import MultiModalData
 from lmdeploy.pytorch.nn import ApplyRotaryEmb, Attention, RMSNorm, RopeType, SiluAndMul, build_rotary_embedding
 from lmdeploy.pytorch.nn.linear import (build_colwise_linear, build_merged_colwise_linear, build_qkv_proj,
                                         build_rowwise_linear)
@@ -901,10 +901,10 @@ def preprocess_input(self, input_ids: List[int], input_multimodals=None, **kwarg
             if isinstance(num_pad, torch.Tensor):
                 num_pad = num_pad.item()
 
-            mm_data = MultiModalTensor(data=pixel_values,
-                                       start=offset,
-                                       end=offset + num_pad,
-                                       meta=dict(image_token_id=image_token_id))
+            mm_data = MultiModalData(data=pixel_values,
+                                     start=offset,
+                                     end=offset + num_pad,
+                                     meta=dict(image_token_id=image_token_id))
             input_imgs.append(mm_data)
 
         result = PreprocessInputResult(