EvolvingLMMs-Lab · kcz358 · Apr 1, 2026 · Mar 31, 2026
diff --git a/src/lmms_engine/models/qwen2_5_vl/qwen2_5_vl_liger.py b/src/lmms_engine/models/qwen2_5_vl/qwen2_5_vl_liger.py
@@ -53,10 +53,6 @@ def lce_forward(
         output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
     )
     return_dict = return_dict if return_dict is not None else self.config.use_return_dict
-    tokens_count = attention_mask.sum().item()
-    n_image_tokens = (input_ids == self.config.image_token_id).sum().item()
-    n_video_tokens = (input_ids == self.config.video_token_id).sum().item()
-    visual_tokens = n_image_tokens + n_video_tokens
 
     outputs = self.model(
         input_ids=input_ids,

diff --git a/src/lmms_engine/models/qwen2_5_vl/qwen2_5_vl_ops.py b/src/lmms_engine/models/qwen2_5_vl/qwen2_5_vl_ops.py
@@ -437,9 +437,6 @@ def attn_forward(
     **kwargs,
 ):
     ulysses_sp_size = get_ulysses_sequence_parallel_world_size()
-    bsz = hidden_states.shape[0]
-    q_len = torch.max(position_ids).item() + 1
-    kv_seq_len = q_len
     query_states = self.q_proj(hidden_states).view(-1, self.num_heads, self.head_dim)
     key_states = self.k_proj(hidden_states).view(-1, self.num_key_value_heads, self.head_dim)
     value_states = self.v_proj(hidden_states).view(-1, self.num_key_value_heads, self.head_dim)

diff --git a/src/lmms_engine/models/qwen3_vl/qwen3_vl_liger.py b/src/lmms_engine/models/qwen3_vl/qwen3_vl_liger.py
@@ -73,8 +73,6 @@ def qwen3_vl_lce_forward(
     seq_lens = outputs.get("seq_lens", None)
     word_idx = outputs.get("word_idx", None)
 
-    hidden_states = outputs[0]
-
     loss = None
     logits = None
     # if we are using sequence parallel, we need to slice the hidden states and labels

diff --git a/src/lmms_engine/models/qwen3_vl/qwen3_vl_ops.py b/src/lmms_engine/models/qwen3_vl/qwen3_vl_ops.py
@@ -433,7 +433,7 @@ def text_model_forward(
         hidden_states = layer_outputs
 
         # add visual features to the hidden states of first several layers
-        if deepstack_visual_embeds is not None and layer_idx in range(len(deepstack_visual_embeds)):
+        if deepstack_visual_embeds is not None and layer_idx < len(deepstack_visual_embeds):
             hidden_states = self._deepstack_process(
                 hidden_states,
                 visual_pos_masks,

diff --git a/src/lmms_engine/models/sequence_packing_utils.py b/src/lmms_engine/models/sequence_packing_utils.py
@@ -49,25 +49,12 @@ def _get_unpad_data(attention_mask):
     )
 
 
-# Copied from transformers.models.llama.modeling_llama._get_unpad_data
-def _get_unpad_data(attention_mask):
-    seqlens_in_batch = attention_mask.sum(dim=-1, dtype=torch.int32)
-    indices = torch.nonzero(attention_mask.flatten(), as_tuple=False).flatten()
-    max_seqlen_in_batch = seqlens_in_batch.max().item()
-    cu_seqlens = F.pad(torch.cumsum(seqlens_in_batch, dim=0, dtype=torch.int32), (1, 0))
-    return (
-        indices,
-        cu_seqlens,
-        max_seqlen_in_batch,
-    )
-
-
 def _unpad_input(input_ids, attention_mask):
     valid_mask = attention_mask.squeeze(1).squeeze(1).eq(1)
     seqlens_in_batch = valid_mask.sum(dim=-1, dtype=torch.int32)
     indices = torch.nonzero(valid_mask.flatten(), as_tuple=False).flatten()
     max_seqlen_in_batch = seqlens_in_batch.max().item()
-    cu_seqlens = F.pad(torch.cumsum(seqlens_in_batch, dim=0, dtype=torch.torch.int32), (1, 0))
+    cu_seqlens = F.pad(torch.cumsum(seqlens_in_batch, dim=0, dtype=torch.int32), (1, 0))
     input_ids = rearrange(input_ids, "b s ... -> (b s) ...")[indices]
 
     unpad_seq_len = input_ids.shape[0]