Tencent
diff --git a/‎angelslim/compressor/speculative/__init__.py‎
Lines changed: 2 additions & 0 deletions b/‎angelslim/compressor/speculative/__init__.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎angelslim/compressor/speculative/train/__init__.py‎
Lines changed: 2 additions & 0 deletions b/‎angelslim/compressor/speculative/train/__init__.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎angelslim/compressor/speculative/train/models/__init__.py‎
Lines changed: 2 additions & 0 deletions b/‎angelslim/compressor/speculative/train/models/__init__.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎angelslim/compressor/speculative/train/models/draft/base_model.py‎
Lines changed: 13 additions & 0 deletions b/‎angelslim/compressor/speculative/train/models/draft/base_model.py‎
Lines changed: 13 additions & 0 deletions
diff --git a/‎angelslim/compressor/speculative/train/models/draft/llama_eagle3.py‎
Lines changed: 2 additions & 2 deletions b/‎angelslim/compressor/speculative/train/models/draft/llama_eagle3.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎angelslim/compressor/speculative/train/models/model_utils.py‎
Lines changed: 79 additions & 1 deletion b/‎angelslim/compressor/speculative/train/models/model_utils.py‎
Lines changed: 79 additions & 1 deletion
diff --git a/‎angelslim/compressor/speculative/train/models/target/target_model_wrapper.py‎
Lines changed: 8 additions & 8 deletions b/‎angelslim/compressor/speculative/train/models/target/target_model_wrapper.py‎
Lines changed: 8 additions & 8 deletions
diff --git a/‎angelslim/compressor/speculative/train/trainer/eagle3_trainer.py‎
Lines changed: 73 additions & 10 deletions b/‎angelslim/compressor/speculative/train/trainer/eagle3_trainer.py‎
Lines changed: 73 additions & 10 deletions
diff --git a/‎docs/source/features/speculative_decoding/eagle/vlm_eagle.md‎
Lines changed: 6 additions & 14 deletions b/‎docs/source/features/speculative_decoding/eagle/vlm_eagle.md‎
Lines changed: 6 additions & 14 deletions
@@ -24,6 +24,7 @@
     create_target_model,
     data_generation_work_flow,
     get_supported_chat_template_type_strings,
+    infer_model_params,
 )
 
 __all__ = [
@@ -40,4 +41,5 @@
     "DatasetManager",
     "get_supported_chat_template_type_strings",
     "TargetHead",
+    "infer_model_params",
 ]
@@ -10,6 +10,7 @@
     TargetHead,
     create_draft_model,
     create_target_model,
+    infer_model_params,
 )
 from .trainer import Eagle3TrainerFactory
 
@@ -24,4 +25,5 @@
     "DatasetManager",
     "get_supported_chat_template_type_strings",
     "TargetHead",
+    "infer_model_params",
 ]
@@ -1,9 +1,11 @@
 from .draft import DraftModelConfig, create_draft_model
+from .model_utils import infer_model_params
 from .target import TargetHead, create_target_model
 
 __all__ = [
     "create_draft_model",
     "DraftModelConfig",
     "create_target_model",
     "TargetHead",
+    "infer_model_params",
 ]
@@ -205,3 +205,16 @@ def build_vocab_mapping(self, dataset, cache_path):
 
         self.t2d.copy_(t2d)
         self.d2t.copy_(d2t)
+
+    def load_vocab_mapping(self, vocab_mapping_path):
+        """
+        Load pre-computed vocab mapping directly from disk.
+
+        Args:
+            vocab_mapping_path: Path to the vocab_mapping.pt file saved by generate_hidden
+        """
+        cache = torch.load(vocab_mapping_path)
+        d2t = cache["d2t"]
+        t2d = cache["t2d"]
+        self.t2d.copy_(t2d)
+        self.d2t.copy_(d2t)
@@ -180,8 +180,8 @@ def apply_interleaved_mrope(self, freqs, mrope_section):
     @torch.no_grad()
     def forward(self, x, position_ids, **kwargs) -> Tuple[torch.Tensor, torch.Tensor]:
         if position_ids.ndim == 2:
-            position_ids = position_ids.unsqueeze(1)
-            # position_ids = position_ids[None].expand(3, position_ids.shape[0], -1)
+            # expand (batch, seq_len) to (3, batch, seq_len), match MRoPE T/H/W layout
+            position_ids = position_ids[None].expand(3, position_ids.shape[0], -1)
 
         inv_freq_expanded = (
             self.inv_freq[None, None, :, None].float().expand(3, position_ids.shape[1], -1, 1)
 
@@ -12,16 +12,18 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-from typing import Optional
+from typing import Optional, Tuple
 
 import torch
+from transformers import AutoConfig
 
 __all__ = [
     "make_causal_mask",
     "expand_mask",
     "repeat_kv",
     "rotate_half",
     "apply_rotary_pos_emb",
+    "infer_model_params",
 ]
 
 
@@ -107,3 +109,79 @@ def apply_rotary_pos_emb_mrope(q, k, cos, sin, position_ids=None, unsqueeze_dim=
     q_embed = (q * cos) + (rotate_half(q) * sin)
     k_embed = (k * cos) + (rotate_half(k) * sin)
     return q_embed, k_embed
+
+
+# model_type -> (lm_head_key, embed_weight_key, chat_template_type)
+# key: model_type (from AutoConfig)
+MODEL_TYPE_PARAM_MAP: dict = {
+    "qwen3_vl": (
+        "model.language_model.embed_tokens.weight",
+        "model.language_model.embed_tokens.weight",
+        "qwen3_vl",
+    ),
+    "qwen3_vl_moe": (
+        "model.language_model.embed_tokens.weight",
+        "model.language_model.embed_tokens.weight",
+        "qwen3_vl",
+    ),
+    "hunyuan_vl": (
+        "model.embed_tokens.weight",
+        "model.embed_tokens.weight",
+        "hunyuan_vl",
+    ),
+    "qwen2_audio": (
+        "lm_head.weight",
+        "language_model.model.embed_tokens.weight",
+        "qwen2_audio",
+    ),
+    "qwen3": (
+        "lm_head.weight",
+        "model.embed_tokens.weight",
+        "qwen3",
+    ),
+    "qwen2_5": (
+        "lm_head.weight",
+        "model.embed_tokens.weight",
+        "qwen2.5",
+    ),
+    "llama": (
+        "lm_head.weight",
+        "model.embed_tokens.weight",
+        "qwen3",
+    ),
+}
+
+
+def infer_model_params(
+    model_name_or_path: str,
+) -> Tuple[Optional[str], Optional[str], Optional[str]]:
+    """
+    auto-detect lm_head_key、embed_weight_key、chat_template_type from target model path
+    Args:
+        model_name_or_path: target model path
+
+    Returns:
+        (lm_head_key, embed_weight_key, chat_template_type)
+        (None, None, None) if failed to auto-detect
+    """
+    try:
+        config = AutoConfig.from_pretrained(model_name_or_path, trust_remote_code=True)
+        model_type = getattr(config, "model_type", None)
+        print(f"[Auto-detect] Detected model_type: {model_type}")
+        if model_type in MODEL_TYPE_PARAM_MAP:
+            lm_head_key, embed_weight_key, chat_template_type = MODEL_TYPE_PARAM_MAP[model_type]
+            print(
+                f"[Auto-detect] lm_head_key={lm_head_key}, "
+                f"embed_weight_key={embed_weight_key}, "
+                f"chat_template_type={chat_template_type}"
+            )
+            return lm_head_key, embed_weight_key, chat_template_type
+        else:
+            print(
+                f"[Auto-detect] No preset mapping found for model_type={model_type!r}, "
+                "will use command-line specified values"
+            )
+            return None, None, None
+    except Exception as e:
+        print(f"[Auto-detect] Failed to read model config: {e}")
+        return None, None, None
@@ -370,9 +370,9 @@ def get_hidden_states_and_logits(
 
         def hook(module, args, kwargs):
             if "inputs_embeds" in kwargs and kwargs["inputs_embeds"] is not None:
-                inputs_embeds_list.append(kwargs["inputs_embeds"].clone().detach().cpu())
+                inputs_embeds_list.append(kwargs["inputs_embeds"].clone().detach())
             if "position_ids" in kwargs and kwargs["position_ids"] is not None:
-                position_ids_list.append(kwargs["position_ids"].clone().detach().cpu())
+                position_ids_list.append(kwargs["position_ids"].clone().detach())
             return args, kwargs
 
         if self.target_model_type == "qwen3_vl":
@@ -440,9 +440,9 @@ def get_aux_and_target_hiddens(
 
         def hook(module, args, kwargs):
             if "inputs_embeds" in kwargs and kwargs["inputs_embeds"] is not None:
-                inputs_embeds_list.append(kwargs["inputs_embeds"].clone().detach().cpu())
+                inputs_embeds_list.append(kwargs["inputs_embeds"].clone().detach())
             if "position_ids" in kwargs and kwargs["position_ids"] is not None:
-                position_ids_list.append(kwargs["position_ids"].clone().detach().cpu())
+                position_ids_list.append(kwargs["position_ids"].clone().detach())
             return args, kwargs
 
         if self.target_model_type == "qwen3_vl":
@@ -572,9 +572,9 @@ def get_hidden_states_and_logits(
 
         def hook(module, args, kwargs):
             if "inputs_embeds" in kwargs and kwargs["inputs_embeds"] is not None:
-                inputs_embeds_list.append(kwargs["inputs_embeds"].clone().detach().cpu())
+                inputs_embeds_list.append(kwargs["inputs_embeds"].clone().detach())
             if "position_ids" in kwargs and kwargs["position_ids"] is not None:
-                position_ids_list.append(kwargs["position_ids"].clone().detach().cpu())
+                position_ids_list.append(kwargs["position_ids"].clone().detach())
             return args, kwargs
 
         handle = self.model.language_model.register_forward_pre_hook(hook, with_kwargs=True)
@@ -628,9 +628,9 @@ def get_aux_and_target_hiddens(
 
         def hook(module, args, kwargs):
             if "inputs_embeds" in kwargs and kwargs["inputs_embeds"] is not None:
-                inputs_embeds_list.append(kwargs["inputs_embeds"].clone().detach().cpu())
+                inputs_embeds_list.append(kwargs["inputs_embeds"].clone().detach())
             if "position_ids" in kwargs and kwargs["position_ids"] is not None:
-                position_ids_list.append(kwargs["position_ids"].clone().detach().cpu())
+                position_ids_list.append(kwargs["position_ids"].clone().detach())
             return args, kwargs
 
         handle = self.model.language_model.register_forward_pre_hook(hook, with_kwargs=True)
 
@@ -13,6 +13,7 @@
 # limitations under the License.
 
 import os
+import time
 from abc import ABC, abstractmethod
 from typing import Dict, List, Optional, Tuple
 
@@ -44,6 +45,67 @@ def __init__(self, draft_model: nn.Module, length: int, **kwargs):
         """
         super().__init__(model=draft_model, **kwargs)
         self.length = length
+        self._train_start_time = None
+        self._pending_log: dict = (
+            {}
+        )  # cache acc/ploss log for merging with base Trainer's loss log
+        self._pending_log_count: int = 0  # accumulated batch count for averaging the cached log
+
+    def train(self, *args, **kwargs):
+        """Override train method to record training start time for estimating remaining time."""
+        self._train_start_time = time.time()
+        return super().train(*args, **kwargs)
+
+    def log(self, logs: dict, start_time: Optional[float] = None) -> None:
+        """
+        rewrite log method to merge acc/ploss log with base Trainer's loss log.
+        """
+        if "loss" in logs and self._pending_log:
+            # merge cached acc/ploss data (average)
+            count = max(self._pending_log_count, 1)
+            acc_ploss = {k: v / count for k, v in self._pending_log.items()}
+            merged = {}
+
+            # step
+            max_steps = 0
+            if self.state is not None:
+                global_step = self.state.global_step
+                max_steps = self.state.max_steps
+                merged["step"] = global_step
+
+            # epoch
+            if "epoch" in logs:
+                merged["epoch"] = logs["epoch"]
+            if "loss" in logs:
+                merged["loss"] = logs["loss"]
+            if "grad_norm" in logs:
+                merged["grad_norm"] = logs["grad_norm"]
+
+            if "learning_rate" in logs:
+                merged["lr"] = logs["learning_rate"]
+
+            # acc/ploss
+            merged.update(acc_ploss)
+
+            # remaining_time
+            if (
+                self.state is not None
+                and self._train_start_time is not None
+                and global_step > 0
+                and max_steps > 0
+            ):
+                elapsed = time.time() - self._train_start_time
+                time_per_step = elapsed / global_step
+                remaining_seconds = int(time_per_step * (max_steps - global_step))
+                hours, remainder = divmod(remaining_seconds, 3600)
+                minutes, seconds = divmod(remainder, 60)
+                merged["remaining_time"] = f"{hours:02d}h:{minutes:02d}m:{seconds:02d}s"
+
+            self._pending_log.clear()
+            self._pending_log_count = 0
+            super().log(merged, start_time)
+        else:
+            super().log(logs, start_time)
 
     @property
     def draft_model(self) -> nn.Module:
@@ -131,7 +193,11 @@ def prepare_attention_mask_and_position_ids(
             position_ids = torch.arange(0, seq_length, dtype=torch.long, device=device)
             position_ids = position_ids.unsqueeze(0).view(-1, seq_length)
         else:
-            position_ids = position_ids.view(-1, seq_length).long()
+            if position_ids.ndim == 3:
+                # MRoPE format: (3, batch, seq_len), keep as-is
+                position_ids = position_ids.long()
+            else:
+                position_ids = position_ids.view(-1, seq_length).long()
 
         if attention_mask is None:
             attention_mask = torch.ones((batch_size, seq_length), dtype=torch.bool, device=device)
@@ -210,15 +276,12 @@ def draft_model_training_time_test(
         ploss_weight = [0.8**i for i in range(len(plosses))]
         ploss = sum([ploss_weight[i] * plosses[i] for i in range(len(plosses))])
 
-        log = {f"{log_prefix}/acc_{i}": round(float(acces[i]), 3) for i in range(len(acces))}
-        log.update(
-            {
-                f"{log_prefix}/ploss_{i}": round(float(plosses[i].item()), 3)
-                for i in range(len(plosses))
-            }
-        )
-        self.log(log)
-
+        log = {f"{log_prefix}/acc_{i}": acces[i] for i in range(len(acces))}
+        log.update({f"{log_prefix}/ploss_{i}": plosses[i].item() for i in range(len(plosses))})
+        # Cache log for merging with base Trainer's loss log
+        for k, v in log.items():
+            self._pending_log[k] = self._pending_log.get(k, 0.0) + v
+        self._pending_log_count += 1
         # Step 9: Return loss
         return ploss
 
 
@@ -88,14 +88,6 @@ bash scripts/speculative/hunyuan_ocr/generate_vlm_hidden_for_draft_model.sh
 # For Qwen3-VL series
 bash scripts/speculative/qwen3_vl/generate_vlm_hidden_for_draft_model.sh
 ```
-- 离线hidden_states采集时，如果由于pixel_values数组太长导致 OverflowError: There was an overflow with type <class 'list'>. 请采用分batch处理方式见：
-
-    ```shell
-    # For HunyuanOCR
-    bash scripts/speculative/hunyuan_ocr/generate_vlm_hidden_for_draft_model_batch.sh
-    # For Qwen3-VL series
-    bash scripts/speculative/qwen3_vl/generate_vlm_hidden_for_draft_model_batch.sh
-    ```
 
 > 注意：qwen3_vl系列模型生成hidden states需要更新transformers>=5.0.0,
  或者cherry-pick: https://github.com/huggingface/transformers/pull/42609,
@@ -106,7 +98,8 @@ bash scripts/speculative/qwen3_vl/generate_vlm_hidden_for_draft_model.sh
 在使用前，需要在脚本中配置以下参数：
 
 - `DATASET_PATH`: 输入数据集的HF名称或本地路径
-- `MODEL_NAME`: 目标模型的HF名称或本地路径
+- `TARGET_MODEL_NAME_OR_PATH`: 目标模型的HF名称或本地路径
+- `DRAFT_MODEL_CONFIG_PATH`: 草稿模型的config路径
 - `TARGET_BACKEND`: 目标模型后端，目前仅支持HF
 - `MODEL_MAX_LENGTH`: 生成数据的上下文长度
 - `CHAT_TEMPLATE_TYPE`: 目标模型的目标类型，目前支持qwen3_vl/hunyuan_vl
@@ -159,7 +152,6 @@ bash scripts/speculative/qwen3_vl/train_eagle3_vlm_offline.sh
 
 - `TARGET_MODEL_NAME_OR_PATH`: 目标模型的HF名称或本地名称
 - `DRAFT_MODEL_CONFIG_PATH`: 草稿模型的config路径
-- `TRAIN_DATA_PATH`: 训练数据路径,.jsonl格式
 - `TRAIN_HIDDEN_PATH`: 训练hidden states数据路径
 - `EVAL_HIDDEN_PATH`: 验证hidden states数据路径
 - `OUTPUT_DIR`: Eagle3模型输出路径
@@ -175,7 +167,8 @@ AngelSlim提供了HunyuanOCR和Qwen3-VL系列模型vLLM backend的Eagle3基准
 
 ### 4.1 vLLM基准测试
 
-> vLLM 适配参考: [Support Eagle3 for HunyuanOCR & Qwen3-VL](https://github.com/vllm-project/vllm/pull/32230)
+> vLLM 建议版本0.16.0以上，已支持Hunyuan/HunyuanVL/Qwen3-VL。
+> HunyuanOCR & Qwen3VLMoe & Qwen2Audio 适配需要cherry-pick这个PR: [feature: support eagle3 for HunyuanOCR & Qwen3VLMoe & Qwen2Audio](https://github.com/vllm-project/vllm/pull/32230)
 
 #### 4.1.1 基本用法
 
@@ -197,7 +190,7 @@ python3 tools/vllm_offline_eagle3_vlm_batch.py \
 - `--draft_model`: Eagle辅助模型路径（必需）
 
 **基准测试配置：**
-- `--dataset`: 基准数据集名称，默认为 `lmms-lab/textvqa`, 可选【`lmms-lab/textvqa`,`MMMU/MMMU`,`Lin-Chen/MMStar`,`opendatalab/OmniDocBench`,`Lin-Chen/MMStar`】
+- `--dataset`: 基准数据集名称，默认为 `lmms-lab/textvqa`, 可选【`lmms-lab/textvqa`,`MMMU/MMMU`,`Lin-Chen/MMStar`,`opendatalab/OmniDocBench`,`Lin-Chen/MMStar`】。也支持本地的数据集路径，格式见: 2.1 数据组织形式
 - `--use_eagle`: 运行Eagle3推理，默认为False
 - `--output_file`: 输出结果文件路径
 - `--num_prompts`: 测试用例数量，默认为100
@@ -233,11 +226,10 @@ python3 tools/vllm_offline_eagle3_vlm_batch.py \
     --output_file "$OUTPUT_FILE"
 ```
 
-**Baseline基准测试：**
+**Baseline基准测试（不使用投机采样）：**
 ```shell
 python3 tools/vllm_offline_eagle3_vlm_batch.py \
     --target_model Qwen/Qwen3-VL-2B-Instruct \
-    --num_spec_tokens 4 \
     --dataset "$task" \
     --num_prompts 80 \
     --temp 0 \
Original file line number	Diff line number	Diff line change
`@@ -24,6 +24,7 @@`
`24`	`24`	`create_target_model,`
`25`	`25`	`data_generation_work_flow,`
`26`	`26`	`get_supported_chat_template_type_strings,`
	`27`	`+ infer_model_params,`
`27`	`28`	`)`
`28`	`29`
`29`	`30`	`__all__ = [`
`@@ -40,4 +41,5 @@`
`40`	`41`	`"DatasetManager",`
`41`	`42`	`"get_supported_chat_template_type_strings",`
`42`	`43`	`"TargetHead",`
	`44`	`+ "infer_model_params",`
`43`	`45`	`]`
Original file line number	Diff line number	Diff line change
`@@ -10,6 +10,7 @@`
`10`	`10`	`TargetHead,`
`11`	`11`	`create_draft_model,`
`12`	`12`	`create_target_model,`
	`13`	`+ infer_model_params,`
`13`	`14`	`)`
`14`	`15`	`from .trainer import Eagle3TrainerFactory`
`15`	`16`
`@@ -24,4 +25,5 @@`
`24`	`25`	`"DatasetManager",`
`25`	`26`	`"get_supported_chat_template_type_strings",`
`26`	`27`	`"TargetHead",`
	`28`	`+ "infer_model_params",`
`27`	`29`	`]`