add generate_vlm_hidden_for_draft_model_batch.sh for vlm (#247)

irisliu10 · web-flow · commit 0f7df68de463 · 2026-02-28T14:49:30.000+08:00
diff --git a/docs/source/features/speculative_decoding/eagle/vlm_eagle.md b/docs/source/features/speculative_decoding/eagle/vlm_eagle.md
@@ -88,6 +88,15 @@ bash scripts/speculative/hunyuan_ocr/generate_vlm_hidden_for_draft_model.sh
 # For Qwen3-VL series
 bash scripts/speculative/qwen3_vl/generate_vlm_hidden_for_draft_model.sh
 ```
+- 离线hidden_states采集时，如果由于pixel_values数组太长导致 OverflowError: There was an overflow with type <class 'list'>. 请采用分batch处理方式见：
+
+    ```shell
+    # For HunyuanOCR
+    bash scripts/speculative/hunyuan_ocr/generate_vlm_hidden_for_draft_model_batch.sh
+    # For Qwen3-VL series
+    bash scripts/speculative/qwen3_vl/generate_vlm_hidden_for_draft_model_batch.sh
+    ```
+
 > 注意：qwen3_vl系列模型生成hidden states需要更新transformers>=5.0.0,
  或者cherry-pick: https://github.com/huggingface/transformers/pull/42609,
  否则抓取的hidden states不可用！！！
diff --git a/scripts/speculative/hunyuan_ocr/generate_vlm_hidden_for_draft_model_batch.sh b/scripts/speculative/hunyuan_ocr/generate_vlm_hidden_for_draft_model_batch.sh
@@ -0,0 +1,25 @@
+#!/bin/bash
+
+DATASET_PATH=train_data
+MODEL_NAME=tencent/HunyuanOCR
+TARGET_BACKEND=hf
+MODEL_MAX_LENGTH=8192
+CHAT_TEMPLATE_TYPE=hunyuan_vl
+OUTPUT_DIR=train_data_hidden_states
+
+for ((i=0; i<32; i++)); do
+    DATASET_PATH=$DATASET_PATH/split_$i.jsonl
+    OUTPUT_DIR=$OUTPUT_DIR/split_$i
+    torchrun --nproc_per_node=8 \
+        tools/generate_hidden_for_draft_model.py \
+        --modal_type VLM \
+        --dataset_path $DATASET_PATH \
+        --model_name $MODEL_NAME \
+        --target_backend $TARGET_BACKEND \
+        --torch_dtype bfloat16 \
+        --model_max_length $MODEL_MAX_LENGTH \
+        --chat_template_type $CHAT_TEMPLATE_TYPE \
+        --outdir $OUTPUT_DIR \
+        --target_model_type hunyuan_vl \
+        --num_proc 8
+done
diff --git a/scripts/speculative/qwen3_vl/generate_vlm_hidden_for_draft_model_batch.sh b/scripts/speculative/qwen3_vl/generate_vlm_hidden_for_draft_model_batch.sh
@@ -0,0 +1,25 @@
+#!/bin/bash
+
+DATASET_PATH=train_data
+MODEL_NAME=Qwen/Qwen3-VL-4B-Instruct
+TARGET_BACKEND=hf
+MODEL_MAX_LENGTH=8192
+CHAT_TEMPLATE_TYPE=qwen3_vl
+OUTPUT_DIR=train_data_hidden_states
+
+for ((i=0; i<32; i++)); do
+    DATASET_PATH=$DATASET_PATH/split_$i.jsonl
+    OUTPUT_DIR=$OUTPUT_DIR/split_$i
+    torchrun --nproc_per_node=8 \
+        tools/generate_hidden_for_draft_model.py \
+        --modal_type VLM \
+        --dataset_path $DATASET_PATH \
+        --model_name $MODEL_NAME \
+        --target_backend $TARGET_BACKEND \
+        --torch_dtype bfloat16 \
+        --model_max_length $MODEL_MAX_LENGTH \
+        --chat_template_type $CHAT_TEMPLATE_TYPE \
+        --outdir $OUTPUT_DIR \
+        --target_model_type qwen3_vl \
+        --num_proc 8
+done