Tencent
diff --git a/‎README.md‎
Lines changed: 90 additions & 0 deletions b/‎README.md‎
Lines changed: 90 additions & 0 deletions
diff --git a/‎README_cn.md‎
Lines changed: 90 additions & 0 deletions b/‎README_cn.md‎
Lines changed: 90 additions & 0 deletions
diff --git a/‎angelslim/compressor/token_compressor/adapter.py‎
Lines changed: 176 additions & 0 deletions b/‎angelslim/compressor/token_compressor/adapter.py‎
Lines changed: 176 additions & 0 deletions
@@ -290,6 +290,18 @@ For more details, please refer to the [Quick Start Documentation](https://angels
   ```
   For more quantization inference methods, please refer to [the Diffusion Model Quantization Documentation](https://angelslim.readthedocs.io/zh-cn/latest/features/diffusion/quantization.html).
 
+#### 2.4 Token Compression (VLM)
+
+AngelSlim provides a universal metadata-driven framework for vision token pruning and merging. You can quickly verify a compression strategy (e.g., **VisionZip**) with a smoke test:
+
+```shell
+python tools/test_universal_pruning.py \
+    --model_path "Qwen/Qwen2.5-VL-3B-Instruct" \
+    --config "configs/qwen2_5_vl/pruning/visionzip_r0.9.yaml"
+```
+
+For more details on implementing new strategies, please refer to the [Token Compressor Documentation](https://angelslim.readthedocs.io/zh-cn/latest/features/token_compressor/index.html).
+
 ### 3. Deployment and Testing
 
 #### 3.1 Offline Inference
@@ -1025,6 +1037,84 @@ Other models such as GLM-4.6, Qwen2.5, and Seed-OSS have been evaluated on bench
 
 </details>
 
+### 3. Token Compression (VLM)
+
+We evaluated various vision token compression strategies on the **Qwen2.5-VL-3B-Instruct** model across multiple multimodal benchmarks. You can replicate these results using the following command:
+
+```shell
+python tools/run_pruning_eval.py \
+    --model_path "Qwen/Qwen2.5-VL-3B-Instruct" \
+    --configs "configs/qwen2_5_vl/pruning/visionzip_r0.9.yaml" \
+    --tasks "textvqa" \
+    --output_dir "./results/visionzip_test"
+```
+
+<details>
+<summary><b>Detailed Benchmark Results (Qwen2.5-VL-3B-Instruct)</b></summary>
+
+<table style="text-align:center; vertical-align:middle;">
+  <thead>
+    <tr>
+      <th>Method</th>
+      <th>AI2D</th>
+      <th>ChartQA</th>
+      <th>DocVQA</th>
+      <th>MMB<sup>CN</sup></th>
+      <th>MMB</th>
+      <th>MME</th>
+      <th>MMStar</th>
+      <th>OCRBench</th>
+      <th>POPE</th>
+      <th>SQA</th>
+      <th>VQA<sup>Text</sup></th>
+      <th>Avg</th>
+    </tr>
+  </thead>
+  <tbody>
+    <tr>
+      <td><b>Baseline</b></td>
+      <td>79.11</td>
+      <td>83.56</td>
+      <td>92.48</td>
+      <td>73.28</td>
+      <td>77.32</td>
+      <td>1517</td>
+      <td>56.05</td>
+      <td>80.10</td>
+      <td>87.41</td>
+      <td>80.81</td>
+      <td>78.79</td>
+      <td>100.0%</td>
+    </tr>
+    <tr style="background-color: #808080;">
+      <th colspan="13">Retain 25% Tokens (75% Compression Ratio)</th>
+    </tr>
+    <tr><td>FastV</td><td>72.70</td><td>70.04</td><td>75.98</td><td>63.40</td><td>66.92</td><td>1437</td><td>47.39</td><td>36.60</td><td>86.42</td><td>79.33</td><td>73.51</td><td>86.02%</td></tr>
+    <tr><td>VisionZip</td><td>74.19</td><td>71.32</td><td>70.11</td><td>67.35</td><td>71.22</td><td>1452</td><td>49.37</td><td>42.50</td><td>85.51</td><td><u>81.36</u></td><td>68.12</td><td>87.34%</td></tr>
+    <tr><td>HiPrune</td><td>73.83</td><td>72.76</td><td>72.10</td><td>67.27</td><td>72.34</td><td>1449</td><td>48.93</td><td>41.30</td><td>85.86</td><td>80.91</td><td>69.27</td><td>87.67%</td></tr>
+    <tr><td>VisionSelector</td><td>75.19</td><td>73.72</td><td><b>90.24</b></td><td><u>68.81</u></td><td>72.59</td><td><b>1521</b></td><td><u>49.97</u></td><td><u>61.80</u></td><td>85.36</td><td>80.37</td><td><u>76.86</u></td><td><u>93.62%</u></td></tr>
+    <tr><td>DivPrune</td><td>73.06</td><td>62.96</td><td>78.46</td><td>67.10</td><td>71.82</td><td>1459</td><td>48.38</td><td>51.40</td><td><b>86.81</b></td><td>80.22</td><td>68.91</td><td>88.15%</td></tr>
+    <tr><td>DART</td><td>71.08</td><td>65.20</td><td>79.72</td><td>65.38</td><td>71.05</td><td>1428</td><td>48.78</td><td>41.80</td><td>80.97</td><td>80.91</td><td>68.25</td><td>86.17%</td></tr>
+    <tr><td>VisPruner</td><td>74.29</td><td>68.20</td><td>72.52</td><td>67.35</td><td>70.88</td><td>1458</td><td>49.74</td><td>44.80</td><td>86.59</td><td><b>81.46</b></td><td>69.62</td><td>87.87%</td></tr>
+    <tr><td>SCOPE</td><td><u>75.84</u></td><td><u>74.00</u></td><td>82.40</td><td><u>68.81</u></td><td><u>72.94</u></td><td>1471</td><td><b>50.35</b></td><td>56.00</td><td><u>86.62</u></td><td>80.96</td><td>74.04</td><td>91.98%</td></tr>
+    <tr><td><b>IDPruner</b></td><td><b>75.94</b></td><td><b>75.84</b></td><td><u>90.00</u></td><td><b>69.42</b></td><td><b>73.80</b></td><td><u>1505</u></td><td>49.49</td><td><b>64.90</b></td><td>86.26</td><td>80.42</td><td><b>76.90</b></td><td><b>94.42%</b></td></tr>
+    <tr style="background-color: #808080;">
+      <th colspan="13">Retain 10% Tokens (90% Compression Ratio)</th>
+    </tr>
+    <tr><td>FastV</td><td>65.87</td><td>29.72</td><td>36.89</td><td>48.37</td><td>51.98</td><td>1257</td><td>37.28</td><td>13.90</td><td>79.50</td><td>77.05</td><td>57.75</td><td>65.30%</td></tr>
+    <tr><td>VisionZip</td><td>67.65</td><td>51.60</td><td>37.88</td><td>59.62</td><td>63.06</td><td>1338</td><td>42.82</td><td>21.40</td><td>81.14</td><td>80.47</td><td>51.56</td><td>72.75%</td></tr>
+    <tr><td>HiPrune</td><td>67.75</td><td>53.20</td><td>41.15</td><td>59.45</td><td>63.14</td><td>1326</td><td>41.08</td><td>20.30</td><td>80.90</td><td><b>80.96</b></td><td>53.31</td><td>73.00%</td></tr>
+    <tr><td>VisionSelector</td><td><u>70.50</u></td><td><b>65.92</b></td><td><b>79.94</b></td><td>59.97</td><td>64.69</td><td>1374</td><td>42.86</td><td><u>45.20</u></td><td>82.66</td><td><u>80.61</u></td><td><b>71.57</b></td><td><u>84.42%</u></td></tr>
+    <tr><td>DivPrune</td><td>67.71</td><td>43.12</td><td>58.03</td><td>61.25</td><td>65.12</td><td>1389</td><td>40.43</td><td>27.90</td><td>82.24</td><td>79.18</td><td>56.87</td><td>75.50%</td></tr>
+    <tr><td>DART</td><td>67.49</td><td>47.56</td><td>60.23</td><td>57.99</td><td>63.83</td><td>1299</td><td>42.18</td><td>23.40</td><td>74.20</td><td>78.63</td><td>58.02</td><td>74.09%</td></tr>
+    <tr><td>VisPruner</td><td>67.75</td><td>47.92</td><td>48.65</td><td>59.28</td><td>63.32</td><td>1305</td><td>41.51</td><td>22.50</td><td>78.74</td><td>79.77</td><td>54.95</td><td>73.19%</td></tr>
+    <tr><td>SCOPE</td><td>69.75</td><td>56.24</td><td>55.01</td><td><b>64.26</b></td><td><u>67.18</u></td><td><u>1390</u></td><td><b>44.35</b></td><td>30.80</td><td><u>83.34</u></td><td>80.47</td><td>62.58</td><td>79.37%</td></tr>
+    <tr><td><b>IDPruner</b></td><td><b>71.79</b></td><td><u>63.32</u></td><td><u>79.38</u></td><td><u>63.57</u></td><td><b>68.21</b></td><td><b>1438</b></td><td><u>44.05</u></td><td><b>45.50</b></td><td><b>84.51</b></td><td>80.57</td><td><u>70.02</u></td><td><b>85.71%</b></td></tr>
+  </tbody>
+</table>
+
+</details>
+
 ## 📝 License
 
 The code for this project is open-sourced under the [License for AngelSlim](LICENSE).
 
@@ -290,6 +290,18 @@ python scripts/diffusion/run_diffusion.py \
 
 更多量化推理方式请参考[Diffusion模型量化文档](https://angelslim.readthedocs.io/zh-cn/latest/features/diffusion/quantization.html)。
 
+#### 2.4 Token 压缩 (多模态/VLM)
+
+AngelSlim 提供了一套基于元数据驱动的通用视觉 Token 剪枝与合并框架。你可以通过以下 Smoke Test 快速验证压缩策略（如 **VisionZip**）：
+
+```shell
+python tools/test_universal_pruning.py \
+    --model_path "Qwen/Qwen2.5-VL-3B-Instruct" \
+    --config "configs/qwen2_5_vl/pruning/visionzip_r0.9.yaml"
+```
+
+关于如何新增自定义剪枝策略及算法实现细节，请参考 [Token 压缩说明文档](https://angelslim.readthedocs.io/zh-cn/latest/features/token_compressor/index.html)。
+
 ### 3、部署与测试
 
 #### 3.1 离线推理
@@ -1026,6 +1038,84 @@ Qwen3-Omni系列模型的`BF16`、`FP8-Static`、`FP8-Dynamic`在`aime25`、`gpq
 
 </details>
 
+### 3. Token 压缩 (多模态/VLM)
+
+我们在 **Qwen2.5-VL-3B-Instruct** 模型上评估了多种视觉 Token 压缩策略（剪枝与合并）。你可以使用以下指令复现评测结果：
+
+```shell
+python tools/run_pruning_eval.py \
+    --model_path "Qwen/Qwen2.5-VL-3B-Instruct" \
+    --configs "configs/qwen2_5_vl/pruning/visionzip_r0.9.yaml" \
+    --tasks "textvqa" \
+    --output_dir "./results/visionzip_test"
+```
+
+<details>
+<summary><b>Token 压缩详细评测结果 (Qwen2.5-VL-3B-Instruct)</b></summary>
+
+<table style="text-align:center; vertical-align:middle;">
+  <thead>
+    <tr>
+      <th>方法</th>
+      <th>AI2D</th>
+      <th>ChartQA</th>
+      <th>DocVQA</th>
+      <th>MMB<sup>CN</sup></th>
+      <th>MMB</th>
+      <th>MME</th>
+      <th>MMStar</th>
+      <th>OCRBench</th>
+      <th>POPE</th>
+      <th>SQA</th>
+      <th>VQA<sup>Text</sup></th>
+      <th>平均值</th>
+    </tr>
+  </thead>
+  <tbody>
+    <tr>
+      <td><b>Baseline</b></td>
+      <td>79.11</td>
+      <td>83.56</td>
+      <td>92.48</td>
+      <td>73.28</td>
+      <td>77.32</td>
+      <td>1517</td>
+      <td>56.05</td>
+      <td>80.10</td>
+      <td>87.41</td>
+      <td>80.81</td>
+      <td>78.79</td>
+      <td>100.0%</td>
+    </tr>
+    <tr style="background-color: #808080;">
+      <th colspan="13">保留 25% Tokens (75% 压缩比)</th>
+    </tr>
+    <tr><td>FastV</td><td>72.70</td><td>70.04</td><td>75.98</td><td>63.40</td><td>66.92</td><td>1437</td><td>47.39</td><td>36.60</td><td>86.42</td><td>79.33</td><td>73.51</td><td>86.02%</td></tr>
+    <tr><td>VisionZip</td><td>74.19</td><td>71.32</td><td>70.11</td><td>67.35</td><td>71.22</td><td>1452</td><td>49.37</td><td>42.50</td><td>85.51</td><td><u>81.36</u></td><td>68.12</td><td>87.34%</td></tr>
+    <tr><td>HiPrune</td><td>73.83</td><td>72.76</td><td>72.10</td><td>67.27</td><td>72.34</td><td>1449</td><td>48.93</td><td>41.30</td><td>85.86</td><td>80.91</td><td>69.27</td><td>87.67%</td></tr>
+    <tr><td>VisionSelector</td><td>75.19</td><td>73.72</td><td><b>90.24</b></td><td><u>68.81</u></td><td>72.59</td><td><b>1521</b></td><td><u>49.97</u></td><td><u>61.80</u></td><td>85.36</td><td>80.37</td><td><u>76.86</u></td><td><u>93.62%</u></td></tr>
+    <tr><td>DivPrune</td><td>73.06</td><td>62.96</td><td>78.46</td><td>67.10</td><td>71.82</td><td>1459</td><td>48.38</td><td>51.40</td><td><b>86.81</b></td><td>80.22</td><td>68.91</td><td>88.15%</td></tr>
+    <tr><td>DART</td><td>71.08</td><td>65.20</td><td>79.72</td><td>65.38</td><td>71.05</td><td>1428</td><td>48.78</td><td>41.80</td><td>80.97</td><td>80.91</td><td>68.25</td><td>86.17%</td></tr>
+    <tr><td>VisPruner</td><td>74.29</td><td>68.20</td><td>72.52</td><td>67.35</td><td>70.88</td><td>1458</td><td>49.74</td><td>44.80</td><td>86.59</td><td><b>81.46</b></td><td>69.62</td><td>87.87%</td></tr>
+    <tr><td>SCOPE</td><td><u>75.84</u></td><td><u>74.00</u></td><td>82.40</td><td><u>68.81</u></td><td><u>72.94</u></td><td>1471</td><td><b>50.35</b></td><td>56.00</td><td><u>86.62</u></td><td>80.96</td><td>74.04</td><td>91.98%</td></tr>
+    <tr><td><b>IDPruner</b></td><td><b>75.94</b></td><td><b>75.84</b></td><td><u>90.00</u></td><td><b>69.42</b></td><td><b>73.80</b></td><td><u>1505</u></td><td>49.49</td><td><b>64.90</b></td><td>86.26</td><td>80.42</td><td><b>76.90</b></td><td><b>94.42%</b></td></tr>
+    <tr style="background-color: #808080;">
+      <th colspan="13">保留 10% Tokens (90% 压缩比)</th>
+    </tr>
+    <tr><td>FastV</td><td>65.87</td><td>29.72</td><td>36.89</td><td>48.37</td><td>51.98</td><td>1257</td><td>37.28</td><td>13.90</td><td>79.50</td><td>77.05</td><td>57.75</td><td>65.30%</td></tr>
+    <tr><td>VisionZip</td><td>67.65</td><td>51.60</td><td>37.88</td><td>59.62</td><td>63.06</td><td>1338</td><td>42.82</td><td>21.40</td><td>81.14</td><td>80.47</td><td>51.56</td><td>72.75%</td></tr>
+    <tr><td>HiPrune</td><td>67.75</td><td>53.20</td><td>41.15</td><td>59.45</td><td>63.14</td><td>1326</td><td>41.08</td><td>20.30</td><td>80.90</td><td><b>80.96</b></td><td>53.31</td><td>73.00%</td></tr>
+    <tr><td>VisionSelector</td><td><u>70.50</u></td><td><b>65.92</b></td><td><b>79.94</b></td><td>59.97</td><td>64.69</td><td>1374</td><td>42.86</td><td><u>45.20</u></td><td>82.66</td><td><u>80.61</u></td><td><b>71.57</b></td><td>84.42%</td></tr>
+    <tr><td>DivPrune</td><td>67.71</td><td>43.12</td><td>58.03</td><td>61.25</td><td>65.12</td><td>1389</td><td>40.43</td><td>27.90</td><td>82.24</td><td>79.18</td><td>56.87</td><td>75.50%</td></tr>
+    <tr><td>DART</td><td>67.49</td><td>47.56</td><td>60.23</td><td>57.99</td><td>63.83</td><td>1299</td><td>42.18</td><td>23.40</td><td>74.20</td><td>78.63</td><td>58.02</td><td>74.09%</td></tr>
+    <tr><td>VisPruner</td><td>67.75</td><td>47.92</td><td>48.65</td><td>59.28</td><td>63.32</td><td>1305</td><td>41.51</td><td>22.50</td><td>78.74</td><td>79.77</td><td>54.95</td><td>73.19%</td></tr>
+    <tr><td>SCOPE</td><td>69.75</td><td>56.24</td><td>55.01</td><td><b>64.26</b></td><td><u>67.18</u></td><td><u>1390</u></td><td><b>44.35</b></td><td>30.80</td><td><u>83.34</u></td><td>80.47</td><td>62.58</td><td>79.37%</td></tr>
+    <tr><td><b>IDPruner</b></td><td><b>71.79</b></td><td><u>63.32</u></td><td><u>79.38</u></td><td><u>63.57</u></td><td><b>68.21</b></td><td><b>1438</b></td><td><u>44.05</u></td><td><b>45.50</b></td><td><b>84.51</b></td><td>80.57</td><td><u>70.02</u></td><td><b>85.71%</b></td></tr>
+  </tbody>
+</table>
+
+</details>
+
 ## 📝许可协议
 
 本项目的代码依照 [License for AngelSlim](LICENSE) 协议开源。
 
@@ -0,0 +1,176 @@
+# Copyright 2026 Tencent Inc. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import importlib
+from typing import Any, Dict, List, Tuple
+
+import torch.nn as nn
+
+from .base.config import TokenCompressorConfig
+from .utils.config_utils import plan_pruning_execution
+
+
+class UniversalPruningAdapter:
+    """
+    A metadata-driven adapter that transforms standard models into prunable models.
+    The transformation sequence and targets are determined at initialization.
+    """
+
+    def __init__(
+        self,
+        model: nn.Module,
+        strategy_config: TokenCompressorConfig,
+        raw_map_data: List[Dict[str, Any]],
+    ):
+        """
+        Args:
+            model: The base HuggingFace model.
+            strategy_config: User-defined compression and data requirements.
+            raw_map_data: The ordered list of component mappings from YAML.
+        """
+        self.model = model
+
+        # 1. Generate the immutable execution plan at initialization
+        self.strategy_config, self.execution_plan = plan_pruning_execution(
+            strategy_config=strategy_config,
+            raw_map_data=raw_map_data,
+            model_config=getattr(model, "config", None),
+        )
+
+        # 2. Initialize backup storage for original module pointers
+        if not hasattr(self.model, "old_model"):
+            self.model.old_model = {}
+
+    def _get_parent_and_attr(self, path: str) -> Tuple[Any, str]:
+        """Resolves a dot-separated string path to (parent_object, attribute_name)."""
+        parts = path.split(".")
+        current = self.model
+        for part in parts[:-1]:
+            current = getattr(current, part)
+        return current, parts[-1]
+
+    def _get_wrapper_class(self, module_path: str, class_name: str) -> Any:
+        """
+        Dynamically imports the specified wrapper class.
+        """
+        # Relative import logic: assumes we are inside the 'token_compressor'
+        # package
+        module = importlib.import_module(
+            module_path,
+            package="angelslim.compressor.token_compressor",
+        )
+        return getattr(module, class_name)
+
+    def _expand_execution_step(self, step: Dict[str, Any]) -> List[Tuple[str, int]]:
+        """
+        Expands a plan step into physical module paths.
+        Handles '[n]' by referencing the 'indices' field determined during planning.
+        """
+        path_template = step["path"]
+        if "[n]" not in path_template:
+            return [(path_template, -1)]
+
+        prefix, suffix = path_template.split("[n]")
+        suffix = suffix.lstrip(".")
+        container_path = prefix.rstrip(".")
+
+        parent, attr = self._get_parent_and_attr(container_path)
+        container = getattr(parent, attr)
+
+        # Use planned indices; if None, default to the entire range of the
+        # container
+        target_indices = step.get("indices")
+        if target_indices is None:
+            target_indices = range(len(container))
+
+        expanded = []
+        for i in target_indices:
+            full_path = f"{container_path}.{i}"
+            if suffix:
+                full_path += f".{suffix}"
+            expanded.append((full_path, i))
+        return expanded
+
+    def wrap_model(self) -> nn.Module:
+        """
+        Sequentially wraps model components according to the execution_plan.
+        """
+        for step in self.execution_plan:
+            name = step["name"]
+            wrapper_mod = step["wrapper_module"]
+            wrapper_cls = step["wrapper_class"]
+
+            WrapperClass = self._get_wrapper_class(wrapper_mod, wrapper_cls)
+            targets = self._expand_execution_step(step)
+
+            if name not in self.model.old_model:
+                self.model.old_model[name] = {}
+
+            print(f"targets: {targets}")
+
+            for path, idx in targets:
+                parent, attr_name = self._get_parent_and_attr(path)
+                original_module = getattr(parent, attr_name)
+
+                # Prevent double-wrapping
+                if not isinstance(original_module, WrapperClass):
+                    # Store original module for safe recovery
+                    backup_key = idx if idx != -1 else "single"
+                    self.model.old_model[name][backup_key] = original_module
+
+                    # Instantiate and replace with the prunable wrapper
+                    new_module = WrapperClass(original_module, self.strategy_config)
+
+                    # Explicitly inject the layer index for collection
+                    # components
+                    if idx != -1:
+                        new_module.layer_idx = idx
+
+                    setattr(parent, attr_name, new_module)
+
+            print(f"[UniversalAdapter] '{name}' wrapped successfully")
+
+        return self.model
+
+    def unwrap_model(self) -> nn.Module:
+        """
+        Restores the model to its original state by iterating the plan in REVERSE order.
+        """
+        if not hasattr(self.model, "old_model") or not self.model.old_model:
+            return self.model
+
+        # Order is reversed to restore nested modules from inside-out
+        for step in reversed(self.execution_plan):
+            name = step["name"]
+            if name not in self.model.old_model:
+                continue
+
+            targets = self._expand_execution_step(step)
+            backups = self.model.old_model[name]
+
+            for path, idx in targets:
+                backup_key = idx if idx != -1 else "single"
+                if backup_key in backups:
+                    parent, attr_name = self._get_parent_and_attr(path)
+                    setattr(parent, attr_name, backups[backup_key])
+
+            print(f"[UniversalAdapter] '{name}' successfully restored.")
+
+        # Cleanup metadata
+        self.model.old_model = {}
+        if hasattr(self.model, "_pruning_adapter"):
+            del self.model._pruning_adapter
+
+        print("[UniversalAdapter] Model fully reverted to standard architecture.")
+        return self.model