update

Edwardf0t1 · Edwardf0t1 · commit fac8927f8419 · 2026-04-06T11:39:43.000-07:00
Signed-off-by: Zhiyu Cheng &lt;zhiyuc@nvidia.com&gt;
diff --git a/examples/llm_ptq/hf_ptq.py b/examples/llm_ptq/hf_ptq.py
@@ -966,13 +966,7 @@ def quantize_main(
         if mtp_layer_prefixes:
             quant_cfg = copy.deepcopy(quant_cfg)
             for prefix in mtp_layer_prefixes:
-                parts = prefix.split(".")
-                if len(parts) >= 2:
-                    # Multi-component prefix (e.g., "mtp.layers.0" -> "*layers.0*")
-                    pattern = f"*{parts[-2]}.{parts[-1]}*"
-                else:
-                    # Single-component prefix (e.g., "mtp" -> "*mtp*")
-                    pattern = f"*{prefix}*"
+                pattern = f"*{prefix}*"
                 quant_cfg["quant_cfg"][pattern] = {"enable": False}
                 print(f"Excluding MTP layer from quantization: {pattern}")