fix test

kinjalpatel27 · kinjalpatel27 · commit 585cc0684894 · 2026-04-16T17:18:42.000Z
Signed-off-by: Kinjal Patel &lt;kinjalpravin@nvidia.com&gt;
diff --git a/tests/gpu/torch/export/test_vllm_fakequant_hf_export.py b/tests/gpu/torch/export/test_vllm_fakequant_hf_export.py
@@ -65,6 +65,23 @@ def forward_loop(model):
     folded_model = deepcopy(model)
     fold_weight(folded_model)
     expected_weights = {k: v for k, v in folded_model.state_dict().items() if "quantizer" not in k}
+    # fold_weight only applies the weight quantizer's fake-quant; it does NOT fold
+    # input_quantizer.pre_quant_scale into the weight. The export path does:
+    #   w_exported = fake_quant(W) * pqs[None, :]
+    # for modules where input_quantizer is disabled but has pqs (AWQ weight-only).
+    # Apply the same pqs fold here so expected_weights matches the export output.
+    for module_name, module in folded_model.named_modules():
+        inp_q = getattr(module, "input_quantizer", None)
+        if (
+            inp_q is not None
+            and not inp_q.is_enabled
+            and getattr(inp_q, "_pre_quant_scale", None) is not None
+        ):
+            w_key = f"{module_name}.weight" if module_name else "weight"
+            if w_key in expected_weights:
+                w = expected_weights[w_key]
+                scale = inp_q._pre_quant_scale.squeeze().to(device=w.device)
+                expected_weights[w_key] = (w * scale[None, :]).to(w.dtype)
     del folded_model
 
     # Snapshot model state before export to verify it is not mutated