fix patch

xadupre · xadupre · commit 0aa4ce151e4b · 2026-02-10T17:28:55.000+01:00
diff --git a/_unittests/ut_tasks/test_tasks_zero_shot_image_classification.py b/_unittests/ut_tasks/test_tasks_zero_shot_image_classification.py
@@ -17,7 +17,7 @@ def test_zero_shot_image_classification(self):
         model, inputs, ds = data["model"], data["inputs"], data["dynamic_shapes"]
         expected = model(**inputs)
         model(**data["inputs2"])
-        with torch_export_patches(patch_transformers=True, verbose=10):
+        with torch_export_patches(patch_torch=True, patch_transformers=True, verbose=10):
             ep = torch.export.export(
                 model, (), kwargs=inputs, dynamic_shapes=use_dyn_not_str(ds), strict=False
             )
diff --git a/_unittests/ut_torch_export_patches/test_patch_transformers.py b/_unittests/ut_torch_export_patches/test_patch_transformers.py
@@ -677,157 +677,164 @@ def _get_seqlen(cls) -> torch.Tensor:
     @requires_cuda()
     def test_plug_multi_head_attention_qwen25_packed_float16(self):
         from onnx_diagnostic.torch_export_patches.patches._patch_transformers_qwen2_5 import (
-            qwen_sdpa_attention_packed_versatile,
+            qwen_sdpa_attention_versatile as qwen_sdpa_attention_packed_versatile,
         )
 
-        inputs = (
-            torch.rand((1, 16, 1292, 80), dtype=torch.float16).to("cuda"),
-            torch.rand((1, 16, 1292, 80), dtype=torch.float16).to("cuda"),
-            torch.rand((1, 16, 1292, 80), dtype=torch.float16).to("cuda"),
-            self._get_seqlen().to("cuda"),
-        )
+        with self.set_env("QWEN25ATTENTION", "PACKED"):
+            inputs = (
+                torch.rand((1, 16, 1292, 80), dtype=torch.float16).to("cuda"),
+                torch.rand((1, 16, 1292, 80), dtype=torch.float16).to("cuda"),
+                torch.rand((1, 16, 1292, 80), dtype=torch.float16).to("cuda"),
+                self._get_seqlen().to("cuda"),
+            )
 
-        results = qwen_sdpa_attention_packed_versatile.verify(
-            *inputs, scaling=0.5, num_heads=16
-        )
-        self.assertEqual(len(results.eager_outputs), len(results.onnx_outputs))
-        self.assertEqual(len(results.eager_outputs), len(results.diffs))
-        self.assertEqualArray(results.eager_outputs[0], results.onnx_outputs[0], atol=0.01)
-        self.assertLess(results.diffs[0]["abs"], 0.01)
+            results = qwen_sdpa_attention_packed_versatile.verify(
+                *inputs, scaling=0.5, num_heads=16
+            )
+            self.assertEqual(len(results.eager_outputs), len(results.onnx_outputs))
+            self.assertEqual(len(results.eager_outputs), len(results.diffs))
+            self.assertEqualArray(results.eager_outputs[0], results.onnx_outputs[0], atol=0.01)
+            self.assertLess(results.diffs[0]["abs"], 0.01)
 
-        results = qwen_sdpa_attention_packed_versatile.verify(
-            *inputs, scaling=0.11180339887498948, num_heads=16
-        )
-        self.assertEqual(len(results.eager_outputs), len(results.onnx_outputs))
-        self.assertEqual(len(results.eager_outputs), len(results.diffs))
-        self.assertEqualArray(results.eager_outputs[0], results.onnx_outputs[0], atol=0.01)
-        self.assertLess(results.diffs[0]["abs"], 0.01)
+            results = qwen_sdpa_attention_packed_versatile.verify(
+                *inputs, scaling=0.11180339887498948, num_heads=16
+            )
+            self.assertEqual(len(results.eager_outputs), len(results.onnx_outputs))
+            self.assertEqual(len(results.eager_outputs), len(results.diffs))
+            self.assertEqualArray(results.eager_outputs[0], results.onnx_outputs[0], atol=0.01)
+            self.assertLess(results.diffs[0]["abs"], 0.01)
 
     @requires_onnxruntime("1.25")
     @unittest.skipIf(not patch_qwen2_5, "Qwen25 not part of this transformers")
     def test_plug_multi_head_attention_qwen25_loopmha_float16(self):
         from onnx_diagnostic.torch_export_patches.patches._patch_transformers_qwen2_5 import (
-            qwen_sdpa_attention_loopmha_versatile,
+            qwen_sdpa_attention_versatile as qwen_sdpa_attention_loopmha_versatile,
         )
 
-        inputs = (
-            torch.rand((1, 16, 1292, 80), dtype=torch.float16),
-            torch.rand((1, 16, 1292, 80), dtype=torch.float16),
-            torch.rand((1, 16, 1292, 80), dtype=torch.float16),
-            self._get_seqlen(),
-        )
+        with self.set_env("QWEN25ATTENTION", "LOOPMHA"):
+            inputs = (
+                torch.rand((1, 16, 1292, 80), dtype=torch.float16),
+                torch.rand((1, 16, 1292, 80), dtype=torch.float16),
+                torch.rand((1, 16, 1292, 80), dtype=torch.float16),
+                self._get_seqlen(),
+            )
 
-        results = qwen_sdpa_attention_loopmha_versatile.verify(
-            *inputs,
-            scaling=0.5,
-            num_heads=16,
-            dump_onnx_model=self.get_dump_file(
-                "test_plug_packed_multi_head_attention_qwen25_loopmha_float16.onnx"
-            ),
-        )
-        self.assertEqual(len(results.eager_outputs), len(results.onnx_outputs))
-        self.assertEqual(len(results.eager_outputs), len(results.diffs))
-        self.assertEqualArray(results.eager_outputs[0], results.onnx_outputs[0], atol=0.01)
-        self.assertLess(results.diffs[0]["abs"], 0.01)
+            results = qwen_sdpa_attention_loopmha_versatile.verify(
+                *inputs,
+                scaling=0.5,
+                num_heads=16,
+                dump_onnx_model=self.get_dump_file(
+                    "test_plug_packed_multi_head_attention_qwen25_loopmha_float16.onnx"
+                ),
+            )
+            self.assertEqual(len(results.eager_outputs), len(results.onnx_outputs))
+            self.assertEqual(len(results.eager_outputs), len(results.diffs))
+            self.assertEqualArray(results.eager_outputs[0], results.onnx_outputs[0], atol=0.01)
+            self.assertLess(results.diffs[0]["abs"], 0.01)
 
-        results = qwen_sdpa_attention_loopmha_versatile.verify(
-            *inputs, scaling=0.11180339887498948, num_heads=16
-        )
-        self.assertEqual(len(results.eager_outputs), len(results.onnx_outputs))
-        self.assertEqual(len(results.eager_outputs), len(results.diffs))
-        self.assertEqualArray(results.eager_outputs[0], results.onnx_outputs[0], atol=0.01)
-        self.assertLess(results.diffs[0]["abs"], 0.01)
+            results = qwen_sdpa_attention_loopmha_versatile.verify(
+                *inputs, scaling=0.11180339887498948, num_heads=16
+            )
+            self.assertEqual(len(results.eager_outputs), len(results.onnx_outputs))
+            self.assertEqual(len(results.eager_outputs), len(results.diffs))
+            self.assertEqualArray(results.eager_outputs[0], results.onnx_outputs[0], atol=0.01)
+            self.assertLess(results.diffs[0]["abs"], 0.01)
 
     @requires_onnxruntime("1.25")
     @unittest.skipIf(not patch_qwen2_5, "Qwen25 not part of this transformers")
     def test_plug_multi_head_attention_qwen25_loopmha_float32(self):
         from onnx_diagnostic.torch_export_patches.patches._patch_transformers_qwen2_5 import (
-            qwen_sdpa_attention_loopmha_versatile,
+            qwen_sdpa_attention_versatile as qwen_sdpa_attention_loopmha_versatile,
         )
 
-        inputs = (
-            torch.rand((1, 16, 1292, 80), dtype=torch.float32),
-            torch.rand((1, 16, 1292, 80), dtype=torch.float32),
-            torch.rand((1, 16, 1292, 80), dtype=torch.float32),
-            self._get_seqlen(),
-        )
+        with self.set_env("QWEN25ATTENTION", "LOOPMHA"):
+            inputs = (
+                torch.rand((1, 16, 1292, 80), dtype=torch.float32),
+                torch.rand((1, 16, 1292, 80), dtype=torch.float32),
+                torch.rand((1, 16, 1292, 80), dtype=torch.float32),
+                self._get_seqlen(),
+            )
 
-        results = qwen_sdpa_attention_loopmha_versatile.verify(
-            *inputs,
-            scaling=0.5,
-            num_heads=16,
-            dump_onnx_model=self.get_dump_file(
-                "test_plug_packed_multi_head_attention_qwen25_loopmha_float16.onnx"
-            ),
-        )
-        self.assertEqual(len(results.eager_outputs), len(results.onnx_outputs))
-        self.assertEqual(len(results.eager_outputs), len(results.diffs))
-        self.assertEqualArray(results.eager_outputs[0], results.onnx_outputs[0], atol=1e-5)
-        self.assertLess(results.diffs[0]["abs"], 1e-5)
+            results = qwen_sdpa_attention_loopmha_versatile.verify(
+                *inputs,
+                scaling=0.5,
+                num_heads=16,
+                dump_onnx_model=self.get_dump_file(
+                    "test_plug_packed_multi_head_attention_qwen25_loopmha_float16.onnx"
+                ),
+            )
+            self.assertEqual(len(results.eager_outputs), len(results.onnx_outputs))
+            self.assertEqual(len(results.eager_outputs), len(results.diffs))
+            self.assertEqualArray(results.eager_outputs[0], results.onnx_outputs[0], atol=1e-5)
+            self.assertLess(results.diffs[0]["abs"], 1e-5)
 
-        results = qwen_sdpa_attention_loopmha_versatile.verify(
-            *inputs, scaling=0.11180339887498948, num_heads=16
-        )
-        self.assertEqual(len(results.eager_outputs), len(results.onnx_outputs))
-        self.assertEqual(len(results.eager_outputs), len(results.diffs))
-        self.assertEqualArray(results.eager_outputs[0], results.onnx_outputs[0], atol=1e-5)
-        self.assertLess(results.diffs[0]["abs"], 1e-5)
+            results = qwen_sdpa_attention_loopmha_versatile.verify(
+                *inputs, scaling=0.11180339887498948, num_heads=16
+            )
+            self.assertEqual(len(results.eager_outputs), len(results.onnx_outputs))
+            self.assertEqual(len(results.eager_outputs), len(results.diffs))
+            self.assertEqualArray(results.eager_outputs[0], results.onnx_outputs[0], atol=1e-5)
+            self.assertLess(results.diffs[0]["abs"], 1e-5)
 
     @requires_onnxruntime("1.25")
     @unittest.skipIf(not patch_qwen2_5, "Qwen25 not part of this transformers")
     def test_plug_multi_head_attention_qwen25_loopa24_float16(self):
         from onnx_diagnostic.torch_export_patches.patches._patch_transformers_qwen2_5 import (
-            qwen_sdpa_attention_loopa24_versatile,
+            qwen_sdpa_attention_versatile as qwen_sdpa_attention_loopa24_versatile,
         )
 
-        inputs = (
-            torch.rand((1, 16, 1292, 80), dtype=torch.float16),
-            torch.rand((1, 16, 1292, 80), dtype=torch.float16),
-            torch.rand((1, 16, 1292, 80), dtype=torch.float16),
-            self._get_seqlen(),
-        )
+        with self.set_env("QWEN25ATTENTION", "LOOO24"):
+            inputs = (
+                torch.rand((1, 16, 1292, 80), dtype=torch.float16),
+                torch.rand((1, 16, 1292, 80), dtype=torch.float16),
+                torch.rand((1, 16, 1292, 80), dtype=torch.float16),
+                self._get_seqlen(),
+            )
 
-        results = qwen_sdpa_attention_loopa24_versatile.verify(*inputs, scaling=0.5)
-        self.assertEqual(len(results.eager_outputs), len(results.onnx_outputs))
-        self.assertEqual(len(results.eager_outputs), len(results.diffs))
-        self.assertEqualArray(results.eager_outputs[0], results.onnx_outputs[0], atol=1e-2)
-        self.assertLess(results.diffs[0]["abs"], 1e-2)
+            results = qwen_sdpa_attention_loopa24_versatile.verify(*inputs, scaling=0.5)
+            self.assertEqual(len(results.eager_outputs), len(results.onnx_outputs))
+            self.assertEqual(len(results.eager_outputs), len(results.diffs))
+            self.assertEqualArray(results.eager_outputs[0], results.onnx_outputs[0], atol=1e-2)
+            self.assertLess(results.diffs[0]["abs"], 1e-2)
 
-        results = qwen_sdpa_attention_loopa24_versatile.verify(
-            *inputs, scaling=0.11180339887498948
-        )
-        self.assertEqual(len(results.eager_outputs), len(results.onnx_outputs))
-        self.assertEqual(len(results.eager_outputs), len(results.diffs))
-        self.assertEqualArray(results.eager_outputs[0], results.onnx_outputs[0], atol=0.005)
-        self.assertLess(results.diffs[0]["abs"], 0.005)
+            results = qwen_sdpa_attention_loopa24_versatile.verify(
+                *inputs, scaling=0.11180339887498948
+            )
+            self.assertEqual(len(results.eager_outputs), len(results.onnx_outputs))
+            self.assertEqual(len(results.eager_outputs), len(results.diffs))
+            self.assertEqualArray(
+                results.eager_outputs[0], results.onnx_outputs[0], atol=0.005
+            )
+            self.assertLess(results.diffs[0]["abs"], 0.005)
 
     @requires_onnxruntime("1.25")
     @unittest.skipIf(not patch_qwen2_5, "Qwen25 not part of this transformers")
     def test_plug_multi_head_attention_qwen25_loopa24_float32(self):
         from onnx_diagnostic.torch_export_patches.patches._patch_transformers_qwen2_5 import (
-            qwen_sdpa_attention_loopa24_versatile,
+            qwen_sdpa_attention_versatile as qwen_sdpa_attention_loopa24_versatile,
         )
 
-        inputs = (
-            torch.rand((1, 16, 1292, 80), dtype=torch.float32),
-            torch.rand((1, 16, 1292, 80), dtype=torch.float32),
-            torch.rand((1, 16, 1292, 80), dtype=torch.float32),
-            self._get_seqlen(),
-        )
+        with self.set_env("QWEN25ATTENTION", "LOOO24"):
+            inputs = (
+                torch.rand((1, 16, 1292, 80), dtype=torch.float32),
+                torch.rand((1, 16, 1292, 80), dtype=torch.float32),
+                torch.rand((1, 16, 1292, 80), dtype=torch.float32),
+                self._get_seqlen(),
+            )
 
-        results = qwen_sdpa_attention_loopa24_versatile.verify(*inputs, scaling=0.5)
-        self.assertEqual(len(results.eager_outputs), len(results.onnx_outputs))
-        self.assertEqual(len(results.eager_outputs), len(results.diffs))
-        self.assertEqualArray(results.eager_outputs[0], results.onnx_outputs[0], atol=1e-5)
-        self.assertLess(results.diffs[0]["abs"], 1e-5)
+            results = qwen_sdpa_attention_loopa24_versatile.verify(*inputs, scaling=0.5)
+            self.assertEqual(len(results.eager_outputs), len(results.onnx_outputs))
+            self.assertEqual(len(results.eager_outputs), len(results.diffs))
+            self.assertEqualArray(results.eager_outputs[0], results.onnx_outputs[0], atol=1e-5)
+            self.assertLess(results.diffs[0]["abs"], 1e-5)
 
-        results = qwen_sdpa_attention_loopa24_versatile.verify(
-            *inputs, scaling=0.11180339887498948
-        )
-        self.assertEqual(len(results.eager_outputs), len(results.onnx_outputs))
-        self.assertEqual(len(results.eager_outputs), len(results.diffs))
-        self.assertEqualArray(results.eager_outputs[0], results.onnx_outputs[0], atol=1e-5)
-        self.assertLess(results.diffs[0]["abs"], 1e-5)
+            results = qwen_sdpa_attention_loopa24_versatile.verify(
+                *inputs, scaling=0.11180339887498948
+            )
+            self.assertEqual(len(results.eager_outputs), len(results.onnx_outputs))
+            self.assertEqual(len(results.eager_outputs), len(results.diffs))
+            self.assertEqualArray(results.eager_outputs[0], results.onnx_outputs[0], atol=1e-5)
+            self.assertLess(results.diffs[0]["abs"], 1e-5)
 
     @unittest.skipIf(not patch_funnel, "Funnel not part of this transformers")
     def test_model_funnel(self):
diff --git a/onnx_diagnostic/ext_test_case.py b/onnx_diagnostic/ext_test_case.py
@@ -13,7 +13,7 @@
 import sys
 import unittest
 import warnings
-from contextlib import redirect_stderr, redirect_stdout
+from contextlib import redirect_stderr, redirect_stdout, contextmanager
 from io import StringIO
 from timeit import Timer
 from typing import Any, Callable, Dict, List, Optional, Sequence, Tuple, Union
@@ -1465,3 +1465,16 @@ def subloop(self, *args, verbose: int = 0):
                     if verbose:
                         print(f"[subloop] it={it!r}")
                     yield it
+
+    @contextmanager
+    def set_env(self, varname: str, value: str):
+        """
+        Sets environment variable `varname` to `value`
+        and sets it back.
+        """
+        old_value = os.environ.get(varname, None)
+        os.environ[varname] = value
+        try:
+            yield
+        finally:
+            os.environ[varname] = old_value or ""
diff --git a/onnx_diagnostic/torch_export_patches/patches/patch_torch.py b/onnx_diagnostic/torch_export_patches/patches/patch_torch.py
@@ -158,8 +158,25 @@ def patched__get_range_constraints(
         ),
         len(export_graph_signature.input_specs),
     )
+
     combined_args = torch.export._trace._combine_args(mod, args, kwargs)
 
+    # _combine_args does not preserve the order.
+    if isinstance(combined_args, dict):
+        input_names = [
+            s.arg.name
+            for s in export_graph_signature.input_specs
+            if s.kind == torch.export.graph_signature.InputKind.USER_INPUT
+        ]
+        new_args = {}
+        for k in input_names:
+            if k in combined_args:
+                new_args[k] = combined_args[k]
+        for k in combined_args:
+            if k not in new_args:
+                new_args[k] = combined_args[k]
+        combined_args = new_args
+
     range_constraints = torch._export.non_strict_utils.make_constraints(
         fake_mode, gm, combined_args, dynamic_shapes, num_lifted
     )

Original file line number	Diff line number	Diff line change
`@@ -17,7 +17,7 @@ def test_zero_shot_image_classification(self):`
`17`	`17`	`model, inputs, ds = data["model"], data["inputs"], data["dynamic_shapes"]`
`18`	`18`	`expected = model(**inputs)`
`19`	`19`	`model(**data["inputs2"])`
`20`		`- with torch_export_patches(patch_transformers=True, verbose=10):`
	`20`	`+ with torch_export_patches(patch_torch=True, patch_transformers=True, verbose=10):`
`21`	`21`	`ep = torch.export.export(`
`22`	`22`	`model, (), kwargs=inputs, dynamic_shapes=use_dyn_not_str(ds), strict=False`
`23`	`23`	`)`