fix(mi300x): preserve M3 SwiGLU parameters in FP8 patch

Oseltamivir · Oseltamivir · commit 75213943ac60 · 2026-06-18T07:00:49.000+08:00
Signed-off-by: Oseltamivir &lt;58582368+Oseltamivir@users.noreply.github.com&gt;
diff --git a/benchmarks/single_node/fixed_seq_len/minimaxm3_mi300x_mxfp8.patch b/benchmarks/single_node/fixed_seq_len/minimaxm3_mi300x_mxfp8.patch
@@ -1,3 +1,24 @@
+diff --git a/vllm/model_executor/layers/fused_moe/config.py b/vllm/model_executor/layers/fused_moe/config.py
+index 0755699d1a4545649e8f5af5de77bbf2c6b24fab..905a9bea3c59ee3ef14a5acede345ffc2fd4a36d 100644
+--- a/vllm/model_executor/layers/fused_moe/config.py
++++ b/vllm/model_executor/layers/fused_moe/config.py
+@@ -603,6 +603,8 @@ def fp8_w8a8_moe_quant_config(
+     a2_gscale: torch.Tensor | None = None,
+     g1_alphas: torch.Tensor | None = None,
+     g2_alphas: torch.Tensor | None = None,
++    gemm1_alpha: float | None = None,
++    gemm1_beta: float | None = None,
+     gemm1_clamp_limit: float | None = None,
+ ) -> FusedMoEQuantConfig:
+     """
+@@ -623,5 +625,7 @@ def fp8_w8a8_moe_quant_config(
+         per_act_token_quant=per_act_token_quant,
+         per_out_ch_quant=per_out_ch_quant,
+         block_shape=block_shape,
++        gemm1_alpha=gemm1_alpha,
++        gemm1_beta=gemm1_beta,
+         gemm1_clamp_limit=gemm1_clamp_limit,
+     )
 diff --git a/vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json b/vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
 index c275cecc1591f16e91791e9b007cdb6fcaac40b4..f20c20c4d2a475ca00926c98608edc6b645dd4c1 100644
 --- a/vllm/model_executor/layers/fused_moe/configs/E=128,N=384,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json
@@ -188,6 +209,18 @@ index d0d7c76481b0a315e9c57810d40394822f62594c..e82429b8ecddc9b8e44f003a537de08b
      runner_backend = config.moe_backend
      if runner_backend != "auto":
          backend = _BACKEND_NAME_MAP.get(runner_backend)
+diff --git a/vllm/model_executor/layers/fused_moe/oracle/fp8.py b/vllm/model_executor/layers/fused_moe/oracle/fp8.py
+index acbf2cb46ad42927fa344363059fe37a970d132b..1b5030b190960dd3758a25d156389be749f31530 100644
+--- a/vllm/model_executor/layers/fused_moe/oracle/fp8.py
++++ b/vllm/model_executor/layers/fused_moe/oracle/fp8.py
+@@ -568,5 +568,7 @@ def make_fp8_moe_quant_config(
+         block_shape=block_shape,
+         per_act_token_quant=per_act_token_quant,
+         per_out_ch_quant=per_out_ch_quant,
++        gemm1_alpha=gemm1_alpha,
++        gemm1_beta=gemm1_beta,
+         gemm1_clamp_limit=swiglu_limit,
+     )
 diff --git a/vllm/model_executor/layers/quantization/modelopt.py b/vllm/model_executor/layers/quantization/modelopt.py
 index 33c7c7532a0ba823e4e7a23538300a5977a4553e..9b9d73f7b5fc138cac3dc3349a24a473d2c1faf6 100644
 --- a/vllm/model_executor/layers/quantization/modelopt.py