[Cherry-Pick][Optimization]support fused noauxtc kernel on ep mode(#7936) (#7917)

ShaneGZhu · web-flow · commit 2b0fd532cbfc · 2026-05-28T10:38:32.000+08:00
* support fused noauxtc kernel on ep mode

* fix unit test
diff --git a/fastdeploy/model_executor/layers/moe/ep.py b/fastdeploy/model_executor/layers/moe/ep.py
@@ -27,6 +27,7 @@
 import fastdeploy
 from fastdeploy import envs
 from fastdeploy.config import MoEPhase
+from fastdeploy.platforms import current_platform
 from fastdeploy.utils import singleton
 
 
@@ -531,6 +532,9 @@ def moe_select(self, layer: nn.Layer, gate_out: paddle.Tensor):
             if layer.topk_method == "noaux_tc":
                 from fastdeploy.model_executor.layers.moe.moe import get_moe_scores
 
+                use_fused = (
+                    layer.fd_config.scheduler_config.enable_moe_scores_elementwise_fuse and current_platform.is_cuda()
+                )
                 score, topk_weights, topk_idx = get_moe_scores(
                     gate_out,
                     layer.n_group,
@@ -540,6 +544,7 @@ def moe_select(self, layer: nn.Layer, gate_out: paddle.Tensor):
                     layer.gate_correction_bias,
                     getattr(layer, "renormalize", True),
                     topk_reduce_func=getattr(layer, "topk_reduce_func", None),
+                    use_fused_cast=use_fused,
                 )
             else:
                 topk_idx, topk_weights = fastdeploy.model_executor.ops.gpu.moe_topk_select(
diff --git a/tests/model_executor/test_ep.py b/tests/model_executor/test_ep.py
@@ -419,6 +419,7 @@ def fake_get_moe_scores(*_args, **_kwargs):
         routed_scaling_factor=1.0,
         gate_correction_bias=None,
         renormalize=False,
+        fd_config=SimpleNamespace(scheduler_config=SimpleNamespace(enable_moe_scores_elementwise_fuse=False)),
     )
     gate_out = paddle.randn([1, 4], dtype="float32")
 

Original file line number	Diff line number	Diff line change
`@@ -419,6 +419,7 @@ def fake_get_moe_scores(_args, *_kwargs):`
`419`	`419`	`routed_scaling_factor=1.0,`
`420`	`420`	`gate_correction_bias=None,`
`421`	`421`	`renormalize=False,`
	`422`	`+ fd_config=SimpleNamespace(scheduler_config=SimpleNamespace(enable_moe_scores_elementwise_fuse=False)),`
`422`	`423`	`)`
`423`	`424`	`gate_out = paddle.randn([1, 4], dtype="float32")`
`424`	`425`