Remove extra argument from per_token_quant calls in deepgemm MoE backend (#7258)

zhanghonggeng · web-flow · commit 6b53bbbe5e9a · 2026-04-09T11:16:01.000+08:00
diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py b/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py
@@ -120,7 +120,7 @@ def m_grouped_fp8_gemm_nt_contiguous_custom_python_op(
         # down_proj
         if not fastdeploy.envs.FD_USE_PHI_FP8_QUANT:
             ffn_in_x, ffn_in_x_scale_tensor = fastdeploy.model_executor.ops.gpu.per_token_quant(
-                ffn_out, quant_config_weight_block_size_0, not disable_ue8m0_cast
+                ffn_out, quant_config_weight_block_size_0
             )
 
             ffn_in_x_scale_tensor = ffn_in_x_scale_tensor.transpose([1, 0]).contiguous()
@@ -397,7 +397,7 @@ def apply_ep_prefill(
                 # down_proj
                 if not fastdeploy.envs.FD_USE_PHI_FP8_QUANT:
                     ffn_in_x, ffn_in_x_scale_tensor = fastdeploy.model_executor.ops.gpu.per_token_quant(
-                        ffn_out, self.quant_config.weight_block_size[0], self.quant_config.deepgemm_scale_ue8m0
+                        ffn_out, self.quant_config.weight_block_size[0]
                     )
                     ffn_in_x_scale_tensor = ffn_in_x_scale_tensor.transpose([1, 0]).contiguous().transpose([1, 0])
                 else: