PaddlePaddle · gongshaotian · Jun 3, 2026 · Jun 2, 2026 · Jun 2, 2026 · Jun 2, 2026
diff --git a/fastdeploy/config.py b/fastdeploy/config.py
@@ -60,7 +60,7 @@
 _ResolvedTask = Literal["generate", "encode", "embed"]
 
 # Model implementation backend options
-ModelImpl = Literal["auto", "fastdeploy", "paddleformers"]
+ModelImpl = Literal["auto", "fastdeploy", "paddleformers", "paddlefleet"]
 
 _RUNNER_CONVERTS: dict[RunnerType, list[ConvertType]] = {
     "generate": [],

diff --git a/fastdeploy/engine/args_utils.py b/fastdeploy/engine/args_utils.py
@@ -167,6 +167,7 @@ class EngineArgs:
     'auto': Use native FastDeploy implementation when available, fallback to PaddleFormers.
     'fastdeploy': Use only native FastDeploy implementations.
     'paddleformers': Use PaddleFormers backend with FastDeploy optimizations.
+    'paddlefleet': Use PaddleFleet backend with FastDeploy optimizations.
     """
     override_pooler_config: Optional[Union[dict, PoolerConfig]] = None
     """
@@ -678,7 +679,7 @@ def __post_init__(self):
                     "kvcache_storage_backend is only supported when ENABLE_V1_KVCACHE_SCHEDULER=1"
                 )
 
-        valid_model_impls = ["auto", "fastdeploy", "paddleformers"]
+        valid_model_impls = ["auto", "fastdeploy", "paddleformers", "paddlefleet"]
         if self.model_impl not in valid_model_impls:
             raise NotImplementedError(
                 f"not support model_impl: '{self.model_impl}'. " f"Must be one of: {', '.join(valid_model_impls)}"
@@ -1063,13 +1064,14 @@ def add_cli_args(parser: FlexibleArgumentParser) -> FlexibleArgumentParser:
         model_group.add_argument(
             "--model-impl",
             type=str,
-            choices=["auto", "fastdeploy", "paddleformers"],
+            choices=["auto", "fastdeploy", "paddleformers", "paddlefleet"],
             default=EngineArgs.model_impl,
             help=(
                 "Model implementation backend. "
                 "'auto': Use native FastDeploy when available, fallback to PaddleFormers. "
                 "'fastdeploy': Use only native FastDeploy implementations. "
                 "'paddleformers': Use PaddleFormers backend with FastDeploy optimizations."
+                "'paddlefleet': Use PaddleFleet backend with FastDeploy optimizations."
             ),
         )
 

diff --git a/fastdeploy/model_executor/graph_optimization/decorator.py b/fastdeploy/model_executor/graph_optimization/decorator.py
@@ -60,12 +60,12 @@ def __init__(self, fd_config: FDConfig, **kwargs):
             # Not use graph optimization
             return
 
-    def __call__(self, **kwargs):
+    def __call__(self, *args, **kwargs):
         """Decorator model.__call__() func"""
         if not self.use_graph_opt:
-            return self.forward(**kwargs)
+            return self.forward(*args, **kwargs)
 
-        return self.graph_opt_backend(**kwargs)
+        return self.graph_opt_backend(*args, **kwargs)
 
     cls.__init__ = __init__
     cls.__call__ = __call__

diff --git a/fastdeploy/model_executor/models/__init__.py b/fastdeploy/model_executor/models/__init__.py
@@ -19,7 +19,7 @@
 import os
 from pathlib import Path
 
-from paddleformers.transformers import PretrainedModel
+from paddleformers.transformers.model_utils import PretrainedModel
 
 from fastdeploy.plugins.model_register import load_model_register_plugins
 

diff --git a/fastdeploy/model_executor/models/model_base.py b/fastdeploy/model_executor/models/model_base.py
@@ -194,6 +194,19 @@ def _try_resolve_paddleformers(
         elif model_impl == "auto" and is_fallback:
             # Auto mode fallback when no native implementation exists
             backend_arch = "PaddleFormersForCausalLM"
+        elif model_impl == "paddlefleet":
+            from fastdeploy.model_executor.utils import is_paddlefleet_available
+
+            if is_paddlefleet_available():
+                backend_arch = "PaddleFleetForCausalLM"
+            else:
+                raise ImportError(
+                    "paddlefleet backend requires paddlefleet to be installed.\n"
+                    "Please install with [change cuda version if needed ]:\n"
+                    "python -m pip install paddlefleet==0.3.0.dev20260527 "
+                    "--extra-index-url https://www.paddlepaddle.org.cn/packages/stable/cu126/ "
+                    "--extra-index-url https://www.paddlepaddle.org.cn/packages/nightly/cu126/"
+                )
         elif model_impl == "fastdeploy":
             return None
         else:

diff --git a/fastdeploy/model_executor/models/paddleformers/__init__.py b/fastdeploy/model_executor/models/paddleformers/__init__.py
@@ -19,6 +19,7 @@
     ModelForCasualLM,
     ModelRegistry,
 )
+from fastdeploy.model_executor.utils import is_paddlefleet_available
 
 from .base import PaddleFormersModelBase
 from .causallm import CausalLMMixin
@@ -38,3 +39,19 @@ class PaddleFormersForCausalLM(CausalLMMixin, PaddleFormersModelBase, ModelForCa
     @classmethod
     def name(cls):
         return "PaddleFormersForCausalLM"
+
+
+if is_paddlefleet_available():
+    from .base_fleet import PaddleFleetModelBase
+
+    __all__ += ["PaddleFleetForCausalLM"]
+
+    @ModelRegistry.register_model_class(
+        architecture="PaddleFleetForCausalLM",
+        module_name="paddleformers",
+        category=ModelCategory.TEXT_GENERATION,
+    )
+    class PaddleFleetForCausalLM(PaddleFleetModelBase, ModelForCasualLM):
+        @classmethod
+        def name(cls):
+            return "PaddleFleetForCausalLM"