ModelTC
diff --git a/‎.gitignore‎
Lines changed: 1 addition & 0 deletions b/‎.gitignore‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎lightllm/common/basemodel/layer_weights/meta_weights/fused_moe/fused_moe_weight.py‎
Lines changed: 5 additions & 0 deletions b/‎lightllm/common/basemodel/layer_weights/meta_weights/fused_moe/fused_moe_weight.py‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎lightllm/common/basemodel/layer_weights/meta_weights/fused_moe/gpt_oss_fused_moe_weight_tp.py‎
Lines changed: 8 additions & 0 deletions b/‎lightllm/common/basemodel/layer_weights/meta_weights/fused_moe/gpt_oss_fused_moe_weight_tp.py‎
Lines changed: 8 additions & 0 deletions
diff --git a/‎lightllm/common/basemodel/layer_weights/meta_weights/fused_moe/impl/base_impl.py‎
Lines changed: 2 additions & 0 deletions b/‎lightllm/common/basemodel/layer_weights/meta_weights/fused_moe/impl/base_impl.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎lightllm/common/basemodel/layer_weights/meta_weights/fused_moe/impl/triton_impl.py‎
Lines changed: 7 additions & 0 deletions b/‎lightllm/common/basemodel/layer_weights/meta_weights/fused_moe/impl/triton_impl.py‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎lightllm/common/basemodel/routing_manager.py‎
Lines changed: 224 additions & 0 deletions b/‎lightllm/common/basemodel/routing_manager.py‎
Lines changed: 224 additions & 0 deletions
diff --git a/‎lightllm/models/deepseek2/layer_infer/transformer_layer_infer.py‎
Lines changed: 2 additions & 0 deletions b/‎lightllm/models/deepseek2/layer_infer/transformer_layer_infer.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎lightllm/models/deepseek2/layer_weights/transformer_layer_weight.py‎
Lines changed: 4 additions & 0 deletions b/‎lightllm/models/deepseek2/layer_weights/transformer_layer_weight.py‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎lightllm/models/deepseek2/model.py‎
Lines changed: 4 additions & 0 deletions b/‎lightllm/models/deepseek2/model.py‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎lightllm/models/gpt_oss/layer_infer/transformer_layer_infer.py‎
Lines changed: 1 addition & 0 deletions b/‎lightllm/models/gpt_oss/layer_infer/transformer_layer_infer.py‎
Lines changed: 1 addition & 0 deletions
@@ -7,3 +7,4 @@ dist
 .vscode
 tmp/
 requirements-musa.txt
+CLAUDE.md
@@ -33,6 +33,7 @@ def __init__(
         num_fused_shared_experts: int = 0,
         layer_num: int = 0,
         network_config: Dict[str, Any] = None,
+        moe_layer_index: int = 0,
     ) -> None:
         super().__init__(data_type=data_type)
         self.w1_weight_name = gate_proj_name
@@ -50,6 +51,7 @@ def __init__(
         self.enable_ep_moe = get_env_start_args().enable_ep_moe
         self.n_routed_experts = n_routed_experts
         self.num_fused_shared_experts = num_fused_shared_experts
+        self.moe_layer_index = moe_layer_index
         self._init_config(network_config)
         self._init_redundancy_expert_params()
         self._init_parallel_params()
@@ -130,6 +132,7 @@ def experts(
         topk_group: int,
         num_expert_group: int,
         is_prefill: Optional[bool] = None,
+        microbatch_index: int = 0,
     ) -> torch.Tensor:
         """Backward compatible method that routes to platform-specific implementation."""
         return self.fuse_moe_impl(
@@ -145,6 +148,8 @@ def experts(
             topk_group=topk_group,
             num_expert_group=num_expert_group,
             is_prefill=is_prefill,
+            moe_layer_index=self.moe_layer_index,
+            microbatch_index=microbatch_index,
         )
 
     def low_latency_dispatch(
 
@@ -8,6 +8,7 @@
 from lightllm.common.quantization import Quantcfg
 from lightllm.common.quantization.quantize_method import QuantizationMethod
 from lightllm.utils.log_utils import init_logger
+from lightllm.common.basemodel import routing_manager as _routing_mgr
 
 logger = init_logger(__name__)
 
@@ -46,6 +47,7 @@ def __init__(
         num_fused_shared_experts: int = 0,
         layer_num: int = 0,
         network_config: Dict[str, Any] = None,
+        moe_layer_index: int = 0,
     ) -> None:
         network_config["norm_topk_prob"] = None
         super().__init__(
@@ -62,6 +64,7 @@ def __init__(
             num_fused_shared_experts=num_fused_shared_experts,
             layer_num=layer_num,
             network_config=network_config,
+            moe_layer_index=moe_layer_index,
         )
 
         self.hidden_size = network_config["hidden_size"]
@@ -144,10 +147,15 @@ def experts(
         topk_group: int,
         num_expert_group: int,
         is_prefill: Optional[bool] = None,
+        microbatch_index: int = 0,
     ):
 
         topk_weights, topk_ids = self._router(router_logits, top_k)
 
+        # Rollout router replay
+        if _routing_mgr.g_routing_capture_manager is not None:
+            _routing_mgr.g_routing_capture_manager.capture(self.moe_layer_index, topk_ids, microbatch_index)
+
         w1, w1_scale = self.w1
         w2, w2_scale = self.w2
         use_fp8_w8a8 = self.quant_method is not None
 
@@ -62,5 +62,7 @@ def __call__(
         topk_group: int,
         num_expert_group: int,
         is_prefill: Optional[bool] = None,
+        moe_layer_index: Optional[int] = None,
+        microbatch_index: int = 0,
     ) -> torch.Tensor:
         pass
@@ -3,6 +3,7 @@
 from lightllm.common.quantization.no_quant import WeightPack
 from lightllm.common.quantization.quantize_method import QuantizationMethod
 from .base_impl import FuseMoeBaseImpl
+from lightllm.common.basemodel import routing_manager as _routing_mgr
 
 
 class FuseMoeTriton(FuseMoeBaseImpl):
@@ -124,6 +125,8 @@ def __call__(
         topk_group: int,
         num_expert_group: int,
         is_prefill: Optional[bool] = None,
+        moe_layer_index: Optional[int] = None,
+        microbatch_index: int = 0,
     ):
         topk_weights, topk_ids = self._select_experts(
             input_tensor=input_tensor,
@@ -136,6 +139,10 @@ def __call__(
             num_expert_group=num_expert_group,
             scoring_func=scoring_func,
         )
+
+        if _routing_mgr.g_routing_capture_manager is not None and moe_layer_index is not None:
+            _routing_mgr.g_routing_capture_manager.capture(moe_layer_index, topk_ids, microbatch_index)
+
         output = self._fused_experts(
             input_tensor=input_tensor,
             w13=w13,
 
@@ -0,0 +1,224 @@
+import atexit
+import torch
+import numpy as np
+from multiprocessing import shared_memory
+from typing import Optional
+from lightllm.utils.log_utils import init_logger
+from lightllm.utils.dist_utils import get_current_rank_in_dp
+from lightllm.server.router.dynamic_prompt.shared_arr import SharedArray
+from lightllm.utils.envs_utils import get_unique_server_name
+from lightllm.utils.shm_utils import create_or_link_shm
+
+logger = init_logger(__name__)
+
+
+def routing_dtype_id_to_np(dtype_id: int):
+    if dtype_id == 1:
+        return np.int8
+    elif dtype_id == 2:
+        return np.int16
+    return np.int32
+
+
+def get_routing_config_shm() -> SharedArray:
+    service_name = get_unique_server_name()
+    return SharedArray(f"{service_name}_routing_config", shape=(4,), dtype=np.int32)
+
+
+class RoutingCaptureManager:
+    def __init__(
+        self,
+        num_moe_layers: int,
+        topk: int,
+        num_experts: int,
+        kv_cache_size: int,
+        max_capture_tokens: int,
+    ):
+        self.num_moe_layers = num_moe_layers
+        self.topk = topk
+        self.num_experts = num_experts
+        self.kv_cache_size = kv_cache_size
+
+        self.dtype = torch.int8 if num_experts <= 127 else torch.int16
+        dtype_bytes = 1 if self.dtype == torch.int8 else 2
+
+        # Shape: (num_moe_layers, kv_cache_size, topk) — on CPU to save GPU memory.
+        # Written after forward() via flush_to_routing_buffer(), read on request finish.
+        routing_buffer_size = num_moe_layers * kv_cache_size * topk * dtype_bytes
+        self.routing_buffer = torch.zeros(
+            (num_moe_layers, kv_cache_size, topk),
+            dtype=self.dtype,
+            device="cpu",
+        )
+
+        # Capture buffers: simple contiguous tensors written to during forward().
+        capture_buf_size = max_capture_tokens * num_moe_layers * topk * dtype_bytes
+        self._capture_buffer = [
+            torch.zeros((max_capture_tokens, num_moe_layers, topk), dtype=self.dtype, device="cuda") for _ in range(2)
+        ]
+
+        dtype_name = "int8" if self.dtype == torch.int8 else "int16"
+        logger.info(
+            f"RoutingCaptureManager initialized: {num_moe_layers} MoE layers, topk={topk}, "
+            f"routing_buffer(cpu)={routing_buffer_size / 1024 / 1024:.2f}MB, "
+            f"capture_buffer={capture_buf_size / 1024 / 1024:.2f}MB x2, dtype={dtype_name}"
+        )
+
+    @property
+    def np_dtype(self):
+        return np.int8 if self.dtype == torch.int8 else np.int16
+
+    @property
+    def dtype_id(self) -> int:
+        return 1 if self.dtype == torch.int8 else 2
+
+    def capture(self, moe_layer_index: int, topk_ids: torch.Tensor, microbatch_index: int = 0) -> None:
+        num_tokens = topk_ids.shape[0]
+        self._capture_buffer[microbatch_index][:num_tokens, moe_layer_index, :] = topk_ids.to(self.dtype)
+
+    def flush_to_routing_buffer(self, mem_indexes: torch.Tensor, num_tokens: int, microbatch_index: int = 0) -> None:
+        buf = self._capture_buffer[microbatch_index][:num_tokens]  # (num_tokens, num_moe_layers, topk)
+        buf_t = buf.permute(1, 0, 2).cpu()
+        self.routing_buffer[:, mem_indexes[:num_tokens].cpu(), :] = buf_t
+
+    def extract_routing_data(self, mem_indexes: torch.Tensor) -> np.ndarray:
+        cpu_indexes = mem_indexes.cpu() if mem_indexes.is_cuda else mem_indexes
+        return self.routing_buffer[:, cpu_indexes, :].numpy()
+
+
+g_routing_capture_manager: Optional[RoutingCaptureManager] = None
+
+
+def create_routing_capture_manager(
+    num_moe_layers: int,
+    topk: int,
+    num_experts: int,
+    kv_cache_size: int,
+    max_capture_tokens: int,
+) -> None:
+    global g_routing_capture_manager
+    assert g_routing_capture_manager is None, "RoutingCaptureManager already exists"
+    g_routing_capture_manager = RoutingCaptureManager(
+        num_moe_layers=num_moe_layers,
+        topk=topk,
+        num_experts=num_experts,
+        kv_cache_size=kv_cache_size,
+        max_capture_tokens=max_capture_tokens,
+    )
+
+
+def preallocate_routing_shm_pool(max_req_num: int, num_moe_layers: int, max_tokens: int, topk: int, np_dtype) -> None:
+    """Pre-allocate POSIX SHM segments for all request slots.
+
+    Each segment is sized for the maximum possible routing data so it can be
+    reused across requests without create/destroy overhead.
+    """
+    dtype_bytes = np.dtype(np_dtype).itemsize
+    segment_size = num_moe_layers * max_tokens * topk * dtype_bytes
+    service_name = get_unique_server_name()
+
+    for i in range(max_req_num):
+        name = f"{service_name}_shm_routing_{i}"
+        shm = create_or_link_shm(name, segment_size, auto_cleanup=True)
+        shm.close()  # close handle; SHM persists in /dev/shm
+
+    logger.info(
+        f"Pre-allocated {max_req_num} routing SHM segments, "
+        f"each {segment_size / 1024:.1f} KB (total {max_req_num * segment_size / 1024 / 1024:.1f} MB)"
+    )
+
+
+def cleanup_routing_shm_pool() -> None:
+    """Unlink all pre-allocated routing SHM segments. Called at server shutdown."""
+    try:
+        from lightllm.utils.envs_utils import get_env_start_args
+
+        args = get_env_start_args()
+    except Exception:
+        return
+
+    service_name = get_unique_server_name()
+
+    for i in range(args.running_max_req_size):
+        name = f"{service_name}_shm_routing_{i}"
+        try:
+            shm = shared_memory.SharedMemory(name=name)
+            shm.close()
+            shm.unlink()
+        except Exception:
+            pass
+
+    config_name = f"{service_name}_routing_config"
+    try:
+        shm = shared_memory.SharedMemory(name=config_name)
+        shm.close()
+        shm.unlink()
+    except Exception:
+        pass
+
+
+def init_routing_capture(model, num_moe_layers: int) -> None:
+    dp_rank = get_current_rank_in_dp()
+    logger.info(f"init_routing_capture called: num_moe_layers={num_moe_layers}, dp_rank={dp_rank}")
+    if dp_rank != 0:
+        logger.info(f"Skipping routing capture initialization on dp_rank={dp_rank}")
+        return
+
+    if num_moe_layers == 0:
+        logger.warning(
+            "enable_return_routed_experts is set but no MoE layers found. Routing capture will not be enabled."
+        )
+        return
+
+    num_experts = model.config.get("n_routed_experts", model.config.get("num_experts", 0))
+    topk = model.config.get("num_experts_per_tok", 0)
+    assert num_experts > 0 and topk > 0
+
+    from lightllm.utils.envs_utils import get_env_start_args
+
+    args = get_env_start_args()
+
+    # Capture buffer must fit the max tokens in any single forward call.
+    # For prefill that's batch_max_tokens; for decode it's graph_max_batch_size.
+    batch_max_tokens = args.batch_max_tokens or args.max_req_total_len or 8192
+    max_capture_tokens = max(batch_max_tokens, args.graph_max_batch_size)
+
+    logger.info(
+        f"Initializing routing capture: num_moe_layers={num_moe_layers}, "
+        f"topk={topk}, num_experts={num_experts}, max_capture_tokens={max_capture_tokens}"
+    )
+
+    create_routing_capture_manager(
+        num_moe_layers=num_moe_layers,
+        topk=topk,
+        num_experts=num_experts,
+        kv_cache_size=model.mem_manager.size + 1,
+        max_capture_tokens=max_capture_tokens,
+    )
+
+    mgr = g_routing_capture_manager
+    np_dtype = mgr.np_dtype
+    dtype_id = mgr.dtype_id
+
+    max_req_total_len = args.max_req_total_len
+
+    # Write config to cross-process SHM
+    shm = get_routing_config_shm()
+    shm.arr[0] = num_moe_layers
+    shm.arr[1] = topk
+    shm.arr[2] = dtype_id
+    shm.arr[3] = max_req_total_len
+    logger.info(
+        f"Shared routing config set: num_moe_layers={num_moe_layers}, topk={topk}, "
+        f"dtype_id={dtype_id}, max_tokens={max_req_total_len}"
+    )
+
+    preallocate_routing_shm_pool(
+        max_req_num=args.running_max_req_size,
+        num_moe_layers=num_moe_layers,
+        max_tokens=max_req_total_len,
+        topk=topk,
+        np_dtype=np_dtype,
+    )
+
+    atexit.register(cleanup_routing_shm_pool)
@@ -312,6 +312,7 @@ def _moe_ffn(
             use_grouped_topk=self.n_group,
             topk_group=self.topk_group,
             num_expert_group=self.n_group,
+            microbatch_index=infer_state.microbatch_index,
         )
 
         if self.n_shared_experts is not None and layer_weight.num_fused_shared_experts == 0:
@@ -339,6 +340,7 @@ def _moe_ffn_edp(
             topk_group=self.topk_group,
             num_expert_group=self.n_group,
             is_prefill=infer_state.is_prefill,
+            microbatch_index=infer_state.microbatch_index,
         )
 
         if self.n_shared_experts is not None:
 
@@ -242,6 +242,9 @@ def _init_moe(self):
         # == 0 时，说明不存在融合共享专家，共享专家单独加载和进行推理。
         if self.num_fused_shared_experts == 0:
             self._load_mlp(f"model.layers.{self.layer_num_}.mlp.shared_experts", is_shared_experts=True)
+        first_moe = self.network_config_["first_k_dense_replace"]
+        freq = self.network_config_.get("moe_layer_freq", 1)
+        moe_layer_index = (self.layer_num_ - first_moe) // freq
         self.experts = FusedMoeWeight(
             gate_proj_name="gate_proj",
             down_proj_name="down_proj",
@@ -256,6 +259,7 @@ def _init_moe(self):
             num_fused_shared_experts=self.num_fused_shared_experts,
             layer_num=self.layer_num_,
             network_config=self.network_config_,
+            moe_layer_index=moe_layer_index,
         )
 
     def _init_ffn(self):
 
@@ -6,6 +6,7 @@
 from lightllm.models.deepseek2.infer_struct import Deepseek2InferStateInfo
 from lightllm.models.llama.model import LlamaTpPartModel
 from lightllm.common.kv_cache_mem_manager.mem_utils import select_mem_manager_class
+from lightllm.common.basemodel.routing_manager import init_routing_capture
 from lightllm.utils.log_utils import init_logger
 from lightllm.utils.envs_utils import enable_env_vars, get_env_start_args, get_added_mtp_kv_layer_num
 from lightllm.distributed.communication_op import dist_group_manager
@@ -49,6 +50,9 @@ def _init_some_value(self):
     def _init_custom(self):
         self._init_to_get_yarn_rotary()
         dist_group_manager.new_deepep_group(self.config["n_routed_experts"], self.config["hidden_size"])
+        if self.args.enable_return_routed_experts:
+            num_moe_layers = sum(1 for w in self.trans_layers_weight if w.is_moe)
+            init_routing_capture(self, num_moe_layers)
 
     def _verify_params(self):
         return super()._verify_params()
 
@@ -51,6 +51,7 @@ def _ffn(self, input, infer_state, layer_weight: GptOssTransformerLayerWeight) -
             use_grouped_topk=False,
             topk_group=None,
             num_expert_group=None,
+            microbatch_index=infer_state.microbatch_index,
         )
         return hidden_states.view(num_tokens, hidden_dim)
Original file line number	Diff line number	Diff line change
`@@ -312,6 +312,7 @@ def _moe_ffn(`
`312`	`312`	`use_grouped_topk=self.n_group,`
`313`	`313`	`topk_group=self.topk_group,`
`314`	`314`	`num_expert_group=self.n_group,`
	`315`	`+ microbatch_index=infer_state.microbatch_index,`
`315`	`316`	`)`
`316`	`317`
`317`	`318`	`if self.n_shared_experts is not None and layer_weight.num_fused_shared_experts == 0:`
`@@ -339,6 +340,7 @@ def _moe_ffn_edp(`
`339`	`340`	`topk_group=self.topk_group,`
`340`	`341`	`num_expert_group=self.n_group,`
`341`	`342`	`is_prefill=infer_state.is_prefill,`
	`343`	`+ microbatch_index=infer_state.microbatch_index,`
`342`	`344`	`)`
`343`	`345`
`344`	`346`	`if self.n_shared_experts is not None:`
Original file line number	Diff line number	Diff line change
`@@ -51,6 +51,7 @@ def _ffn(self, input, infer_state, layer_weight: GptOssTransformerLayerWeight) -`
`51`	`51`	`use_grouped_topk=False,`
`52`	`52`	`topk_group=None,`
`53`	`53`	`num_expert_group=None,`
	`54`	`+ microbatch_index=infer_state.microbatch_index,`
`54`	`55`	`)`
`55`	`56`	`return hidden_states.view(num_tokens, hidden_dim)`
`56`	`57`