ModelTC
diff --git a/‎lightllm/common/basemodel/basemodel.py‎
Lines changed: 0 additions & 2 deletions b/‎lightllm/common/basemodel/basemodel.py‎
Lines changed: 0 additions & 2 deletions
diff --git a/‎lightllm/common/basemodel/layer_weights/meta_weights/fused_moe/fused_moe_weight.py‎
Lines changed: 2 additions & 2 deletions b/‎lightllm/common/basemodel/layer_weights/meta_weights/fused_moe/fused_moe_weight.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎lightllm/common/basemodel/layer_weights/meta_weights/fused_moe/gpt_oss_fused_moe_weight_tp.py‎
Lines changed: 3 additions & 0 deletions b/‎lightllm/common/basemodel/layer_weights/meta_weights/fused_moe/gpt_oss_fused_moe_weight_tp.py‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎lightllm/common/basemodel/layer_weights/meta_weights/mm_weight/__init__.py‎
Lines changed: 1 addition & 1 deletion b/‎lightllm/common/basemodel/layer_weights/meta_weights/mm_weight/__init__.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎lightllm/common/basemodel/routing_manager.py‎
Lines changed: 9 additions & 69 deletions b/‎lightllm/common/basemodel/routing_manager.py‎
Lines changed: 9 additions & 69 deletions
diff --git a/‎lightllm/common/triton_utils/autotune_kernel_configs/triton_3.5.1/NVIDIA_H200/grouped_matmul:v1/{K=192,N=2048,expert_num=128,mul_routed_weight=true,out_dtype=torch.bfloat16,topk_num=1,use_fp8_w8a8=false}_NVIDIA_H200.json‎
Lines changed: 83 additions & 0 deletions b/‎lightllm/common/triton_utils/autotune_kernel_configs/triton_3.5.1/NVIDIA_H200/grouped_matmul:v1/{K=192,N=2048,expert_num=128,mul_routed_weight=true,out_dtype=torch.bfloat16,topk_num=1,use_fp8_w8a8=false}_NVIDIA_H200.json‎
Lines changed: 83 additions & 0 deletions
diff --git a/‎lightllm/common/triton_utils/autotune_kernel_configs/triton_3.5.1/NVIDIA_H200/grouped_matmul:v1/{K=2048,N=384,expert_num=128,mul_routed_weight=false,out_dtype=torch.bfloat16,topk_num=8,use_fp8_w8a8=false}_NVIDIA_H200.json‎
Lines changed: 83 additions & 0 deletions b/‎lightllm/common/triton_utils/autotune_kernel_configs/triton_3.5.1/NVIDIA_H200/grouped_matmul:v1/{K=2048,N=384,expert_num=128,mul_routed_weight=false,out_dtype=torch.bfloat16,topk_num=8,use_fp8_w8a8=false}_NVIDIA_H200.json‎
Lines changed: 83 additions & 0 deletions
diff --git a/‎lightllm/common/triton_utils/autotune_kernel_configs/triton_3.5.1/NVIDIA_H200/moe_align_fused:v1/{topk_num=8}_NVIDIA_H200.json‎
Lines changed: 38 additions & 0 deletions b/‎lightllm/common/triton_utils/autotune_kernel_configs/triton_3.5.1/NVIDIA_H200/moe_align_fused:v1/{topk_num=8}_NVIDIA_H200.json‎
Lines changed: 38 additions & 0 deletions
@@ -11,7 +11,6 @@
 
 from lightllm.common.basemodel.layer_weights.hf_load_utils import load_hf_weights
 from lightllm.common.basemodel.infer_struct import InferStateInfo
-from lightllm.common.basemodel.routing_manager import reset_moe_layer_counter
 from lightllm.common.kv_cache_mem_manager import MemoryManager
 from lightllm.common.kv_cache_mem_manager.mem_utils import select_mem_manager_class
 from lightllm.common.req_manager import ReqManager
@@ -165,7 +164,6 @@ def _init_quant(self):
         logger.info(f"Initial quantization. " f"The default quantization method is {self.quant_cfg.quant_type}")
 
     def _init_weights(self, start_layer_index=0):
-        reset_moe_layer_counter()
         self.pre_post_weight = self.pre_and_post_weight_class(self.data_type, network_config=self.config)
         self.trans_layers_weight = [
             self.transformer_weight_class(
 
@@ -13,7 +13,6 @@
 from lightllm.utils.envs_utils import get_redundancy_expert_ids, get_redundancy_expert_num, get_env_start_args
 from lightllm.utils.dist_utils import get_global_world_size, get_global_rank
 from lightllm.utils.log_utils import init_logger
-from lightllm.common.basemodel.routing_manager import get_next_moe_layer_index
 
 logger = init_logger(__name__)
 
@@ -34,9 +33,9 @@ def __init__(
         num_fused_shared_experts: int = 0,
         layer_num: int = 0,
         network_config: Dict[str, Any] = None,
+        moe_layer_index: int = 0,
     ) -> None:
         super().__init__(data_type=data_type)
-        self.moe_layer_index = get_next_moe_layer_index()
         self.w1_weight_name = gate_proj_name
         self.w2_weight_name = down_proj_name
         self.w3_weight_name = up_proj_name
@@ -52,6 +51,7 @@ def __init__(
         self.enable_ep_moe = get_env_start_args().enable_ep_moe
         self.n_routed_experts = n_routed_experts
         self.num_fused_shared_experts = num_fused_shared_experts
+        self.moe_layer_index = moe_layer_index
         self._init_config(network_config)
         self._init_redundancy_expert_params()
         self._init_parallel_params()
 
@@ -47,6 +47,7 @@ def __init__(
         num_fused_shared_experts: int = 0,
         layer_num: int = 0,
         network_config: Dict[str, Any] = None,
+        moe_layer_index: int = 0,
     ) -> None:
         network_config["norm_topk_prob"] = None
         super().__init__(
@@ -63,6 +64,7 @@ def __init__(
             num_fused_shared_experts=num_fused_shared_experts,
             layer_num=layer_num,
             network_config=network_config,
+            moe_layer_index=moe_layer_index,
         )
 
         self.hidden_size = network_config["hidden_size"]
@@ -150,6 +152,7 @@ def experts(
 
         topk_weights, topk_ids = self._router(router_logits, top_k)
 
+        # Rollout router replay
         if g_routing_capture_manager is not None:
             g_routing_capture_manager.capture(self.moe_layer_index, topk_ids, microbatch_index)
 
 
@@ -1,5 +1,5 @@
 from .mm_weight import (
     MMWeightTpl,
 )
-from .rowmm_weight import ROWMMWeight, KVROWNMMWeight, ROWBMMWeight
+from .rowmm_weight import ROWMMWeight, KVROWNMMWeight, ROWBMMWeight, QKVROWNMMWeight
 from .colmm_weight import COLMMWeight
@@ -9,61 +9,10 @@
 logger = init_logger(__name__)
 
 
-class SharedRoutingConfig:
-    """Shared MoE routing configuration across processes."""
-
-    def __init__(self):
-        service_name = get_unique_server_name()
-        self._shm = SharedArray(f"{service_name}_routing_config", shape=(2,), dtype=np.int32)
-
-    @property
-    def num_moe_layers(self) -> int:
-        return int(self._shm.arr[0])
-
-    @num_moe_layers.setter
-    def num_moe_layers(self, value: int):
-        self._shm.arr[0] = value
-
-    @property
-    def topk(self) -> int:
-        return int(self._shm.arr[1])
-
-    @topk.setter
-    def topk(self, value: int):
-        self._shm.arr[1] = value
-
-    def is_initialized(self) -> bool:
-        return self.num_moe_layers > 0 and self.topk > 0
-
-
-_shared_routing_config: Optional[SharedRoutingConfig] = None
-
-
-def get_shared_routing_config() -> SharedRoutingConfig:
-    """Get or create the shared routing config."""
-    global _shared_routing_config
-    if _shared_routing_config is None:
-        _shared_routing_config = SharedRoutingConfig()
-    return _shared_routing_config
-
-
-_moe_layer_counter: int = 0
-
-
-def reset_moe_layer_counter() -> None:
-    global _moe_layer_counter
-    _moe_layer_counter = 0
-
-
-def get_next_moe_layer_index() -> int:
-    global _moe_layer_counter
-    idx = _moe_layer_counter
-    _moe_layer_counter += 1
-    return idx
-
-
-def get_moe_layer_count() -> int:
-    return _moe_layer_counter
+def get_routing_config_shm() -> SharedArray:
+    """Get shared memory for MoE routing config: arr[0]=num_moe_layers, arr[1]=topk."""
+    service_name = get_unique_server_name()
+    return SharedArray(f"{service_name}_routing_config", shape=(2,), dtype=np.int32)
 
 
 class RoutingCaptureManager:
@@ -170,15 +119,11 @@ def create_routing_capture_manager(
     )
 
 
-def init_routing_capture(model) -> None:
-    if not getattr(model.args, "enable_return_routed_experts", False):
-        return
-
+def init_routing_capture(model, num_moe_layers: int) -> None:
     if get_current_rank_in_dp() != 0:
-        logger.info("Skipping routing capture initialization on non-zero rank")
+        # Skipping routing capture initialization on non-zero rank
         return
 
-    num_moe_layers = get_moe_layer_count()
     if num_moe_layers == 0:
         logger.warning(
             "enable_return_routed_experts is set but no MoE layers found. " "Routing capture will not be enabled."
@@ -204,12 +149,7 @@ def init_routing_capture(model) -> None:
         enable_overlap=enable_overlap,
     )
 
-    shared_config = get_shared_routing_config()
-    shared_config.num_moe_layers = num_moe_layers
-    shared_config.topk = topk
+    shm = get_routing_config_shm()
+    shm.arr[0] = num_moe_layers
+    shm.arr[1] = topk
     logger.info(f"Shared routing config set: num_moe_layers={num_moe_layers}, topk={topk}")
-
-
-def flush_routing_capture(mem_indexes: torch.Tensor, microbatch_index: int = 0) -> None:
-    if g_routing_capture_manager is not None:
-        g_routing_capture_manager.flush_to_cpu_async(mem_indexes, microbatch_index)
@@ -0,0 +1,83 @@
+{
+  "1024": {
+    "BLOCK_SIZE_K": 64,
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "GROUP_SIZE_M": 64,
+    "NEED_TRANS": false,
+    "num_stages": 2,
+    "num_warps": 4
+  },
+  "128": {
+    "BLOCK_SIZE_K": 64,
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "GROUP_SIZE_M": 16,
+    "NEED_TRANS": false,
+    "num_stages": 3,
+    "num_warps": 4
+  },
+  "2048": {
+    "BLOCK_SIZE_K": 32,
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "GROUP_SIZE_M": 16,
+    "NEED_TRANS": false,
+    "num_stages": 3,
+    "num_warps": 4
+  },
+  "256": {
+    "BLOCK_SIZE_K": 64,
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "GROUP_SIZE_M": 1,
+    "NEED_TRANS": false,
+    "num_stages": 2,
+    "num_warps": 4
+  },
+  "512": {
+    "BLOCK_SIZE_K": 64,
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "GROUP_SIZE_M": 1,
+    "NEED_TRANS": false,
+    "num_stages": 4,
+    "num_warps": 4
+  },
+  "64": {
+    "BLOCK_SIZE_K": 64,
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "GROUP_SIZE_M": 1,
+    "NEED_TRANS": false,
+    "num_stages": 2,
+    "num_warps": 4
+  },
+  "8": {
+    "BLOCK_SIZE_K": 32,
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "GROUP_SIZE_M": 1,
+    "NEED_TRANS": false,
+    "num_stages": 2,
+    "num_warps": 4
+  },
+  "800": {
+    "BLOCK_SIZE_K": 64,
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "GROUP_SIZE_M": 32,
+    "NEED_TRANS": false,
+    "num_stages": 2,
+    "num_warps": 4
+  },
+  "8192": {
+    "BLOCK_SIZE_K": 64,
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "GROUP_SIZE_M": 32,
+    "NEED_TRANS": false,
+    "num_stages": 2,
+    "num_warps": 4
+  }
+}
@@ -0,0 +1,83 @@
+{
+  "1": {
+    "BLOCK_SIZE_K": 128,
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "GROUP_SIZE_M": 1,
+    "NEED_TRANS": false,
+    "num_stages": 4,
+    "num_warps": 4
+  },
+  "100": {
+    "BLOCK_SIZE_K": 128,
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "GROUP_SIZE_M": 1,
+    "NEED_TRANS": false,
+    "num_stages": 3,
+    "num_warps": 4
+  },
+  "1024": {
+    "BLOCK_SIZE_K": 32,
+    "BLOCK_SIZE_M": 64,
+    "BLOCK_SIZE_N": 128,
+    "GROUP_SIZE_M": 64,
+    "NEED_TRANS": false,
+    "num_stages": 3,
+    "num_warps": 4
+  },
+  "128": {
+    "BLOCK_SIZE_K": 128,
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "GROUP_SIZE_M": 32,
+    "NEED_TRANS": false,
+    "num_stages": 2,
+    "num_warps": 8
+  },
+  "16": {
+    "BLOCK_SIZE_K": 64,
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "GROUP_SIZE_M": 1,
+    "NEED_TRANS": false,
+    "num_stages": 3,
+    "num_warps": 4
+  },
+  "256": {
+    "BLOCK_SIZE_K": 128,
+    "BLOCK_SIZE_M": 32,
+    "BLOCK_SIZE_N": 128,
+    "GROUP_SIZE_M": 16,
+    "NEED_TRANS": false,
+    "num_stages": 2,
+    "num_warps": 4
+  },
+  "32": {
+    "BLOCK_SIZE_K": 128,
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 64,
+    "GROUP_SIZE_M": 16,
+    "NEED_TRANS": false,
+    "num_stages": 3,
+    "num_warps": 4
+  },
+  "64": {
+    "BLOCK_SIZE_K": 128,
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "GROUP_SIZE_M": 32,
+    "NEED_TRANS": false,
+    "num_stages": 2,
+    "num_warps": 4
+  },
+  "8": {
+    "BLOCK_SIZE_K": 128,
+    "BLOCK_SIZE_M": 16,
+    "BLOCK_SIZE_N": 128,
+    "GROUP_SIZE_M": 32,
+    "NEED_TRANS": false,
+    "num_stages": 3,
+    "num_warps": 8
+  }
+}
@@ -0,0 +1,38 @@
+{
+  "1": {
+    "BLOCK_SIZE": 256,
+    "num_warps": 4
+  },
+  "100": {
+    "BLOCK_SIZE": 128,
+    "num_warps": 8
+  },
+  "1024": {
+    "BLOCK_SIZE": 256,
+    "num_warps": 4
+  },
+  "128": {
+    "BLOCK_SIZE": 256,
+    "num_warps": 8
+  },
+  "16": {
+    "BLOCK_SIZE": 128,
+    "num_warps": 8
+  },
+  "256": {
+    "BLOCK_SIZE": 128,
+    "num_warps": 8
+  },
+  "32": {
+    "BLOCK_SIZE": 128,
+    "num_warps": 8
+  },
+  "64": {
+    "BLOCK_SIZE": 128,
+    "num_warps": 8
+  },
+  "8": {
+    "BLOCK_SIZE": 128,
+    "num_warps": 8
+  }
+}
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,5 @@`
`1`	`1`	`from .mm_weight import (`
`2`	`2`	`MMWeightTpl,`
`3`	`3`	`)`
`4`		`-from .rowmm_weight import ROWMMWeight, KVROWNMMWeight, ROWBMMWeight`
	`4`	`+from .rowmm_weight import ROWMMWeight, KVROWNMMWeight, ROWBMMWeight, QKVROWNMMWeight`
`5`	`5`	`from .colmm_weight import COLMMWeight`