bench: dsv4 gb300-cw sglang mtp3 5p1d-c12288 + mooncake P→D tuning

Oseltamivir · claude · Oseltamivir · commit b4df8b035205 · 2026-05-14T22:31:48.000-07:00
5p1d at 12288 was 9.10% zero-output without tuning. Probe the two
SGLang env vars most likely to widen the P→D pipeline:

- SGLANG_DISAGGREGATION_QUEUE_SIZE=8 (default 4) on both sides — number
  of parallel FastQueues that shard transfer requests by session-port
  hash.
- SGLANG_DISAGGREGATION_THREAD_POOL_SIZE=32 (default capped at 12) on
  both sides — sender threads. 144 cpus-per-task means current default
  caps at ~12.
- SGLANG_DISAGGREGATION_NUM_PRE_ALLOCATE_REQS=2048 (default 0) on
  decode only — pre-reserves req_to_token_pool slots so KV transfers
  overlap with decode steps. Directly targets the #running-req: 65
  vs configured 3072 gap observed in the 5p2d-c12288 run.

Co-Authored-By: Claude Opus 4.7 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/.github/configs/nvidia-master.yaml b/.github/configs/nvidia-master.yaml
@@ -8820,9 +8820,10 @@ dsv4-fp4-gb300-dynamo-sglang-mtp3:
           tp: 16
           ep: 16
           dp-attn: true
-      # Mid curve 5p1d-dep8-dep8. 12 nodes. Conc 9216 (~12% above the 8k clean point — probe).
+      # Mid curve 5p1d-dep8-dep8. 12 nodes. Conc 12288 with mooncake P→D tuning (queue=8, threads=32, prealloc=2048).
+      # Baseline was 9.10% zero-output at 12288 without tuning.
       - spec-decoding: mtp
-        conc-list: [9216]
+        conc-list: [12288]
         prefill:
           num-worker: 5
           tp: 8
diff --git a/benchmarks/multi_node/srt-slurm-recipes/sglang/deepseek-v4/8k1k/disagg-mid-curve-5p1d-dep8-dep8-mtp-c24576.yaml b/benchmarks/multi_node/srt-slurm-recipes/sglang/deepseek-v4/8k1k/disagg-mid-curve-5p1d-dep8-dep8-mtp-c24576.yaml
@@ -60,6 +60,10 @@ backend:
     SGLANG_DISAGGREGATION_WAITING_TIMEOUT: "100000"
     SGLANG_OPT_SWA_RELEASE_LEAF_LOCK_AFTER_WINDOW: "1"
 
+    # Mooncake P→D pipeline tuning (probe).
+    SGLANG_DISAGGREGATION_QUEUE_SIZE: "8"
+    SGLANG_DISAGGREGATION_THREAD_POOL_SIZE: "32"
+
   decode_environment:
     PYTHONUNBUFFERED: "1"
     SGLANG_RADIX_DISABLE_REUSE: "1"
@@ -89,6 +93,11 @@ backend:
     SGLANG_OPT_SWA_RELEASE_LEAF_LOCK_AFTER_WINDOW: "1"
     SGLANG_OPT_USE_CUSTOM_ALL_REDUCE_V2: "0"  # CAR_V2 is single-node only.
 
+    # Mooncake P→D pipeline tuning (probe).
+    SGLANG_DISAGGREGATION_QUEUE_SIZE: "8"
+    SGLANG_DISAGGREGATION_THREAD_POOL_SIZE: "32"
+    SGLANG_DISAGGREGATION_NUM_PRE_ALLOCATE_REQS: "2048"
+
   sglang_config:
     prefill:
       served-model-name: "deepseek-ai/DeepSeek-V4-Pro"
@@ -151,7 +160,7 @@ benchmark:
   isl: 8192
   osl: 256
   random_range_ratio: 1.0
-  concurrencies: "9216"
+  concurrencies: "12288"
   req_rate: "inf"
   use_chat_template: true
   custom_tokenizer: "sa_bench_tokenizers.sglang_deepseek_v4.SGLangDeepseekV4Tokenizer"