SemiAnalysisAI
diff --git a/‎.github/configs/nvidia-master.yaml‎
Lines changed: 91 additions & 0 deletions b/‎.github/configs/nvidia-master.yaml‎
Lines changed: 91 additions & 0 deletions
diff --git a/‎benchmarks/multi_node/srt-slurm-recipes/sglang/deepseek-v4/8k1k/agg-gb200-tp8-dep8-mtp-c12288.yaml‎
Lines changed: 105 additions & 0 deletions b/‎benchmarks/multi_node/srt-slurm-recipes/sglang/deepseek-v4/8k1k/agg-gb200-tp8-dep8-mtp-c12288.yaml‎
Lines changed: 105 additions & 0 deletions
diff --git a/‎benchmarks/multi_node/srt-slurm-recipes/sglang/deepseek-v4/8k1k/agg-gb200-tp8-dep8-mtp-c16384.yaml‎
Lines changed: 105 additions & 0 deletions b/‎benchmarks/multi_node/srt-slurm-recipes/sglang/deepseek-v4/8k1k/agg-gb200-tp8-dep8-mtp-c16384.yaml‎
Lines changed: 105 additions & 0 deletions
@@ -8342,6 +8342,97 @@ dsv4-fp4-gb200-dynamo-sglang-mtp3:
           ep: 8
           dp-attn: true
 
+      # Aggregated fallback sweep: single agg worker, TP=8 across 2 nodes,
+      # DP attention + EAGLE MTP. Sidesteps the dynamo multi-node prefill
+      # registration bug that makes the disagg entries above produce 0
+      # output tokens on GB200 (see runs 25785003012, 25812320128). decode
+      # num-worker=0 signals aggregated. High-conc points queue server-side
+      # since there's only one worker pool.
+      - spec-decoding: mtp
+        conc-list: [512]
+        prefill:
+          num-worker: 1
+          tp: 8
+          ep: 8
+          dp-attn: true
+          additional-settings:
+          - "CONFIG_FILE=recipes/sglang/deepseek-v4/8k1k/agg-gb200-tp8-dep8-mtp-c512.yaml"
+        decode:
+          num-worker: 0
+          tp: 8
+          ep: 8
+          dp-attn: true
+      - spec-decoding: mtp
+        conc-list: [2048]
+        prefill:
+          num-worker: 1
+          tp: 8
+          ep: 8
+          dp-attn: true
+          additional-settings:
+          - "CONFIG_FILE=recipes/sglang/deepseek-v4/8k1k/agg-gb200-tp8-dep8-mtp-c2048.yaml"
+        decode:
+          num-worker: 0
+          tp: 8
+          ep: 8
+          dp-attn: true
+      - spec-decoding: mtp
+        conc-list: [4096]
+        prefill:
+          num-worker: 1
+          tp: 8
+          ep: 8
+          dp-attn: true
+          additional-settings:
+          - "CONFIG_FILE=recipes/sglang/deepseek-v4/8k1k/agg-gb200-tp8-dep8-mtp-c4096.yaml"
+        decode:
+          num-worker: 0
+          tp: 8
+          ep: 8
+          dp-attn: true
+      - spec-decoding: mtp
+        conc-list: [8192]
+        prefill:
+          num-worker: 1
+          tp: 8
+          ep: 8
+          dp-attn: true
+          additional-settings:
+          - "CONFIG_FILE=recipes/sglang/deepseek-v4/8k1k/agg-gb200-tp8-dep8-mtp-c8192.yaml"
+        decode:
+          num-worker: 0
+          tp: 8
+          ep: 8
+          dp-attn: true
+      - spec-decoding: mtp
+        conc-list: [12288]
+        prefill:
+          num-worker: 1
+          tp: 8
+          ep: 8
+          dp-attn: true
+          additional-settings:
+          - "CONFIG_FILE=recipes/sglang/deepseek-v4/8k1k/agg-gb200-tp8-dep8-mtp-c12288.yaml"
+        decode:
+          num-worker: 0
+          tp: 8
+          ep: 8
+          dp-attn: true
+      - spec-decoding: mtp
+        conc-list: [16384]
+        prefill:
+          num-worker: 1
+          tp: 8
+          ep: 8
+          dp-attn: true
+          additional-settings:
+          - "CONFIG_FILE=recipes/sglang/deepseek-v4/8k1k/agg-gb200-tp8-dep8-mtp-c16384.yaml"
+        decode:
+          num-worker: 0
+          tp: 8
+          ep: 8
+          dp-attn: true
+
 # MTP variant of dsv4-fp4-gb200-dynamo-vllm. Uses the vLLM 0.20.1 image
 # and hand-picked 8k/1k Pareto points mirrored from NVIDIA/srt-slurm.
 dsv4-fp4-gb200-dynamo-vllm-mtp2:
 
@@ -0,0 +1,105 @@
+name: "dsv4-pro-gb200-agg-8k1k-tp8-dep8-mtp-c12288"
+
+frontend:
+  type: dynamo
+  enable_multiple_frontends: true
+  num_additional_frontends: 8
+
+dynamo:
+  hash: "34d55a596fb8d3d44daefe425ec1e303131f4d2c"
+  install: true
+
+# 100-min readiness wall (default 30 min) so the per-worker dynamo
+# source build has room to finish before health-poll gives up.
+health_check:
+  max_attempts: 600
+  interval_seconds: 10
+
+model:
+  path: "deepseek-v4-pro"
+  container: "lmsysorg/sglang:nightly-dev-cu13-20260510-2473659e"
+  precision: "mxfp4"
+
+sbatch_directives:
+  cpus-per-task: "144"
+  mem: "0"
+
+# Note: single agg worker on 2 nodes. Concurrencies above ~1024 will queue
+# server-side rather than run truly concurrent; throughput numbers are
+# still meaningful but TTFT/E2EL will reflect queueing delay.
+resources:
+  gpu_type: "gb200"
+  gpus_per_node: 4
+  agg_nodes: 2
+  agg_workers: 1
+  gpus_per_agg: 8
+
+backend:
+  type: sglang
+
+  aggregated_environment:
+    PYTHONUNBUFFERED: "1"
+    SGLANG_RADIX_DISABLE_REUSE: "1"
+    SGLANG_JIT_DEEPGEMM_FAST_WARMUP: "1"
+    SGLANG_DEFAULT_THINKING: "1"
+    SGLANG_DSV4_REASONING_EFFORT: "max"
+    SGLANG_OPT_SWA_SPLIT_LEAF_ON_INSERT: "1"
+    SGLANG_OPT_USE_JIT_NORM: "1"
+    SGLANG_OPT_USE_JIT_INDEXER_METADATA: "1"
+    SGLANG_OPT_USE_TOPK_V2: "1"
+
+    SGLANG_OPT_SWA_EVICT_DROP_PAGE_MARGIN: "1"
+    SGLANG_OPT_USE_FAST_MASK_EP: "1"
+    SGLANG_OPT_USE_DEEPGEMM_MEGA_MOE: "1"
+    SGLANG_OPT_FIX_HASH_MEGA_MOE: "1"
+    SGLANG_OPT_DEEPGEMM_MEGA_MOE_NUM_MAX_TOKENS_PER_RANK: "4096"
+    SGLANG_OPT_FIX_MEGA_MOE_MEMORY: "1"
+    SGLANG_OPT_FIX_NEXTN_MEGA_MOE: "1"
+    SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK: "0"
+
+    NCCL_MNNVL_ENABLE: "1"
+    NCCL_CUMEM_ENABLE: "1"
+    MC_FORCE_MNNVL: "1"
+    SGLANG_OPT_SWA_RELEASE_LEAF_LOCK_AFTER_WINDOW: "1"
+    # CAR_V2 is single-node only; TP=8 spans 2 nodes so we disable it.
+    SGLANG_OPT_USE_CUSTOM_ALL_REDUCE_V2: "0"
+
+  sglang_config:
+    aggregated:
+      served-model-name: "deepseek-ai/DeepSeek-V4-Pro"
+      model-path: "/model/"
+      trust-remote-code: true
+      tool-call-parser: deepseekv4  # gates dsv4 chat-encoding spec.
+
+      tensor-parallel-size: 8
+      data-parallel-size: 8
+      expert-parallel-size: 8
+
+      enable-dp-attention: true
+      enable-dp-lm-head: true
+
+      moe-a2a-backend: "deepep"
+      deepep-config: '{"normal_dispatch":{"num_sms":96},"normal_combine":{"num_sms":96}}'
+
+      speculative-algo: "EAGLE"
+      speculative-num-steps: 3
+      speculative-eagle-topk: 1
+      speculative-num-draft-tokens: 4
+
+      mem-fraction-static: 0.85
+      max-running-requests: 1024
+      cuda-graph-max-bs: 1024
+      swa-full-tokens-ratio: 0.15
+      context-length: 16384
+      stream-interval: 60
+      chunked-prefill-size: 32768
+
+benchmark:
+  type: "sa-bench"
+  isl: 8192
+  osl: 256
+  random_range_ratio: 1.0
+  concurrencies: "12288"
+  req_rate: "inf"
+  use_chat_template: true
+  custom_tokenizer: "sa_bench_tokenizers.sglang_deepseek_v4.SGLangDeepseekV4Tokenizer"
@@ -0,0 +1,105 @@
+name: "dsv4-pro-gb200-agg-8k1k-tp8-dep8-mtp-c16384"
+
+frontend:
+  type: dynamo
+  enable_multiple_frontends: true
+  num_additional_frontends: 8
+
+dynamo:
+  hash: "34d55a596fb8d3d44daefe425ec1e303131f4d2c"
+  install: true
+
+# 100-min readiness wall (default 30 min) so the per-worker dynamo
+# source build has room to finish before health-poll gives up.
+health_check:
+  max_attempts: 600
+  interval_seconds: 10
+
+model:
+  path: "deepseek-v4-pro"
+  container: "lmsysorg/sglang:nightly-dev-cu13-20260510-2473659e"
+  precision: "mxfp4"
+
+sbatch_directives:
+  cpus-per-task: "144"
+  mem: "0"
+
+# Note: single agg worker on 2 nodes. Concurrencies above ~1024 will queue
+# server-side rather than run truly concurrent; throughput numbers are
+# still meaningful but TTFT/E2EL will reflect queueing delay.
+resources:
+  gpu_type: "gb200"
+  gpus_per_node: 4
+  agg_nodes: 2
+  agg_workers: 1
+  gpus_per_agg: 8
+
+backend:
+  type: sglang
+
+  aggregated_environment:
+    PYTHONUNBUFFERED: "1"
+    SGLANG_RADIX_DISABLE_REUSE: "1"
+    SGLANG_JIT_DEEPGEMM_FAST_WARMUP: "1"
+    SGLANG_DEFAULT_THINKING: "1"
+    SGLANG_DSV4_REASONING_EFFORT: "max"
+    SGLANG_OPT_SWA_SPLIT_LEAF_ON_INSERT: "1"
+    SGLANG_OPT_USE_JIT_NORM: "1"
+    SGLANG_OPT_USE_JIT_INDEXER_METADATA: "1"
+    SGLANG_OPT_USE_TOPK_V2: "1"
+
+    SGLANG_OPT_SWA_EVICT_DROP_PAGE_MARGIN: "1"
+    SGLANG_OPT_USE_FAST_MASK_EP: "1"
+    SGLANG_OPT_USE_DEEPGEMM_MEGA_MOE: "1"
+    SGLANG_OPT_FIX_HASH_MEGA_MOE: "1"
+    SGLANG_OPT_DEEPGEMM_MEGA_MOE_NUM_MAX_TOKENS_PER_RANK: "4096"
+    SGLANG_OPT_FIX_MEGA_MOE_MEMORY: "1"
+    SGLANG_OPT_FIX_NEXTN_MEGA_MOE: "1"
+    SGLANG_DEEPEP_NUM_MAX_DISPATCH_TOKENS_PER_RANK: "0"
+
+    NCCL_MNNVL_ENABLE: "1"
+    NCCL_CUMEM_ENABLE: "1"
+    MC_FORCE_MNNVL: "1"
+    SGLANG_OPT_SWA_RELEASE_LEAF_LOCK_AFTER_WINDOW: "1"
+    # CAR_V2 is single-node only; TP=8 spans 2 nodes so we disable it.
+    SGLANG_OPT_USE_CUSTOM_ALL_REDUCE_V2: "0"
+
+  sglang_config:
+    aggregated:
+      served-model-name: "deepseek-ai/DeepSeek-V4-Pro"
+      model-path: "/model/"
+      trust-remote-code: true
+      tool-call-parser: deepseekv4  # gates dsv4 chat-encoding spec.
+
+      tensor-parallel-size: 8
+      data-parallel-size: 8
+      expert-parallel-size: 8
+
+      enable-dp-attention: true
+      enable-dp-lm-head: true
+
+      moe-a2a-backend: "deepep"
+      deepep-config: '{"normal_dispatch":{"num_sms":96},"normal_combine":{"num_sms":96}}'
+
+      speculative-algo: "EAGLE"
+      speculative-num-steps: 3
+      speculative-eagle-topk: 1
+      speculative-num-draft-tokens: 4
+
+      mem-fraction-static: 0.85
+      max-running-requests: 1024
+      cuda-graph-max-bs: 1024
+      swa-full-tokens-ratio: 0.15
+      context-length: 16384
+      stream-interval: 60
+      chunked-prefill-size: 32768
+
+benchmark:
+  type: "sa-bench"
+  isl: 8192
+  osl: 256
+  random_range_ratio: 1.0
+  concurrencies: "16384"
+  req_rate: "inf"
+  use_chat_template: true
+  custom_tokenizer: "sa_bench_tokenizers.sglang_deepseek_v4.SGLangDeepseekV4Tokenizer"