IzzyPutterman
diff --git a/‎examples/configs/curated/deepseek-r1-deepgemm.yaml‎
Lines changed: 0 additions & 1 deletion b/‎examples/configs/curated/deepseek-r1-deepgemm.yaml‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎examples/configs/curated/deepseek-r1-latency.yaml‎
Lines changed: 2 additions & 2 deletions b/‎examples/configs/curated/deepseek-r1-latency.yaml‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/configs/curated/deepseek-r1-throughput.yaml‎
Lines changed: 0 additions & 1 deletion b/‎examples/configs/curated/deepseek-r1-throughput.yaml‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎examples/configs/curated/gpt-oss-120b-latency.yaml‎
Lines changed: 0 additions & 3 deletions b/‎examples/configs/curated/gpt-oss-120b-latency.yaml‎
Lines changed: 0 additions & 3 deletions
diff --git a/‎examples/configs/curated/gpt-oss-120b-throughput.yaml‎
Lines changed: 0 additions & 2 deletions b/‎examples/configs/curated/gpt-oss-120b-throughput.yaml‎
Lines changed: 0 additions & 2 deletions
diff --git a/‎examples/configs/curated/kimi-k2-thinking.yaml‎
Lines changed: 0 additions & 1 deletion b/‎examples/configs/curated/kimi-k2-thinking.yaml‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎examples/configs/curated/llama-3.3-70b.yaml‎
Lines changed: 0 additions & 3 deletions b/‎examples/configs/curated/llama-3.3-70b.yaml‎
Lines changed: 0 additions & 3 deletions
diff --git a/‎examples/configs/curated/llama-4-scout.yaml‎
Lines changed: 0 additions & 3 deletions b/‎examples/configs/curated/llama-4-scout.yaml‎
Lines changed: 0 additions & 3 deletions
diff --git a/‎examples/configs/curated/lookup.yaml‎
Lines changed: 34 additions & 0 deletions b/‎examples/configs/curated/lookup.yaml‎
Lines changed: 34 additions & 0 deletions
diff --git a/‎examples/configs/curated/qwen3-disagg-prefill.yaml‎
Lines changed: 2 additions & 4 deletions b/‎examples/configs/curated/qwen3-disagg-prefill.yaml‎
Lines changed: 2 additions & 4 deletions
@@ -6,7 +6,6 @@ trust_remote_code: true
 enable_attention_dp: true
 cuda_graph_config:
   enable_padding: true
-  max_batch_size: 128
 kv_cache_config:
   dtype: fp8
   free_gpu_memory_fraction: 0.8
 
@@ -3,10 +3,10 @@ tensor_parallel_size: 8
 moe_expert_parallel_size: 2
 max_num_tokens: 32768
 trust_remote_code: true
-moe_backend: TRTLLM
-use_cuda_graph: true
 kv_cache_config:
   free_gpu_memory_fraction: 0.75
+moe_config:
+  backend: TRTLLM
 speculative_config:
   decoding_type: MTP
   num_nextn_predict_layers: 3
 
@@ -6,7 +6,6 @@ trust_remote_code: true
 enable_attention_dp: true
 cuda_graph_config:
   enable_padding: true
-  max_batch_size: 128
 kv_cache_config:
   dtype: fp8
   free_gpu_memory_fraction: 0.8
 
@@ -3,9 +3,6 @@ max_num_tokens: 16384
 tensor_parallel_size: 8
 moe_expert_parallel_size: 1
 trust_remote_code: true
-enable_attention_dp: false
-kv_cache_config:
-  free_gpu_memory_fraction: 0.9
 cuda_graph_config:
   enable_padding: true
   max_batch_size: 64
 
@@ -4,8 +4,6 @@ tensor_parallel_size: 2
 moe_expert_parallel_size: 2
 trust_remote_code: true
 enable_attention_dp: true
-kv_cache_config:
-  free_gpu_memory_fraction: 0.9
 cuda_graph_config:
   enable_padding: true
   max_batch_size: 720
 
@@ -4,7 +4,6 @@ max_seq_len: 8212
 tensor_parallel_size: 8
 moe_expert_parallel_size: 8
 enable_attention_dp: true
-pipeline_parallel_size: 1
 print_iter_log: true
 kv_cache_config:
   free_gpu_memory_fraction: 0.75
 
@@ -1,12 +1,9 @@
 max_batch_size: 1024
 max_num_tokens: 2048
-tensor_parallel_size: 1
 moe_expert_parallel_size: 1
 trust_remote_code: true
-enable_attention_dp: false
 cuda_graph_config:
   enable_padding: true
   max_batch_size: 1024
 kv_cache_config:
   dtype: fp8
-  free_gpu_memory_fraction: 0.9
@@ -1,12 +1,9 @@
 max_batch_size: 1024
 max_num_tokens: 2048
-tensor_parallel_size: 1
 moe_expert_parallel_size: 1
 trust_remote_code: true
-enable_attention_dp: false
 cuda_graph_config:
   enable_padding: true
   max_batch_size: 1024
 kv_cache_config:
   dtype: fp8
-  free_gpu_memory_fraction: 0.9
@@ -0,0 +1,34 @@
+# arch: MODEL_CLASS_MAPPING key; required when model has get_model_defaults. Add when adding entries.
+- model: Qwen/Qwen3-Next-80B-A3B-Thinking
+  arch: Qwen3NextForCausalLM
+  config_path: examples/configs/curated/qwen3-next.yaml
+- model: Qwen/Qwen3-30B-A3B
+  arch: Qwen3MoeForCausalLM
+  config_path: examples/configs/curated/qwen3.yaml
+- model: Qwen/Qwen3-30B-A3B
+  arch: Qwen3MoeForCausalLM
+  config_path: examples/configs/curated/qwen3-disagg-prefill.yaml
+- model: deepseek-ai/DeepSeek-R1-0528
+  arch: DeepseekV3ForCausalLM
+  config_path: examples/configs/curated/deepseek-r1-latency.yaml
+- model: deepseek-ai/DeepSeek-R1-0528
+  arch: DeepseekV3ForCausalLM
+  config_path: examples/configs/curated/deepseek-r1-throughput.yaml
+- model: deepseek-ai/DeepSeek-R1-0528
+  arch: DeepseekV3ForCausalLM
+  config_path: examples/configs/curated/deepseek-r1-deepgemm.yaml
+- model: openai/gpt-oss-120b
+  arch: GptOssForCausalLM
+  config_path: examples/configs/curated/gpt-oss-120b-latency.yaml
+- model: openai/gpt-oss-120b
+  arch: GptOssForCausalLM
+  config_path: examples/configs/curated/gpt-oss-120b-throughput.yaml
+- model: nvidia/Llama-3.3-70B-Instruct-FP8
+  arch: LlamaForCausalLM
+  config_path: examples/configs/curated/llama-3.3-70b.yaml
+- model: nvidia/Llama-4-Scout-17B-16E-Instruct-FP8
+  arch: Llama4ForConditionalGeneration
+  config_path: examples/configs/curated/llama-4-scout.yaml
+- model: nvidia/Kimi-K2-Thinking-NVFP4
+  arch: DeepseekV3ForCausalLM
+  config_path: examples/configs/curated/kimi-k2-thinking.yaml
@@ -1,9 +1,7 @@
 max_batch_size: 161
 max_num_tokens: 1160
-kv_cache_config:
-  free_gpu_memory_fraction: 0.8
-tensor_parallel_size: 1
 moe_expert_parallel_size: 1
 trust_remote_code: true
-print_iter_log: true
 enable_attention_dp: true
+kv_cache_config:
+  free_gpu_memory_fraction: 0.8