fix: Updated default reasoning model for nvidia (#568)

kirit93 · andreatgretel · web-flow · commit 4c6823c58686 · 2026-04-22T13:50:26.000-03:00
* Updated default reasoning model for nvidia

* Updated inference params for super

* Add reasoning_effort to Nemotron Super params, update stale docs

- Add extra_body.reasoning_effort=medium to
  NEMOTRON_3_SUPER_120B_A12B_INFERENCE_PARAMS (mirrors GPT-5 config)
- Update README telemetry example and model-configs.md to use
  nvidia/nemotron-3-super-120b-a12b instead of openai/gpt-oss-20b
- Broaden inference-parameters.md reasoning effort tip to cover
  Nemotron Super

* Remove build-time README accidentally tracked

---------

Co-authored-by: Andre Manoel &lt;amanoel@nvidia.com&gt;
Co-authored-by: Andre Manoel &lt;165937436+andreatgretel@users.noreply.github.com&gt;
diff --git a/README.md b/README.md
@@ -156,17 +156,17 @@ Specifically, a model name that is defined a `ModelConfig` object, is what will
 ```python
 ModelConfig(
     alias="nv-reasoning",
-    model="openai/gpt-oss-20b",
+    model="nvidia/nemotron-3-super-120b-a12b",
     provider="nvidia",
     inference_parameters=ChatCompletionInferenceParams(
-        temperature=0.3,
-        top_p=0.9,
+        temperature=1.0,
+        top_p=0.95,
         max_tokens=4096,
     ),
 )
 ```
 
-The value `openai/gpt-oss-20b` would be collected.
+The value `nvidia/nemotron-3-super-120b-a12b` would be collected.
 
 To disable telemetry capture, set `NEMO_TELEMETRY_ENABLED=false`.
 
diff --git a/docs/concepts/models/default-model-settings.md b/docs/concepts/models/default-model-settings.md
@@ -44,7 +44,7 @@ The following model configurations are automatically available when `NVIDIA_API_
 | Alias | Model | Use Case | Inference Parameters |
 |-------|-------|----------|---------------------|
 | `nvidia-text` | `nvidia/nemotron-3-nano-30b-a3b` | General text generation | `temperature=1.0, top_p=1.0` |
-| `nvidia-reasoning` | `openai/gpt-oss-20b` | Reasoning and analysis tasks | `temperature=0.35, top_p=0.95` |
+| `nvidia-reasoning` | `nvidia/nemotron-3-super-120b-a12b` | Reasoning and analysis tasks | `temperature=1.0, top_p=0.95, extra_body={"reasoning_effort": "medium"}` |
 | `nvidia-vision` | `nvidia/nemotron-nano-12b-v2-vl` | Vision and image understanding | `temperature=0.85, top_p=0.95` |
 | `nvidia-embedding` | `nvidia/llama-3.2-nv-embedqa-1b-v2` | Text embeddings | `encoding_format="float", extra_body={"input_type": "query"}` |
 
diff --git a/docs/concepts/models/inference-parameters.md b/docs/concepts/models/inference-parameters.md
@@ -24,8 +24,8 @@ The `ChatCompletionInferenceParams` class controls how models generate text comp
 !!! note "Default Values"
     If `temperature`, `top_p`, or `max_tokens` are not provided, the model provider's default values will be used. Different providers and models may have different defaults.
 
-!!! tip "Controlling Reasoning Effort for GPT-OSS Models"
-    For gpt-oss models like `gpt-oss-20b` and `gpt-oss-120b`, you can control the reasoning effort using the `extra_body` parameter:
+!!! tip "Controlling Reasoning Effort for Reasoning Models"
+    For reasoning models like Nemotron 3 Super (`nvidia/nemotron-3-super-120b-a12b`) and GPT-OSS (`gpt-oss-20b`, `gpt-oss-120b`), you can control the reasoning effort using the `extra_body` parameter:
 
     ```python
     import data_designer.config as dd
diff --git a/docs/concepts/models/model-configs.md b/docs/concepts/models/model-configs.md
@@ -70,11 +70,11 @@ model_configs = [
     # Reasoning and structured tasks
     dd.ModelConfig(
         alias="reasoning-model",
-        model="openai/gpt-oss-20b",
+        model="nvidia/nemotron-3-super-120b-a12b",
         provider="nvidia",
         inference_parameters=dd.ChatCompletionInferenceParams(
-            temperature=0.3,
-            top_p=0.9,
+            temperature=1.0,
+            top_p=0.95,
             max_tokens=4096,
         ),
     ),
diff --git a/packages/data-designer-config/src/data_designer/config/utils/constants.py b/packages/data-designer-config/src/data_designer/config/utils/constants.py
@@ -336,6 +336,11 @@ class NordColor(Enum):
 DEFAULT_VISION_INFERENCE_PARAMS = {"temperature": 0.85, "top_p": 0.95}
 DEFAULT_EMBEDDING_INFERENCE_PARAMS = {"encoding_format": "float"}
 NEMOTRON_3_NANO_30B_A3B_INFERENCE_PARAMS = {"temperature": 1.0, "top_p": 1.0}
+NEMOTRON_3_SUPER_120B_A12B_INFERENCE_PARAMS = {
+    "temperature": 1.0,
+    "top_p": 0.95,
+    "extra_body": {"reasoning_effort": "medium"},
+}
 GPT5_INFERENCE_PARAMS = {"extra_body": {"reasoning_effort": "medium"}}
 
 PREDEFINED_PROVIDERS_MODEL_MAP = {
@@ -344,7 +349,10 @@ class NordColor(Enum):
             "model": "nvidia/nemotron-3-nano-30b-a3b",
             "inference_parameters": NEMOTRON_3_NANO_30B_A3B_INFERENCE_PARAMS,
         },
-        "reasoning": {"model": "openai/gpt-oss-20b", "inference_parameters": DEFAULT_REASONING_INFERENCE_PARAMS},
+        "reasoning": {
+            "model": "nvidia/nemotron-3-super-120b-a12b",
+            "inference_parameters": NEMOTRON_3_SUPER_120B_A12B_INFERENCE_PARAMS,
+        },
         "vision": {"model": "nvidia/nemotron-nano-12b-v2-vl", "inference_parameters": DEFAULT_VISION_INFERENCE_PARAMS},
         "embedding": {
             "model": "nvidia/llama-3.2-nv-embedqa-1b-v2",
diff --git a/packages/data-designer-config/tests/config/test_default_model_settings.py b/packages/data-designer-config/tests/config/test_default_model_settings.py
@@ -30,10 +30,11 @@ def test_get_default_inference_parameters():
         top_p=0.95,
     )
     assert get_default_inference_parameters(
-        "reasoning", {"temperature": 0.35, "top_p": 0.95}
+        "reasoning", {"temperature": 1.0, "top_p": 0.95, "extra_body": {"reasoning_effort": "medium"}}
     ) == ChatCompletionInferenceParams(
-        temperature=0.35,
+        temperature=1.0,
         top_p=0.95,
+        extra_body={"reasoning_effort": "medium"},
     )
     assert get_default_inference_parameters(
         "vision", {"temperature": 0.85, "top_p": 0.95}
@@ -59,7 +60,7 @@ def test_get_builtin_model_configs():
     assert builtin_model_configs[0].model == "nvidia/nemotron-3-nano-30b-a3b"
     assert builtin_model_configs[0].provider == "nvidia"
     assert builtin_model_configs[1].alias == "nvidia-reasoning"
-    assert builtin_model_configs[1].model == "openai/gpt-oss-20b"
+    assert builtin_model_configs[1].model == "nvidia/nemotron-3-super-120b-a12b"
     assert builtin_model_configs[1].provider == "nvidia"
     assert builtin_model_configs[2].alias == "nvidia-vision"
     assert builtin_model_configs[2].model == "nvidia/nemotron-nano-12b-v2-vl"