fix(code-quality): pre-commit fixes for query.py and nemotron_ptv3_datasets.yaml

ChenhanYu · claude · ChenhanYu · commit 6f7abf87d809 · 2026-04-07T13:00:42.000-07:00
- query.py: reformat --max-tokens arg to multi-line, remove F841 from noqa
- nemotron_ptv3_datasets.yaml: replace explicit `null` with bare empty value
  for cap_per_split fields (YAML linter preference)

Co-Authored-By: Claude Sonnet 4.6 &lt;noreply@anthropic.com&gt;
Signed-off-by: chenhany &lt;chenhany@nvidia.com&gt;
diff --git a/examples/dataset/nemotron_ptv3_datasets.yaml b/examples/dataset/nemotron_ptv3_datasets.yaml
@@ -5,7 +5,7 @@
 #
 #   repo_id        — HuggingFace repo ID or local path.
 #   splits         — List of splits to load.  All splits are concatenated before capping.
-#   cap_per_split  — Maximum rows taken from each split (null = no cap).
+#   cap_per_split  — Maximum rows taken from each split (omit or leave empty = no cap).
 #   augment        — Whether to include this dataset in the augmented copy.
 #                    Set to false for already-multilingual splits so language-redirect
 #                    augmentations are not applied on top of existing non-English content.
@@ -53,14 +53,14 @@ datasets:
   - repo_id: nvidia/Nemotron-SWE-v1
     splits:
       - r2e_gym
-    cap_per_split: null
+    cap_per_split:
     augment: true
 
   - repo_id: nvidia/Nemotron-SFT-SWE-v2
     splits:
       - agentless
       - openhands_swe
-    cap_per_split: null
+    cap_per_split:
     augment: true
 
   # Competitive-Programming-v1 has ~3.93M rows across 6 splits (cpp ×2, python ×2,
@@ -94,7 +94,7 @@ datasets:
       - question_tool
       - agent_skills
       - agent_skills_question_tool
-    cap_per_split: null
+    cap_per_split:
     augment: true
 
   # ---------------------------------------------------------------------------
@@ -105,7 +105,7 @@ datasets:
     splits:
       - MCQ
       - RQA
-    cap_per_split: null    # ~226 K total
+    cap_per_split:         # ~226 K total
     augment: true
 
   # ---------------------------------------------------------------------------
@@ -116,14 +116,14 @@ datasets:
     splits:
       - chat_if
       - structured_outputs
-    cap_per_split: null    # ~288 K total
+    cap_per_split:         # ~288 K total
     augment: true
 
   - repo_id: nvidia/Nemotron-SFT-Instruction-Following-Chat-v2
     splits:
       - reasoning_off
       - reasoning_on
-    cap_per_split: null
+    cap_per_split:
     augment: true
 
   # ---------------------------------------------------------------------------
@@ -134,15 +134,15 @@ datasets:
     splits:
       - interactive_agent
       - tool_calling
-    cap_per_split: null
+    cap_per_split:
     augment: true
 
   - repo_id: nvidia/Nemotron-SFT-Agentic-v2
     splits:
       - interactive_agent
       - search
       - tool_calling
-    cap_per_split: null
+    cap_per_split:
     augment: true
 
   # ---------------------------------------------------------------------------
@@ -152,7 +152,7 @@ datasets:
   - repo_id: nvidia/Nemotron-SFT-Safety-v1
     splits:
       - train
-    cap_per_split: null    # ~45 K
+    cap_per_split:         # ~45 K
     augment: true
 
   # ---------------------------------------------------------------------------
diff --git a/tools/launcher/common/query.py b/tools/launcher/common/query.py
@@ -20,7 +20,7 @@
 (e.g., EAGLE3 data synthesis).
 """
 
-# ruff: noqa: D101, D102, D103, D107, F841, PLR1722
+# ruff: noqa: D101, D102, D103, D107, PLR1722
 import argparse
 import os
 import re
@@ -103,7 +103,9 @@ def generate(self, messages, verbose=False, **chat_template_kwargs):
 )
 parser.add_argument("--num-proc", type=int, default=32, help="number of processes (concurrency).")
 parser.add_argument("--temperature", type=float, default=0.0, help="temperature.")
-parser.add_argument("--max-tokens", type=int, default=None, help="maximum tokens to generate per response.")
+parser.add_argument(
+    "--max-tokens", type=int, default=None, help="maximum tokens to generate per response."
+)
 args = parser.parse_args()
 
 llm = LLM(args)