NVIDIA
diff --git a/‎.github/workflows/example_tests.yml‎
Lines changed: 1 addition & 1 deletion b/‎.github/workflows/example_tests.yml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/specdec_bench/README.md‎
Lines changed: 28 additions & 1 deletion b/‎examples/specdec_bench/README.md‎
Lines changed: 28 additions & 1 deletion
diff --git a/‎…les/specdec_bench/requirements_speed.txt‎ ‎examples/specdec_bench/requirements.txt‎examples/specdec_bench/requirements_speed.txt renamed to examples/specdec_bench/requirements.txt
Lines changed: 2 additions & 0 deletions b/‎…les/specdec_bench/requirements_speed.txt‎ ‎examples/specdec_bench/requirements.txt‎examples/specdec_bench/requirements_speed.txt renamed to examples/specdec_bench/requirements.txt
Lines changed: 2 additions & 0 deletions
diff --git a/‎examples/specdec_bench/run.py‎
Lines changed: 5 additions & 0 deletions b/‎examples/specdec_bench/run.py‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎examples/specdec_bench/specdec_bench/__init__.py‎
Lines changed: 5 additions & 0 deletions b/‎examples/specdec_bench/specdec_bench/__init__.py‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎examples/specdec_bench/specdec_bench/datasets/speed.py‎
Lines changed: 1 addition & 1 deletion b/‎examples/specdec_bench/specdec_bench/datasets/speed.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/specdec_bench/specdec_bench/metrics/acceptance_rate.py‎
Lines changed: 14 additions & 6 deletions b/‎examples/specdec_bench/specdec_bench/metrics/acceptance_rate.py‎
Lines changed: 14 additions & 6 deletions
diff --git a/‎examples/specdec_bench/specdec_bench/metrics/mtbench.py‎
Lines changed: 9 additions & 9 deletions b/‎examples/specdec_bench/specdec_bench/metrics/mtbench.py‎
Lines changed: 9 additions & 9 deletions
diff --git a/‎examples/specdec_bench/specdec_bench/metrics/specbench.py‎
Lines changed: 13 additions & 13 deletions b/‎examples/specdec_bench/specdec_bench/metrics/specbench.py‎
Lines changed: 13 additions & 13 deletions
diff --git a/‎examples/specdec_bench/specdec_bench/models/base.py‎
Lines changed: 9 additions & 0 deletions b/‎examples/specdec_bench/specdec_bench/models/base.py‎
Lines changed: 9 additions & 0 deletions
@@ -36,7 +36,7 @@ jobs:
     strategy:
       fail-fast: false
       matrix:
-        example: [llm_distill, llm_qat, llm_sparsity, diffusers_sparsity]
+        example: [llm_distill, llm_qat, llm_sparsity, diffusers_sparsity, specdec_bench]
         include:
           - example: speculative_decoding
             docker_image: "26.01"
 
@@ -64,7 +64,7 @@ python3 run.py \
 
 ### Running [SPEED-Bench](https://huggingface.co/datasets/nvidia/SPEED-Bench) on Llama 3.3 70B + Eagle 3
 
-1. Install the requirements file using `pip install -r requirements_speed.txt`
+1. Install the requirements file using `pip install -r requirements.txt`
 
 2. Prepare the data using the provided script:
 
@@ -145,6 +145,33 @@ python3 run.py \
     --runtime_params runtime_args_long_context.yaml
 ```
 
+## Uploading results to S3
+
+Each `run.py` invocation writes a result directory containing `configuration.json`,
+`timing.json`, `acceptance_rate.json`, and (when applicable) `mtbench.json` / `specbench.json`.
+`upload_to_s3.py` is a single-file, drop-in tool that uploads one run — or an entire sweep —
+to any S3-compatible bucket:
+
+```bash
+python upload_to_s3.py /path/to/run_or_sweep_dir s3://your-bucket/some/prefix \
+    --endpoint https://your-s3-endpoint \
+    --key-id YOUR_KEY_ID \
+    --secret YOUR_SECRET
+```
+
+`--endpoint`, `--key-id`, and `--secret` default to the `S3_ENDPOINT`, `S3_KEY_ID`, and
+`S3_SECRET` environment variables. Omit `--endpoint` (or set `S3_ENDPOINT=""`) to use AWS S3's
+default endpoint. Use `--dry-run` to preview the upload plan, and `--skip-existing` to skip
+runs already present at the destination instead of failing.
+
+The tool handles two directory layouts and mirrors them into S3:
+
+- **Flat** — `LOCAL_DIR/run_name/{configuration,timing,...}.json`
+- **Sweep** — `LOCAL_DIR/sweep_name/run_name/{configuration,timing,...}.json`
+
+`LOCAL_DIR`'s basename is preserved in the destination prefix, so re-uploads from the same
+source land in the same place.
+
 ## Notes
 
 The goal of this benchmark is to provide an easy way to configure, run, and compare speculative implementations across frameworks in an apples-to-apples method.
 
@@ -1,3 +1,5 @@
+boto3>=1.34.0
+botocore>=1.34.0
 datasets>=3.1.0
 rich>=14.2.0
 seaborn>=0.13.2
 
@@ -20,6 +20,7 @@
 from specdec_bench import datasets, metrics, models, runners
 from specdec_bench.utils import (
     decode_chat,
+    dump_env,
     encode_chat,
     get_tokenizer,
     postprocess_base,
@@ -174,6 +175,10 @@ def run_simple(args):
     if args.save_dir is not None:
         for metric in metrics_list:
             metric.update_directory(args.save_dir)
+        # Stamp configuration.json BEFORE the run loop so the file lands even
+        # when the run crashes mid-way. Engine init is already done, so the
+        # live serving_config from the model is available.
+        dump_env(args, args.save_dir, overrides={"serving_config": model.get_serving_config()})
 
     runner = runners.SimpleRunner(model, metrics=metrics_list)
 
 
@@ -13,3 +13,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
+# Re-export modelopt's version so configuration.json's `specdec_bench_version`
+# tracks the parent package without a separate semver source of truth.
+# Breaking schema/methodology changes are recorded in commit messages and
+# fingerprinted by `specdec_bench_sha` in configuration.json.
+from modelopt import __version__
@@ -147,7 +147,7 @@ def __init__(
     ):
         if not_installed:
             raise ImportError(
-                "Additional packages are required to use SPEED-Bench. Please run `pip install -r requirements_speed.txt`"
+                "Additional packages are required to use SPEED-Bench. Please run `pip install -r requirements.txt`"
             )
         self.data: list[Request] = []
         self.num_samples = num_samples
 
@@ -55,23 +55,31 @@ def _process_lengths(self, lengths):
             self.out["Conditional_Acceptance_Rate"][k] = running_len / sum_lengths / prev_ratio
             prev_ratio = running_len / sum_lengths
             running_len -= v
+        # Joint acceptance rate at step k = product of conditional acceptance
+        # rates at steps 1..k = probability that ≥k tokens are accepted in
+        # a row. The visualizer renders this as a separate panel.
+        self.out["Joint_Acceptance_Rate"] = {}
+        running_joint = 1.0
+        for k, cond_ar in self.out["Conditional_Acceptance_Rate"].items():
+            running_joint *= cond_ar
+            self.out["Joint_Acceptance_Rate"][k] = running_joint
 
     def process_final(self, text_outputs):
         all_ar = []
         lengths = {}
-        self.out["Request_AR"] = {}
+        self.out["Request_AL"] = {}
         self.prompt_ar = dict(sorted(self.prompt_ar.items(), key=lambda x: x[0]))
         for request_id, turns in self.prompt_ar.items():
-            self.out["Request_AR"][request_id] = {}
+            self.out["Request_AL"][request_id] = {}
             for turn_id, turn in turns.items():
                 ar = sum(turn) / len(turn)
-                self.out["Request_AR"][request_id][turn_id] = ar
+                self.out["Request_AL"][request_id][turn_id] = ar
                 all_ar.append(ar)
                 self._get_lengths(turn, lengths)
-                print(request_id, turn_id, self.out["Request_AR"][request_id][turn_id])
+                print(request_id, turn_id, self.out["Request_AL"][request_id][turn_id])
         average_ar = sum(all_ar) / len(all_ar)
-        print("Average AR:", average_ar)
-        self.out["Average_AR"] = average_ar
+        print("Average AL:", average_ar)
+        self.out["Average_AL"] = average_ar
         self._process_lengths(lengths)
         self.write()
         self._format_write_output(text_outputs)
 
@@ -34,29 +34,29 @@ class MTBench(AcceptanceRate):
     def process_final(self, text_outputs):
         i = 0
         lengths = {}
-        self.out["Request_AR"] = {}
+        self.out["Request_AL"] = {}
         self.prompt_ar = dict(sorted(self.prompt_ar.items(), key=lambda x: x[0]))
         for request_id, turns in self.prompt_ar.items():
             turn_1 = turns[0]
             turn_2 = turns[1]
             q_id = request_id
             mtbench_topic = MTBENCH_TOPICS[q_id // 10]
-            self.out["Request_AR"][request_id] = sum(turn_1 + turn_2) / len(turn_1 + turn_2)
+            self.out["Request_AL"][request_id] = sum(turn_1 + turn_2) / len(turn_1 + turn_2)
             self._get_lengths(turn_1, lengths)
             self._get_lengths(turn_2, lengths)
             print(mtbench_topic, sum(turn_1 + turn_2) / len(turn_1 + turn_2))
         per_category = [[] for _ in range(len(MTBENCH_TOPICS))]
-        for q_id, ar in self.out["Request_AR"].items():
+        for q_id, ar in self.out["Request_AL"].items():
             per_category[q_id // 10].append(ar)
-        self.out["Category_AR"] = {}
+        self.out["Category_AL"] = {}
         for i, category in enumerate(per_category):
             if len(category) > 0:
                 category_ar = sum(category) / len(category)
-                self.out["Category_AR"][MTBENCH_TOPICS[i]] = category_ar
-                print(f"{MTBENCH_TOPICS[i]} Average AR: {category_ar}")
-        average_ar = sum(self.out["Request_AR"].values()) / len(self.out["Request_AR"])
-        print("Average AR:", average_ar)
-        self.out["Average_AR"] = average_ar
+                self.out["Category_AL"][MTBENCH_TOPICS[i]] = category_ar
+                print(f"{MTBENCH_TOPICS[i]} Average AL: {category_ar}")
+        average_ar = sum(self.out["Request_AL"].values()) / len(self.out["Request_AL"])
+        print("Average AL:", average_ar)
+        self.out["Average_AL"] = average_ar
         self._process_lengths(lengths)
         self.write()
         self._format_write_output(text_outputs)
 
@@ -44,26 +44,26 @@ def __init__(self, requests):
 
     def process_final(self, text_outputs):
         lengths = {}
-        self.out["Request_AR"] = {}
+        self.out["Request_AL"] = {}
         for request_id, request in enumerate(self.requests):
             turns = self.prompt_ar[request_id].values()
             assert len(turns) == len(request.turns), (
                 f"Number of turns {len(turns)} does not match number of turns in request {len(request.turns)}"
             )
-            self.out["Request_AR"][request.question_id] = mean(list(chain(*turns)))
+            self.out["Request_AL"][request.question_id] = mean(list(chain(*turns)))
             for turn in turns:
                 self._get_lengths(turn, lengths)
-            print(request.category, self.out["Request_AR"][request.question_id])
+            print(request.category, self.out["Request_AL"][request.question_id])
         per_category = defaultdict(list)
         for request in self.requests:
-            per_category[request.category].append(self.out["Request_AR"][request.question_id])
-        self.out["Category_AR"] = {}
+            per_category[request.category].append(self.out["Request_AL"][request.question_id])
+        self.out["Category_AL"] = {}
         for category_name, category_ar in per_category.items():
             if len(category_ar) > 0:
                 category_ar = mean(category_ar)
-                self.out["Category_AR"][category_name] = category_ar
-        average_ar = mean(self.out["Request_AR"].values())
-        self.out["Average_AR"] = average_ar
+                self.out["Category_AL"][category_name] = category_ar
+        average_ar = mean(self.out["Request_AL"].values())
+        self.out["Average_AL"] = average_ar
         self._process_lengths(lengths)
         self.write()
         self._format_write_output(text_outputs)
@@ -93,15 +93,15 @@ def _pretty_print_results(self):
             header_style="bold magenta",
         )
         table.add_column("Category", style="cyan", no_wrap=True)
-        table.add_column("Average AR", justify="right", style="green")
+        table.add_column("Average AL", justify="right", style="green")
 
         # Add category rows
-        for category_name, category_ar in sorted(self.out["Category_AR"].items()):
+        for category_name, category_ar in sorted(self.out["Category_AL"].items()):
             table.add_row(category_name, f"{category_ar:.4f}")
 
         # Add separator and summary row
         table.add_section()
-        table.add_row("[bold]Overall Average[/bold]", f"[bold]{self.out['Average_AR']:.4f}[/bold]")
+        table.add_row("[bold]Overall Average[/bold]", f"[bold]{self.out['Average_AL']:.4f}[/bold]")
 
         console.print(table)
 
@@ -124,8 +124,8 @@ def _create_visualizations(
 
         df_clean = pd.DataFrame.from_dict(
             {
-                "question_id": list(self.out["Request_AR"].keys()),
-                "acceptance_rate": list(self.out["Request_AR"].values()),
+                "question_id": list(self.out["Request_AL"].keys()),
+                "acceptance_rate": list(self.out["Request_AL"].values()),
                 "category": [request.category for request in self.requests],
                 "response_length": [
                     mean([len(c["content"]) for c in messages if c["role"] == "assistant"])
 
@@ -27,5 +27,14 @@ async def run(self, prompt_ids, sampling_params, request_id, turn_id):
         """
         raise NotImplementedError
 
+    def get_serving_config(self):
+        """Return a JSON-serializable dict describing the engine's effective config.
+
+        Captured into configuration.json's `serving_config` for reproducibility.
+        Subclasses override to surface engine-specific defaults (max_model_len,
+        kv_cache_dtype, etc.) that don't appear in the CLI args. Default: empty.
+        """
+        return {}
+
     def stop(self):
         pass
Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,5 @@`
	`1`	`+boto3>=1.34.0`
	`2`	`+botocore>=1.34.0`
`1`	`3`	`datasets>=3.1.0`
`2`	`4`	`rich>=14.2.0`
`3`	`5`	`seaborn>=0.13.2`
Original file line number	Diff line number	Diff line change
`@@ -147,7 +147,7 @@ def __init__(`
`147`	`147`	`):`
`148`	`148`	`if not_installed:`
`149`	`149`	`raise ImportError(`
`150`		- "Additional packages are required to use SPEED-Bench. Please run `pip install -r requirements_speed.txt`"
	`150`	+ "Additional packages are required to use SPEED-Bench. Please run `pip install -r requirements.txt`"
`151`	`151`	`)`
`152`	`152`	`self.data: list[Request] = []`
`153`	`153`	`self.num_samples = num_samples`