[TRTLLM-12669][perf] Add torch.compile(max-autotune) to compute_probs_from_logits

zhaoyangwang-nvidia · zhaoyangwang-nvidia · commit fa65e356ddbb · 2026-06-17T01:11:58.000-07:00
Profiling on H200 shows +15% rejection sampling throughput (1135 → 1304 tok/s)
at bs=16 with Qwen3-8B Eagle3 dynamic tree.

Signed-off-by: ZhaoyangWang &lt;zhaoyangw@nvidia.com&gt;
diff --git a/tensorrt_llm/_torch/speculative/one_model_sampler.py b/tensorrt_llm/_torch/speculative/one_model_sampler.py
@@ -117,6 +117,7 @@ def sampling_batch_spec_dec_one_model(
     return random_sampled
 
 
+@torch.compile(options={"max-autotune": True})
 def compute_probs_from_logits(
     logits: torch.Tensor,
     temperatures: torch.Tensor,