update triton code; bugfix for vllm dtype/device

erastorgueva-nv · erastorgueva-nv · commit 8b849c1481e9 · 2026-04-01T06:33:15.000Z
Signed-off-by: Elena Rastorgueva &lt;erastorgueva@nvidia.com&gt;
diff --git a/examples/speechlm2/nemo_inference_pipelines/triton/client_streaming.py b/examples/speechlm2/nemo_inference_pipelines/triton/client_streaming.py
@@ -105,6 +105,7 @@ def send_sequence_end(client, sequence_id):
 
         outputs = [
             grpcclient.InferRequestedOutput("output_text"),
+            grpcclient.InferRequestedOutput("output_asr_text"),
             grpcclient.InferRequestedOutput("output_audio"),
         ]
 
@@ -115,7 +116,7 @@ def send_sequence_end(client, sequence_id):
             outputs=outputs,
             sequence_id=sequence_id,
             sequence_start=False,
-            sequence_end=True,  # This is the key - properly end the sequence
+            sequence_end=True,
         )
         logger.info("Sequence ended successfully")
         
diff --git a/examples/speechlm2/nemo_inference_pipelines/triton/model_repo_s2s/voicechat/1/infer_streaming.py b/examples/speechlm2/nemo_inference_pipelines/triton/model_repo_s2s/voicechat/1/infer_streaming.py
@@ -43,35 +43,45 @@ def _resolve_env_overrides(self, cfg):
         env vars, while sharing the same s2s_streaming.yaml used by the CLI.
 
         Env var mapping (cfg key -> env var, default):
-            s2s.model_path             -> S2S_MODEL_PATH (required)
-            s2s.llm_checkpoint_path    -> S2S_LLM_CHECKPOINT_PATH (required)
-            s2s.speaker_reference      -> S2S_SPEAKER_REFERENCE (required)
-            s2s.engine_type            -> S2S_ENGINE_TYPE (default: native)
-            s2s.system_prompt          -> S2S_SYSTEM_PROMPT (default: none)
-            s2s.tts_system_prompt      -> S2S_TTS_SYSTEM_PROMPT (default: none)
+            s2s.model_path               -> S2S_MODEL_PATH (required)
+            s2s.speaker_reference        -> S2S_SPEAKER_REFERENCE (optional)
+            s2s.speaker_name             -> S2S_SPEAKER_NAME (optional)
+            s2s.engine_type              -> S2S_ENGINE_TYPE (default: native)
+            s2s.deterministic            -> S2S_DETERMINISTIC (default: false)
+            s2s.use_llm_cache            -> S2S_USE_LLM_CACHE (default: true)
+            s2s.use_tts_subword_cache    -> S2S_USE_TTS_SUBWORD_CACHE (default: false)
+            s2s.system_prompt            -> S2S_SYSTEM_PROMPT (optional)
+            s2s.tts_system_prompt        -> S2S_TTS_SYSTEM_PROMPT (optional)
             streaming.chunk_size_in_secs -> S2S_CHUNK_SIZE_IN_SECS (default: 0.08)
             streaming.buffer_size_in_secs -> S2S_BUFFER_SIZE_IN_SECS (default: 5.6)
         """
         env_overrides = {
             # Required
-            "s2s.model_path":             ("S2S_MODEL_PATH", None),
-            "s2s.llm_checkpoint_path":    ("S2S_LLM_CHECKPOINT_PATH", None),
-            "s2s.speaker_reference":      ("S2S_SPEAKER_REFERENCE", None),
-            # Optional (with defaults)
-            "s2s.engine_type":            ("S2S_ENGINE_TYPE", "native"),
-            "s2s.system_prompt":          ("S2S_SYSTEM_PROMPT", None),
-            "s2s.tts_system_prompt":      ("S2S_TTS_SYSTEM_PROMPT", None),
+            "s2s.model_path":               ("S2S_MODEL_PATH", None),
+            # Speaker identity (set one or both)
+            "s2s.speaker_reference":        ("S2S_SPEAKER_REFERENCE", None),
+            "s2s.speaker_name":             ("S2S_SPEAKER_NAME", None),
+            # Engine & precision
+            "s2s.engine_type":              ("S2S_ENGINE_TYPE", "native"),
+            "s2s.deterministic":            ("S2S_DETERMINISTIC", False),
+            # Cache / speedup flags
+            "s2s.use_llm_cache":            ("S2S_USE_LLM_CACHE", True),
+            "s2s.use_tts_subword_cache":    ("S2S_USE_TTS_SUBWORD_CACHE", False),
+            # Prompts
+            "s2s.system_prompt":            ("S2S_SYSTEM_PROMPT", None),
+            "s2s.tts_system_prompt":        ("S2S_TTS_SYSTEM_PROMPT", None),
+            # Streaming
             "streaming.chunk_size_in_secs": ("S2S_CHUNK_SIZE_IN_SECS", 0.08),
-            "streaming.buffer_size_in_secs": ("S2S_BUFFER_SIZE_IN_SECS", 5.6),
+            "streaming.buffer_size_in_secs":("S2S_BUFFER_SIZE_IN_SECS", 5.6),
         }
         for cfg_key, (env_var, default) in env_overrides.items():
-            val = os.environ.get(env_var)
-            if val is not None:
-                if default is not None and isinstance(default, bool):
+            val = os.environ.get(env_var, "")
+            if val:
+                if isinstance(default, bool):
                     val = val.lower() in ("true", "1", "yes")
-                elif default is not None and isinstance(default, float):
+                elif isinstance(default, float):
                     val = float(val)
-                elif default is not None and isinstance(default, int):
+                elif isinstance(default, int):
                     val = int(val)
                 OmegaConf.update(cfg, cfg_key, val, force_add=True)
             elif default is not None:
diff --git a/examples/speechlm2/nemo_inference_pipelines/triton/start_triton.sh b/examples/speechlm2/nemo_inference_pipelines/triton/start_triton.sh
@@ -19,23 +19,26 @@
 # Fields marked ??? in the YAML are resolved from environment variables below.
 #
 # Usage:
-#   S2S_MODEL_PATH=/path/to/eartts_ckpt \
-#   S2S_LLM_CHECKPOINT_PATH=/path/to/llm_ckpt \
-#   S2S_SPEAKER_REFERENCE=/path/to/speaker.wav \
+#   S2S_MODEL_PATH=/path/to/hf_checkpoint \
+#   S2S_SPEAKER_NAME=MySpeaker \
 #   ./start_triton.sh
 #
 # Environment variables (required):
-#   S2S_MODEL_PATH              - Path to the EarTTS / S2S checkpoint
-#   S2S_LLM_CHECKPOINT_PATH     - Path to the LLM checkpoint
+#   S2S_MODEL_PATH              - Path to the HF-format checkpoint directory
+#
+# Environment variables (speaker identity — set at least one):
 #   S2S_SPEAKER_REFERENCE       - Path to a speaker reference .wav file
+#   S2S_SPEAKER_NAME            - Registered speaker name from the checkpoint
 #
 # Environment variables (optional):
 #   S2S_ENGINE_TYPE             - Engine type (default: native)
+#   S2S_DETERMINISTIC           - "true"/"false": deterministic mode (default: false)
+#   S2S_USE_LLM_CACHE           - "true"/"false": LLM KV cache (default: true)
+#   S2S_USE_TTS_SUBWORD_CACHE   - "true"/"false": TTS subword cache (default: false)
 #   S2S_SYSTEM_PROMPT           - LLM system prompt text (default: none)
-#   S2S_TTS_SYSTEM_PROMPT       - TTS system prompt, (default: none)
+#   S2S_TTS_SYSTEM_PROMPT       - TTS system prompt (default: none)
 #   S2S_CHUNK_SIZE_IN_SECS      - Chunk size in seconds, multiple of 0.08 (default: 0.08)
 #   S2S_BUFFER_SIZE_IN_SECS     - Audio buffer size in seconds (default: 5.6)
-#   S2S_USE_CODEC_CACHE         - "true"/"false": incremental codec decode (default: true)
 #   S2S_TRITON_CONFIG_PATH      - Override the YAML config file path
 #   MODEL_REPO_DIR              - Override the Triton model repository path
 
@@ -45,33 +48,45 @@ SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
 # backend (infer_streaming.py reads them via os.environ).
 
 # ========================
-# Model paths (required)
+# Model path (required)
+# ========================
+export S2S_MODEL_PATH="${S2S_MODEL_PATH:?Please set S2S_MODEL_PATH to the HF-format checkpoint directory}"
+
+# ========================
+# Speaker identity (set at least one)
 # ========================
-export S2S_MODEL_PATH="${S2S_MODEL_PATH:?Please set S2S_MODEL_PATH to the EarTTS / S2S checkpoint path}"
-export S2S_LLM_CHECKPOINT_PATH="${S2S_LLM_CHECKPOINT_PATH:?Please set S2S_LLM_CHECKPOINT_PATH to the LLM checkpoint path}"
-export S2S_SPEAKER_REFERENCE="${S2S_SPEAKER_REFERENCE:?Please set S2S_SPEAKER_REFERENCE to a speaker reference .wav file}"
+export S2S_SPEAKER_REFERENCE="${S2S_SPEAKER_REFERENCE:-}"
+export S2S_SPEAKER_NAME="${S2S_SPEAKER_NAME:-}"
+if [ -z "${S2S_SPEAKER_REFERENCE}" ] && [ -z "${S2S_SPEAKER_NAME}" ]; then
+    echo "ERROR: Set at least one of S2S_SPEAKER_REFERENCE or S2S_SPEAKER_NAME"
+    exit 1
+fi
 
 # ========================
 # Optional overrides
 # ========================
 export S2S_ENGINE_TYPE="${S2S_ENGINE_TYPE:-native}"
+export S2S_DETERMINISTIC="${S2S_DETERMINISTIC:-}"
+export S2S_USE_LLM_CACHE="${S2S_USE_LLM_CACHE:-}"
+export S2S_USE_TTS_SUBWORD_CACHE="${S2S_USE_TTS_SUBWORD_CACHE:-}"
 export S2S_SYSTEM_PROMPT="${S2S_SYSTEM_PROMPT:-}"
 export S2S_TTS_SYSTEM_PROMPT="${S2S_TTS_SYSTEM_PROMPT:-}"
 export S2S_CHUNK_SIZE_IN_SECS="${S2S_CHUNK_SIZE_IN_SECS:-0.08}"
 export S2S_BUFFER_SIZE_IN_SECS="${S2S_BUFFER_SIZE_IN_SECS:-5.6}"
-export S2S_USE_CODEC_CACHE="${S2S_USE_CODEC_CACHE:-true}"
 export S2S_TRITON_CONFIG_PATH="${S2S_TRITON_CONFIG_PATH:-${SCRIPT_DIR}/../conf/s2s_streaming.yaml}"
 export MODEL_REPO_DIR="${MODEL_REPO_DIR:-${SCRIPT_DIR}/model_repo_s2s}"
 
 
 echo "=== S2S Triton Server ==="
 echo "  S2S_MODEL_PATH:          ${S2S_MODEL_PATH}"
-echo "  S2S_LLM_CHECKPOINT_PATH: ${S2S_LLM_CHECKPOINT_PATH}"
-echo "  S2S_SPEAKER_REFERENCE:   ${S2S_SPEAKER_REFERENCE}"
+echo "  S2S_SPEAKER_REFERENCE:   ${S2S_SPEAKER_REFERENCE:-<not set>}"
+echo "  S2S_SPEAKER_NAME:        ${S2S_SPEAKER_NAME:-<not set>}"
 echo "  S2S_ENGINE_TYPE:         ${S2S_ENGINE_TYPE}"
+echo "  S2S_DETERMINISTIC:       ${S2S_DETERMINISTIC:-<default>}"
+echo "  S2S_USE_LLM_CACHE:       ${S2S_USE_LLM_CACHE:-<default>}"
+echo "  S2S_USE_TTS_SUBWORD_CACHE: ${S2S_USE_TTS_SUBWORD_CACHE:-<default>}"
 echo "  S2S_CHUNK_SIZE_IN_SECS:  ${S2S_CHUNK_SIZE_IN_SECS}"
 echo "  S2S_BUFFER_SIZE_IN_SECS: ${S2S_BUFFER_SIZE_IN_SECS}"
-echo "  S2S_USE_CODEC_CACHE:     ${S2S_USE_CODEC_CACHE}"
 echo "  S2S_SYSTEM_PROMPT:       ${S2S_SYSTEM_PROMPT:-<not set>}"
 echo "  S2S_TTS_SYSTEM_PROMPT:   ${S2S_TTS_SYSTEM_PROMPT:-<not set>}"
 echo "  MODEL_REPO_DIR:          ${MODEL_REPO_DIR}"
diff --git a/nemo/collections/speechlm2/inference/model_wrappers/model_factory.py b/nemo/collections/speechlm2/inference/model_wrappers/model_factory.py
@@ -145,6 +145,8 @@ def _sample_text_token(
                     unique_prev = unique_prev[~torch.isin(unique_prev, ids_t)]
 
                 if unique_prev.numel() > 0:
+                    if unique_prev.device != batch_logits.device:
+                        unique_prev = unique_prev.to(batch_logits.device)
                     prev_logits = batch_logits[unique_prev]
                     # Positive logits are divided, negative logits are multiplied
                     # (same as the standard repetition_penalty convention)
diff --git a/nemo/collections/speechlm2/inference/model_wrappers/nemotron_voicechat_inference_wrapper.py b/nemo/collections/speechlm2/inference/model_wrappers/nemotron_voicechat_inference_wrapper.py
@@ -241,7 +241,8 @@ def _initialize_model(self):
 
         # Convert some S2S components to the configured dtype
         logging.info(f"Converting some S2S components to {self.dtype} (keeping perception & TTS in float32)...")
-        self.model.stt_model.llm = self.model.stt_model.llm.to(self.dtype)
+        if self.model.stt_model.llm is not None:
+            self.model.stt_model.llm = self.model.stt_model.llm.to(self.dtype)
         self.model.stt_model.lm_head = self.model.stt_model.lm_head.to(self.dtype)
         self.model.stt_model.embed_tokens = self.model.stt_model.embed_tokens.to(self.dtype)
         self.model.stt_model.asr_head = self.model.stt_model.asr_head.to(self.dtype)

Original file line number	Diff line number	Diff line change
`@@ -105,6 +105,7 @@ def send_sequence_end(client, sequence_id):`
`105`	`105`
`106`	`106`	`outputs = [`
`107`	`107`	`grpcclient.InferRequestedOutput("output_text"),`
	`108`	`+ grpcclient.InferRequestedOutput("output_asr_text"),`
`108`	`109`	`grpcclient.InferRequestedOutput("output_audio"),`
`109`	`110`	`]`
`110`	`111`
`@@ -115,7 +116,7 @@ def send_sequence_end(client, sequence_id):`
`115`	`116`	`outputs=outputs,`
`116`	`117`	`sequence_id=sequence_id,`
`117`	`118`	`sequence_start=False,`
`118`		`- sequence_end=True, # This is the key - properly end the sequence`
	`119`	`+ sequence_end=True,`
`119`	`120`	`)`
`120`	`121`	`logger.info("Sequence ended successfully")`
`121`	`122`