Add nemotron live-audio samples across languages

ruiren_microsoft · Copilot · ruiren_microsoft · commit 40f02b786f5d · 2026-04-23T14:36:44.000-07:00
Adds JS/C#/Python/Rust/C++ nemotron-focused live audio transcription samples and updates the Rust samples index.

Co-authored-by: Copilot &lt;223556219+Copilot@users.noreply.github.com&gt;
diff --git a/samples/cpp/live-audio-transcription-example/README.md b/samples/cpp/live-audio-transcription-example/README.md
@@ -0,0 +1,13 @@
+# Live Audio Transcription Example (C++)
+
+This sample demonstrates the Nemotron live-audio API surface introduced in PR #655:
+
+- `OpenAIAudioClient::CreateLiveTranscriptionSession()`
+- `LiveAudioTranscriptionSession::Start()`
+- `LiveAudioTranscriptionSession::Append(...)`
+- `LiveAudioTranscriptionSession::TryGetNext(...)`
+- `LiveAudioTranscriptionSession::Stop()`
+
+The sample pushes synthetic PCM audio (440Hz sine wave) and prints streaming/final transcript text.
+
+> This example assumes your branch includes the C++ SDK live-audio APIs from PR #655.
diff --git a/samples/cpp/live-audio-transcription-example/main.cpp b/samples/cpp/live-audio-transcription-example/main.cpp
@@ -0,0 +1,96 @@
+// Live Audio Transcription — Foundry Local C++ SDK Example
+//
+// This sample is based on the live-audio C++ APIs added in PR #655:
+//   - OpenAIAudioClient::CreateLiveTranscriptionSession()
+//   - LiveAudioTranscriptionSession::{Start, Append, TryGetNext, Stop}
+
+#include <chrono>
+#include <climits>
+#include <algorithm>
+#include <cmath>
+#include <cstdint>
+#include <iostream>
+#include <string>
+#include <thread>
+#include <vector>
+
+#include "foundry_local.h"
+
+namespace {
+std::vector<uint8_t> GenerateSineWavePcm(int sampleRate, int durationSeconds, double frequencyHz) {
+    const auto totalSamples = static_cast<size_t>(sampleRate * durationSeconds);
+    std::vector<uint8_t> pcm(totalSamples * 2, 0); // 16-bit mono
+
+    for (size_t i = 0; i < totalSamples; ++i) {
+        const double t = static_cast<double>(i) / static_cast<double>(sampleRate);
+        const auto sample = static_cast<int16_t>(
+            static_cast<double>(INT16_MAX) * 0.5 * std::sin(2.0 * 3.14159265358979323846 * frequencyHz * t));
+        const auto b = reinterpret_cast<const uint8_t*>(&sample);
+        pcm[i * 2] = b[0];
+        pcm[i * 2 + 1] = b[1];
+    }
+    return pcm;
+}
+} // namespace
+
+int main() {
+    try {
+        // Manager/model bootstrapping follows the same pattern as other Foundry Local SDK samples.
+        foundry_local::Configuration config;
+        config.appName = "foundry_local_samples";
+
+        auto manager = foundry_local::FoundryLocalManager::Create(config);
+        auto catalog = manager->GetCatalog();
+        auto model = catalog.GetModel("nemotron");
+        if (!model) {
+            throw std::runtime_error("Model \"nemotron\" not found in catalog");
+        }
+
+        model->Download();
+        model->Load();
+
+        auto audioClient = model->GetAudioClient();
+        auto session = audioClient.CreateLiveTranscriptionSession();
+
+        session->Settings().sample_rate = 16000;
+        session->Settings().channels = 1;
+        session->Settings().bits_per_sample = 16;
+        session->Settings().language = "en";
+        session->Start();
+
+        std::cout << "Session started. Pushing synthetic audio..." << std::endl;
+        const auto pcm = GenerateSineWavePcm(16000, 3, 440.0);
+        const size_t chunkSize = static_cast<size_t>(16000 / 10 * 2); // 100ms
+        for (size_t offset = 0; offset < pcm.size(); offset += chunkSize) {
+            const size_t len = std::min(chunkSize, pcm.size() - offset);
+            session->Append(pcm.data() + offset, len);
+            std::this_thread::sleep_for(std::chrono::milliseconds(100));
+        }
+
+        foundry_local::LiveAudioTranscriptionResponse result;
+        while (true) {
+            const auto status = session->TryGetNext(result, std::chrono::milliseconds(500));
+            if (status == foundry_local::TranscriptionStatus::Result) {
+                if (result.is_final) {
+                    std::cout << "\n[FINAL] " << result.text << std::endl;
+                } else {
+                    std::cout << result.text << std::flush;
+                }
+            } else if (status == foundry_local::TranscriptionStatus::Timeout) {
+                break;
+            } else if (status == foundry_local::TranscriptionStatus::Closed) {
+                break;
+            } else {
+                std::cerr << "Transcription stream error: " << session->GetErrorMessage() << std::endl;
+                break;
+            }
+        }
+
+        session->Stop();
+        model->Unload();
+        return 0;
+    } catch (const std::exception& ex) {
+        std::cerr << "Error: " << ex.what() << std::endl;
+        return 1;
+    }
+}
diff --git a/samples/cs/live-audio-transcription-example/Program.cs b/samples/cs/live-audio-transcription-example/Program.cs
@@ -20,7 +20,7 @@
 await FoundryLocalManager.CreateAsync(config, Utils.GetAppLogger());
 var mgr = FoundryLocalManager.Instance;
 
-await mgr.DownloadAndRegisterEpsAsync();
+await Utils.RunWithSpinner("Registering execution providers", mgr.DownloadAndRegisterEpsAsync());
 
 var catalog = await mgr.GetCatalogAsync();
 
diff --git a/samples/js/live-audio-transcription-example/app.js b/samples/js/live-audio-transcription-example/app.js
@@ -122,9 +122,8 @@ try {
     };
 
     audioInput.on('data', (buffer) => {
-        const pcm = new Uint8Array(buffer);
-        const copy = new Uint8Array(pcm.length);
-        copy.set(pcm);
+        // Single copy: slice the underlying ArrayBuffer to get an independent Uint8Array.
+        const copy = new Uint8Array(buffer.buffer, buffer.byteOffset, buffer.byteLength).slice();
 
         // Keep a bounded queue to avoid unbounded memory growth.
         if (appendQueue.length >= 100) {
diff --git a/samples/python/live-audio-transcription/requirements.txt b/samples/python/live-audio-transcription/requirements.txt
@@ -0,0 +1,2 @@
+foundry-local-sdk
+pyaudio
diff --git a/samples/python/live-audio-transcription/src/app.py b/samples/python/live-audio-transcription/src/app.py
@@ -0,0 +1,106 @@
+# Live Audio Transcription — Foundry Local SDK Example (Python)
+#
+# Demonstrates real-time microphone-to-text using:
+#   SDK (FoundryLocalManager) → Core (NativeAOT DLL) → onnxruntime-genai (StreamingProcessor)
+#
+# Usage:
+#   pip install -r requirements.txt
+#   python src/app.py
+
+import threading
+
+import pyaudio
+from foundry_local_sdk import Configuration, FoundryLocalManager
+
+print("===========================================================")
+print("   Foundry Local -- Live Audio Transcription Demo (Python)")
+print("===========================================================")
+print()
+
+config = Configuration(app_name="foundry_local_samples")
+FoundryLocalManager.initialize(config)
+manager = FoundryLocalManager.instance
+
+model = manager.catalog.get_model("nemotron")
+if model is None:
+    raise RuntimeError('Model "nemotron" not found in catalog')
+
+model.download(
+    lambda progress: print(f"\rDownloading model: {progress:.2f}%", end="", flush=True)
+)
+print()
+print(f"Loading model {model.id}...", end="")
+model.load()
+print("done.")
+
+audio_client = model.get_audio_client()
+session = audio_client.create_live_transcription_session()
+session.settings.sample_rate = 16000
+session.settings.channels = 1
+session.settings.language = "en"
+
+session.start()
+print("       Session started")
+
+
+def read_results():
+    for result in session.get_transcription_stream():
+        text = result.content[0].text if result.content else ""
+        if result.is_final:
+            print()
+            print(f"  [FINAL] {text}")
+        elif text:
+            print(f"\033[96m{text}\033[0m", end="", flush=True)
+
+
+read_thread = threading.Thread(target=read_results, daemon=True)
+read_thread.start()
+
+rate = 16000
+channels = 1
+fmt = pyaudio.paInt16
+chunk = rate // 10  # 100ms
+
+pa = pyaudio.PyAudio()
+stream = pa.open(
+    format=fmt,
+    channels=channels,
+    rate=rate,
+    input=True,
+    frames_per_buffer=chunk,
+)
+
+print()
+print("===========================================================")
+print("  LIVE TRANSCRIPTION ACTIVE")
+print("  Speak into your microphone.")
+print("  Transcription appears in real-time (cyan text).")
+print("  Press ENTER to stop recording.")
+print("===========================================================")
+print()
+
+stop_recording = threading.Event()
+
+
+def capture_mic():
+    while not stop_recording.is_set():
+        pcm_data = stream.read(chunk, exception_on_overflow=False)
+        if pcm_data:
+            session.append(pcm_data)
+
+
+capture_thread = threading.Thread(target=capture_mic, daemon=True)
+capture_thread.start()
+
+input()
+
+stop_recording.set()
+capture_thread.join(timeout=2)
+
+stream.stop_stream()
+stream.close()
+pa.terminate()
+
+session.stop()
+read_thread.join()
+model.unload()
diff --git a/samples/rust/README.md b/samples/rust/README.md
@@ -22,4 +22,8 @@ Demonstrates tool calling with streaming responses, multi-turn conversation, and
 
 ### [Audio Transcription](./audio-transcription-example)
 
-Demonstrates audio transcription (non-streaming and streaming) using the `whisper` model.
+Demonstrates audio transcription (non-streaming and streaming) using the `whisper` model.
+
+### [Live Audio Transcription](./live-audio-transcription-example)
+
+Demonstrates real-time microphone transcription using the `nemotron` model.
diff --git a/samples/rust/live-audio-transcription-example/Cargo.toml b/samples/rust/live-audio-transcription-example/Cargo.toml
@@ -0,0 +1,11 @@
+[package]
+name = "live-audio-transcription-example"
+version = "0.1.0"
+edition = "2021"
+description = "Live audio transcription (streaming) example using the Foundry Local Rust SDK"
+
+[dependencies]
+foundry-local-sdk = { path = "../../../sdk/rust" }
+tokio = { version = "1", features = ["rt-multi-thread", "macros"] }
+tokio-stream = "0.1"
+cpal = "0.15"
diff --git a/samples/rust/live-audio-transcription-example/README.md b/samples/rust/live-audio-transcription-example/README.md
@@ -0,0 +1,17 @@
+# Sample: Live Audio Transcription
+
+This sample demonstrates real-time microphone transcription using the Foundry Local Rust SDK and the `nemotron` model.
+
+> This example requires a Rust SDK version that includes `create_live_transcription_session`.
+
+## Run
+
+```bash
+cargo run -p live-audio-transcription-example
+```
+
+Use synthetic audio instead of a microphone:
+
+```bash
+cargo run -p live-audio-transcription-example -- --synth
+```
diff --git a/samples/rust/live-audio-transcription-example/src/main.rs b/samples/rust/live-audio-transcription-example/src/main.rs