pytorch
diff --git a/‎.ci/scripts/export_model_artifact.sh‎
Lines changed: 31 additions & 1 deletion b/‎.ci/scripts/export_model_artifact.sh‎
Lines changed: 31 additions & 1 deletion
diff --git a/‎.ci/scripts/test_model_e2e.sh‎
Lines changed: 41 additions & 14 deletions b/‎.ci/scripts/test_model_e2e.sh‎
Lines changed: 41 additions & 14 deletions
diff --git a/‎.github/workflows/cuda.yml‎
Lines changed: 31 additions & 6 deletions b/‎.github/workflows/cuda.yml‎
Lines changed: 31 additions & 6 deletions
@@ -21,6 +21,7 @@ Arguments:
                  - mistralai/Voxtral-Mini-3B-2507
                  - openai/whisper series (whisper-{small, medium, large, large-v2, large-v3, large-v3-turbo})
                  - google/gemma-3-4b-it
+                 - nvidia/parakeet-tdt
 
   quant_name   Quantization type (optional, default: non-quantized)
                Options:
@@ -34,6 +35,7 @@ Examples:
   export_model_artifact.sh metal "openai/whisper-small"
   export_model_artifact.sh cuda "mistralai/Voxtral-Mini-3B-2507" "quantized-int4-tile-packed"
   export_model_artifact.sh cuda "google/gemma-3-4b-it" "non-quantized" "./output"
+  export_model_artifact.sh cuda "nvidia/parakeet-tdt" "non-quantized" "./output"
 EOF
 }
 
@@ -101,9 +103,21 @@ case "$HF_MODEL" in
     PREPROCESSOR_FEATURE_SIZE=""
     PREPROCESSOR_OUTPUT=""
     ;;
+  nvidia/parakeet-tdt)
+    if [ "$DEVICE" = "metal" ]; then
+      echo "Error: Export for device 'metal' is not yet tested for model '$HF_MODEL'"
+      exit 1
+    fi
+    MODEL_NAME="parakeet"
+    TASK=""
+    MAX_SEQ_LEN=""
+    EXTRA_PIP=""
+    PREPROCESSOR_FEATURE_SIZE=""
+    PREPROCESSOR_OUTPUT=""
+    ;;
   *)
     echo "Error: Unsupported model '$HF_MODEL'"
-    echo "Supported models: mistralai/Voxtral-Mini-3B-2507, openai/whisper-{small, medium, large, large-v2, large-v3, large-v3-turbo}, google/gemma-3-4b-it"
+    echo "Supported models: mistralai/Voxtral-Mini-3B-2507, openai/whisper-{small, medium, large, large-v2, large-v3, large-v3-turbo}, google/gemma-3-4b-it, nvidia/parakeet-tdt"
     exit 1
     ;;
 esac
@@ -141,6 +155,22 @@ if [ -n "$EXTRA_PIP" ]; then
 fi
 pip list
 
+# Parakeet uses a custom export script
+if [ "$MODEL_NAME" = "parakeet" ]; then
+  pip install -r examples/models/parakeet/install_requirements.txt
+
+  python examples/models/parakeet/export_parakeet_tdt.py \
+      --backend "$DEVICE" \
+      --output-dir "${OUTPUT_DIR}"
+
+  test -f "${OUTPUT_DIR}/model.pte"
+  test -f "${OUTPUT_DIR}/aoti_${DEVICE}_blob.ptd"
+  test -f "${OUTPUT_DIR}/tokenizer.model"
+  ls -al "${OUTPUT_DIR}"
+  echo "::endgroup::"
+  exit 0
+fi
+
 MAX_SEQ_LEN_ARG=""
 if [ -n "$MAX_SEQ_LEN" ]; then
   MAX_SEQ_LEN_ARG="--max_seq_len $MAX_SEQ_LEN"
 
@@ -21,6 +21,7 @@ Arguments:
                 - mistralai/Voxtral-Mini-3B-2507
                 - openai/whisper series (whisper-{small, medium, large, large-v2, large-v3, large-v3-turbo})
                 - google/gemma-3-4b-it
+                - nvidia/parakeet-tdt
 
   quant_name  Quantization type (required)
               Options:
@@ -35,6 +36,7 @@ Arguments:
 Examples:
   test_model_e2e.sh metal "openai/whisper-small" "non-quantized"
   test_model_e2e.sh cuda "mistralai/Voxtral-Mini-3B-2507" "quantized-int4-tile-packed" "./model_output"
+  test_model_e2e.sh cuda "nvidia/parakeet-tdt" "non-quantized" "./model_output"
 EOF
 }
 
@@ -118,9 +120,21 @@ case "$HF_MODEL" in
     AUDIO_FILE=""
     IMAGE_PATH="docs/source/_static/img/et-logo.png"
     ;;
+  nvidia/parakeet-tdt)
+    MODEL_NAME="parakeet"
+    RUNNER_TARGET="parakeet_runner"
+    RUNNER_PATH="parakeet"
+    EXPECTED_OUTPUT="Phoebe"
+    PREPROCESSOR=""
+    TOKENIZER_URL=""
+    TOKENIZER_FILE="tokenizer.model"
+    AUDIO_URL="https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav"
+    AUDIO_FILE="test_audio.wav"
+    IMAGE_PATH=""
+    ;;
   *)
     echo "Error: Unsupported model '$HF_MODEL'"
-    echo "Supported models: mistralai/Voxtral-Mini-3B-2507, openai/whisper series (whisper-{small, medium, large, large-v2, large-v3, large-v3-turbo}), google/gemma-3-4b-it"
+    echo "Supported models: mistralai/Voxtral-Mini-3B-2507, openai/whisper series (whisper-{small, medium, large, large-v2, large-v3, large-v3-turbo}), google/gemma-3-4b-it, nvidia/parakeet-tdt"
     exit 1
     ;;
 esac
@@ -133,13 +147,15 @@ echo "::endgroup::"
 echo "::group::Prepare $MODEL_NAME Artifacts"
 
 
-# Download tokenizer files
-if [ "$TOKENIZER_FILE" != "" ]; then
-  curl -L $TOKENIZER_URL/$TOKENIZER_FILE -o $MODEL_DIR/$TOKENIZER_FILE
-else
-  curl -L $TOKENIZER_URL/tokenizer.json -o $MODEL_DIR/tokenizer.json
-  curl -L $TOKENIZER_URL/tokenizer_config.json -o $MODEL_DIR/tokenizer_config.json
-  curl -L $TOKENIZER_URL/special_tokens_map.json -o $MODEL_DIR/special_tokens_map.json
+# Download tokenizer files (skip for parakeet which exports tokenizer with model)
+if [ "$MODEL_NAME" != "parakeet" ]; then
+  if [ "$TOKENIZER_FILE" != "" ]; then
+    curl -L $TOKENIZER_URL/$TOKENIZER_FILE -o $MODEL_DIR/$TOKENIZER_FILE
+  else
+    curl -L $TOKENIZER_URL/tokenizer.json -o $MODEL_DIR/tokenizer.json
+    curl -L $TOKENIZER_URL/tokenizer_config.json -o $MODEL_DIR/tokenizer_config.json
+    curl -L $TOKENIZER_URL/special_tokens_map.json -o $MODEL_DIR/special_tokens_map.json
+  fi
 fi
 
 # Download test files
@@ -187,23 +203,34 @@ case "$MODEL_NAME" in
   gemma3)
     RUNNER_ARGS="$RUNNER_ARGS --tokenizer_path ${MODEL_DIR}/ --image_path $IMAGE_PATH"
     ;;
+  parakeet)
+    RUNNER_ARGS="--model_path ${MODEL_DIR}/model.pte --data_path ${MODEL_DIR}/aoti_${DEVICE}_blob.ptd --audio_path ${MODEL_DIR}/$AUDIO_FILE --tokenizer_path ${MODEL_DIR}/$TOKENIZER_FILE"
+    ;;
 esac
 
 OUTPUT=$($RUNNER_BIN $RUNNER_ARGS 2>&1)
 EXIT_CODE=$?
 set -e
 
-if ! echo "$OUTPUT" | grep -iq "$EXPECTED_OUTPUT"; then
-  echo "Expected output '$EXPECTED_OUTPUT' not found in output"
-  exit 1
-else
-  echo "Success: '$EXPECTED_OUTPUT' found in output"
-fi
+echo "Runner output:"
+echo "$OUTPUT"
 
 if [ $EXIT_CODE -ne 0 ]; then
   echo "Unexpected exit code: $EXIT_CODE"
   exit $EXIT_CODE
 fi
+
+# Validate output for models that have expected output
+if [ -n "$EXPECTED_OUTPUT" ]; then
+  if ! echo "$OUTPUT" | grep -iq "$EXPECTED_OUTPUT"; then
+    echo "Expected output '$EXPECTED_OUTPUT' not found in output"
+    exit 1
+  else
+    echo "Success: '$EXPECTED_OUTPUT' found in output"
+  fi
+else
+  echo "SUCCESS: Runner completed successfully"
+fi
 echo "::endgroup::"
 
 popd
@@ -138,6 +138,8 @@ jobs:
             name: "whisper-large-v3-turbo"
           - repo: "google"
             name: "gemma-3-4b-it"
+          - repo: "nvidia"
+            name: "parakeet-tdt"
         quant:
           - "non-quantized"
           - "quantized-int4-tile-packed"
@@ -148,6 +150,15 @@ jobs:
               repo: "google"
               name: "gemma-3-4b-it"
             quant: "quantized-int4-weight-only"
+          # Parakeet only supports non-quantized
+          - model:
+              repo: "nvidia"
+              name: "parakeet-tdt"
+            quant: "quantized-int4-tile-packed"
+          - model:
+              repo: "nvidia"
+              name: "parakeet-tdt"
+            quant: "quantized-int4-weight-only"
     with:
       timeout: 90
       secrets-env: EXECUTORCH_HF_TOKEN
@@ -165,12 +176,15 @@ jobs:
         ./install_executorch.sh
         echo "::endgroup::"
 
-        echo "::group::Setup Huggingface"
-        pip install -U "huggingface_hub[cli]<1.0" accelerate
-        huggingface-cli login --token $SECRET_EXECUTORCH_HF_TOKEN
-        OPTIMUM_ET_VERSION=$(cat .ci/docker/ci_commit_pins/optimum-executorch.txt)
-        pip install git+https://github.com/huggingface/optimum-executorch.git@${OPTIMUM_ET_VERSION}
-        echo "::endgroup::"
+        # Setup Huggingface only for models that need it (not parakeet)
+        if [ "${{ matrix.model.name }}" != "parakeet-tdt" ]; then
+          echo "::group::Setup Huggingface"
+          pip install -U "huggingface_hub[cli]<1.0" accelerate
+          huggingface-cli login --token $SECRET_EXECUTORCH_HF_TOKEN
+          OPTIMUM_ET_VERSION=$(cat .ci/docker/ci_commit_pins/optimum-executorch.txt)
+          pip install git+https://github.com/huggingface/optimum-executorch.git@${OPTIMUM_ET_VERSION}
+          echo "::endgroup::"
+        fi
 
         source .ci/scripts/export_model_artifact.sh cuda "${{ matrix.model.repo }}/${{ matrix.model.name }}" "${{ matrix.quant }}" "${RUNNER_ARTIFACT_DIR}"
 
@@ -193,6 +207,8 @@ jobs:
             name: "whisper-large-v3-turbo"
           - repo: "google"
             name: "gemma-3-4b-it"
+          - repo: "nvidia"
+            name: "parakeet-tdt"
         quant:
           - "non-quantized"
           - "quantized-int4-tile-packed"
@@ -203,6 +219,15 @@ jobs:
               repo: "google"
               name: "gemma-3-4b-it"
             quant: "quantized-int4-weight-only"
+          # Parakeet only supports non-quantized
+          - model:
+              repo: "nvidia"
+              name: "parakeet-tdt"
+            quant: "quantized-int4-tile-packed"
+          - model:
+              repo: "nvidia"
+              name: "parakeet-tdt"
+            quant: "quantized-int4-weight-only"
     with:
       timeout: 90
       runner: linux.g5.4xlarge.nvidia.gpu