fix(kokoro): stripAudio underflow, atomic streaming flag, duration floor

yocontra · yocontra · commit e66f1f8431e3 · 2026-03-09T08:36:35.000-07:00
Three bugs found via adversarial audit:

- stripAudio: unsigned underflow when lbound &lt; margin wraps size_t to
  ~2^64, causing OOB subspan. Guard subtraction with comparison first.
- isStreaming_: plain bool read/written from two threads (stream loop
  vs streamStop from JS). Changed to std::atomic&lt;bool&gt;.
- scaleDurations: aggressive shrinking can drive individual token
  durations to zero, dropping phonemes from repeatInterleave. Floor
  each duration at 1 after scaling.
diff --git a/packages/react-native-executorch/common/rnexecutorch/models/text_to_speech/kokoro/DurationPredictor.cpp b/packages/react-native-executorch/common/rnexecutorch/models/text_to_speech/kokoro/DurationPredictor.cpp
@@ -174,8 +174,9 @@ void DurationPredictor::scaleDurations(Tensor &durations, size_t nTokens,
     float remainder =
         shrinking ? std::ceil(scaled) - scaled : scaled - std::floor(scaled);
 
-    durationsPtr[i] = static_cast<int64_t>(shrinking ? std::ceil(scaled)
-                                                     : std::floor(scaled));
+    durationsPtr[i] = std::max(1LL,
+        static_cast<int64_t>(shrinking ? std::ceil(scaled)
+                                       : std::floor(scaled)));
     scaledSum += durationsPtr[i];
 
     // Keeps the entries sorted by the remainders
diff --git a/packages/react-native-executorch/common/rnexecutorch/models/text_to_speech/kokoro/Kokoro.h b/packages/react-native-executorch/common/rnexecutorch/models/text_to_speech/kokoro/Kokoro.h
@@ -1,6 +1,7 @@
 #pragma once
 
 #include <array>
+#include <atomic>
 #include <memory>
 #include <optional>
 #include <string>
@@ -80,7 +81,7 @@ class Kokoro {
   std::vector<std::array<float, constants::kVoiceRefSize>> voice_;
 
   // Extra control variables
-  bool isStreaming_ = false;
+  std::atomic<bool> isStreaming_{false};
 };
 } // namespace models::text_to_speech::kokoro
 
diff --git a/packages/react-native-executorch/common/rnexecutorch/models/text_to_speech/kokoro/Utils.cpp b/packages/react-native-executorch/common/rnexecutorch/models/text_to_speech/kokoro/Utils.cpp
@@ -55,8 +55,8 @@ std::span<const float> stripAudio(std::span<const float> audio, size_t margin) {
   auto lbound = findAudioBound<false>(audio);
   auto rbound = findAudioBound<true>(audio);
 
-  lbound = std::max(lbound - margin, size_t(0));
-  rbound = std::min(rbound + margin, audio.size() - 1);
+  lbound = lbound > margin ? lbound - margin : 0;
+  rbound = std::min(rbound + margin, audio.size() > 0 ? audio.size() - 1 : 0);
 
   return audio.subspan(lbound, rbound >= lbound ? rbound - lbound + 1 : 0);
 }

Original file line number	Diff line number	Diff line change
`@@ -55,8 +55,8 @@ std::span<const float> stripAudio(std::span<const float> audio, size_t margin) {`
`55`	`55`	`auto lbound = findAudioBound<false>(audio);`
`56`	`56`	`auto rbound = findAudioBound<true>(audio);`
`57`	`57`
`58`		`- lbound = std::max(lbound - margin, size_t(0));`
`59`		`- rbound = std::min(rbound + margin, audio.size() - 1);`
	`58`	`+ lbound = lbound > margin ? lbound - margin : 0;`
	`59`	`+ rbound = std::min(rbound + margin, audio.size() > 0 ? audio.size() - 1 : 0);`
`60`	`60`
`61`	`61`	`return audio.subspan(lbound, rbound >= lbound ? rbound - lbound + 1 : 0);`
`62`	`62`	`}`