Address PR review feedback from IgorSwat and msluszniak

yocontra · yocontra · commit c7c8aa9686c9 · 2026-03-09T07:28:46.000-07:00
- Revert scaleDurations min-1 clamp to avoid exceeding 296 duration cap
- Remove kSafeTokensLimit=60 cap that cut text mid-sentence
- Use std::ranges::find_if in Synthesizer.cpp
diff --git a/packages/react-native-executorch/common/rnexecutorch/models/text_to_speech/kokoro/DurationPredictor.cpp b/packages/react-native-executorch/common/rnexecutorch/models/text_to_speech/kokoro/DurationPredictor.cpp
@@ -174,9 +174,8 @@ void DurationPredictor::scaleDurations(Tensor &durations, size_t nTokens,
     float remainder =
         shrinking ? std::ceil(scaled) - scaled : scaled - std::floor(scaled);
 
-    durationsPtr[i] = std::max(static_cast<int64_t>(1),
-        static_cast<int64_t>(shrinking ? std::ceil(scaled)
-                                       : std::floor(scaled)));
+    durationsPtr[i] = static_cast<int64_t>(shrinking ? std::ceil(scaled)
+                                                      : std::floor(scaled));
     scaledSum += durationsPtr[i];
 
     // Keeps the entries sorted by the remainders
@@ -189,13 +188,8 @@ void DurationPredictor::scaleDurations(Tensor &durations, size_t nTokens,
   int32_t diff = std::abs(targetDuration - scaledSum);
   for (uint32_t i = 0; i < diff; i++) {
     auto [remainder, idx] = remainders.top();
-    remainders.pop();
-    // Never drive a duration below 1 — the min-1 clamp above prevents
-    // phoneme deletion, so the correction loop must respect it too.
-    if (shrinking && durationsPtr[idx] <= 1) {
-      continue;
-    }
     durationsPtr[idx] += shrinking ? -1 : 1;
+    remainders.pop();
   }
 }
 
diff --git a/packages/react-native-executorch/common/rnexecutorch/models/text_to_speech/kokoro/Kokoro.cpp b/packages/react-native-executorch/common/rnexecutorch/models/text_to_speech/kokoro/Kokoro.cpp
@@ -35,14 +35,6 @@ Kokoro::Kokoro(const std::string &lang, const std::string &taggerDataSource,
 
   context_.inputTokensLimit = durationPredictor_.getTokensLimit();
   context_.inputDurationLimit = synthesizer_.getDurationLimit();
-
-  // Cap effective token limit to prevent the Synthesizer's attention from
-  // drifting on longer sequences, which manifests as progressive speed-up
-  // in the generated audio.  Shorter chunks keep timing faithful to the
-  // Duration Predictor's output.
-  static constexpr size_t kSafeTokensLimit = 60;
-  context_.inputTokensLimit =
-      std::min(context_.inputTokensLimit, kSafeTokensLimit);
 }
 
 void Kokoro::loadVoice(const std::string &voiceSource) {
diff --git a/packages/react-native-executorch/common/rnexecutorch/models/text_to_speech/kokoro/Synthesizer.cpp b/packages/react-native-executorch/common/rnexecutorch/models/text_to_speech/kokoro/Synthesizer.cpp
@@ -71,7 +71,7 @@ Result<std::vector<EValue>> Synthesizer::generate(std::span<const Token> tokens,
                                         ref_s.data(), ScalarType::Float);
 
   // Select appropriate forward method based on token count
-  auto it = std::find_if(forwardMethods_.begin(), forwardMethods_.end(),
+  auto it = std::ranges::find_if(forwardMethods_,
       [noTokens](const auto &entry) { return static_cast<int32_t>(entry.second) >= noTokens; });
   std::string selectedMethod = (it != forwardMethods_.end()) ? it->first : forwardMethods_.back().first;