Merge branch 'main-T11397-supertonic-tts-RUS' into 'main'

bizzappdev · bizzappdev · commit 503ab626e2e5 · 2026-06-09T14:00:38.000Z
T11397 add Supertonic TTS for Korean and Japanese

See merge request bizzappdev/ai/polytalkio/polytalk!5
diff --git a/.env.example b/.env.example
@@ -118,6 +118,15 @@ TTS_MODEL=en_GB-jenny_dioco-medium
 # For external service, use: https://tts.your-domain.com
 TTS_BASE_URL=http://tts:5000
 
+# Supertonic TTS is used for Japanese and Korean. First startup downloads
+# model assets into the supertonic_data Docker volume.
+SUPERTONIC_TTS_BASE_URL=http://supertonic-tts:7788
+SUPERTONIC_TTS_VOICE=F1
+SUPERTONIC_TTS_JA_VOICE=F1
+SUPERTONIC_TTS_KO_VOICE=F1
+SUPERTONIC_TTS_STEPS=8
+SUPERTONIC_TTS_SPEED=1.00
+
 # ============================================================================
 # APPLICATION SETTINGS
 # ============================================================================
diff --git a/app/services/tts_service.py b/app/services/tts_service.py
@@ -44,6 +44,8 @@ def __init__(self) -> None:
         self.mock_mode = self.config.get("mock_mode", True)
         self.provider = self.config.get("provider", "piper")
         self.base_url = self.config.get("base_url", "http://localhost:5000")
+        self.providers = self.config.get("providers", {})
+        self.language_providers = self.config.get("language_providers", {})
         self.voice = self.config.get("voice", "en_US-lessac-medium")
         self.timeout = self.config.get("timeout_seconds", 15)
         self.media_dir = get_config().media_output_dir
@@ -91,10 +93,12 @@ async def synthesize(
             return await self._mock_synthesize(text, language, output_path)
 
         try:
-            if self.provider == "piper":
+            provider = self._get_provider_for_language(language)
+            if provider == "piper":
                 return await self._piper_synthesize(text, language, output_path)
-            else:
-                return await self._openai_synthesize(text, language, output_path)
+            if provider == "supertonic":
+                return await self._supertonic_synthesize(text, language, output_path)
+            return await self._openai_synthesize(text, language, output_path)
         except Exception as e:
             logger.error(f"TTS synthesis failed: {e}")
             return TTSResult(success=False, error=str(e))
@@ -148,6 +152,46 @@ async def _mock_synthesize(
             logger.error(f"Mock TTS failed: {e}")
             return TTSResult(success=False, error=f"Mock TTS failed: {e}")
 
+    def _normalize_language(self, language: str) -> tuple[str, str]:
+        """Return normalized exact and base language codes."""
+        normalized_language = language.replace("-", "_")
+        lang_base = normalized_language.split("_")[0].lower()
+        return normalized_language, lang_base
+
+    def _get_provider_for_language(self, language: str) -> str:
+        """Resolve the TTS provider for a language, falling back to default."""
+        normalized_language, lang_base = self._normalize_language(language)
+        return self.language_providers.get(
+            normalized_language,
+            self.language_providers.get(lang_base, self.provider),
+        )
+
+    def _get_provider_config(self, provider: str) -> dict:
+        """Return provider-specific config merged with top-level defaults."""
+        provider_config = self.providers.get(provider, {})
+        return {**self.config, **provider_config}
+
+    def _get_provider_base_url(self, provider: str) -> str:
+        """Return the base URL for a provider."""
+        provider_config = self._get_provider_config(provider)
+        return provider_config.get("base_url", self.base_url).rstrip("/")
+
+    @staticmethod
+    def _config_int(value: object, default: int) -> int:
+        """Parse an integer config value with a safe fallback."""
+        try:
+            return int(value)
+        except (TypeError, ValueError):
+            return default
+
+    @staticmethod
+    def _config_float(value: object, default: float) -> float:
+        """Parse a float config value with a safe fallback."""
+        try:
+            return float(value)
+        except (TypeError, ValueError):
+            return default
+
     async def _fetch_voices(self) -> dict:
         """
         Fetch available voices from Piper TTS API with thread-safe caching.
@@ -182,7 +226,7 @@ async def _fetch_voices(self) -> dict:
 
             try:
                 response = await self._http_client.get(
-                    f"{self.base_url.rstrip('/')}/voices"
+                    f"{self._get_provider_base_url('piper')}/voices"
                 )
                 response.raise_for_status()
                 self._voices_cache = response.json()
@@ -210,8 +254,7 @@ async def _get_voice_for_language(self, language: str) -> str:
         4. Base language match from API voices
         5. Default voice from config
         """
-        normalized_language = language.replace("-", "_")
-        lang_base = normalized_language.split("_")[0].lower()
+        normalized_language, lang_base = self._normalize_language(language)
         voices = await self._fetch_voices()
 
         def voice_available(voice_name: str) -> bool:
@@ -276,8 +319,7 @@ def _get_length_scale_for_language(self, language: str, voice: str) -> float:
         lookup supports voice-specific, exact language, base language, then
         global default settings.
         """
-        normalized_language = language.replace("-", "_")
-        lang_base = normalized_language.split("_")[0].lower()
+        normalized_language, lang_base = self._normalize_language(language)
 
         candidates = [
             voice,
@@ -306,7 +348,7 @@ async def _piper_synthesize(
         Returns:
             TTSResult with audio file path
         """
-        url = self.base_url.rstrip("/")
+        url = self._get_provider_base_url("piper")
 
         # Select voice dynamically from Piper TTS API
         voice = await self._get_voice_for_language(language)
@@ -341,17 +383,78 @@ async def _piper_synthesize(
                 audio_url=audio_url,
                 success=True,
             )
-        except httpx.TimeoutException:
-            logger.error(f"Piper TTS timeout after {self.timeout}s")
+        except httpx.HTTPError as e:
+            logger.error(f"Piper TTS HTTP error: {e}")
             return TTSResult(
                 success=False,
-                error=f"Piper TTS timeout after {self.timeout}s",
+                error=f"Piper TTS HTTP error: {e}",
             )
+
+    def _get_supertonic_voice_for_language(self, language: str) -> str:
+        """Return Supertonic voice style for a language."""
+        provider_config = self._get_provider_config("supertonic")
+        voices = provider_config.get("voices", {})
+        normalized_language, lang_base = self._normalize_language(language)
+        return voices.get(
+            normalized_language,
+            voices.get(lang_base, provider_config.get("voice", "M1")),
+        )
+
+    async def _supertonic_synthesize(
+        self, text: str, language: str, output_path: Optional[Path] = None
+    ) -> TTSResult:
+        """Synthesize speech using a Supertonic TTS HTTP server."""
+        provider_config = self._get_provider_config("supertonic")
+        normalized_language, lang_base = self._normalize_language(language)
+        voice = self._get_supertonic_voice_for_language(language)
+        url = self._get_provider_base_url("supertonic") + "/v1/tts"
+
+        payload = {
+            "text": text,
+            "voice": voice,
+            "lang": lang_base,
+            "steps": self._config_int(provider_config.get("steps"), 8),
+            "speed": self._config_float(provider_config.get("speed"), 1.05),
+            "response_format": provider_config.get("response_format", "wav"),
+        }
+
+        try:
+            async with self._http_client.stream("POST", url, json=payload) as response:
+                response.raise_for_status()
+
+                if output_path is None:
+                    unique_id = str(uuid.uuid4())[:8]
+                    output_path = (
+                        self.media_dir / f"tts_{normalized_language}_{unique_id}.wav"
+                    )
+
+                output_path.parent.mkdir(parents=True, exist_ok=True)
+
+                with open(output_path, "wb") as f:
+                    async for chunk in response.aiter_bytes():
+                        if chunk:
+                            f.write(chunk)
+
+                audio_url = f"/media/output/{output_path.name}"
+                duration_header = response.headers.get("X-Audio-Duration")
+                duration = float(duration_header) if duration_header else None
+
+                logger.info(
+                    f"Supertonic TTS generated: {output_path} "
+                    f"(lang: {lang_base}, voice: {voice})"
+                )
+
+                return TTSResult(
+                    audio_path=output_path,
+                    audio_url=audio_url,
+                    duration=duration,
+                    success=True,
+                )
         except httpx.HTTPError as e:
-            logger.error(f"Piper TTS HTTP error: {e}")
+            logger.error(f"Supertonic TTS HTTP error: {e}")
             return TTSResult(
                 success=False,
-                error=f"Piper TTS HTTP error: {e}",
+                error=f"Supertonic TTS HTTP error: {e}",
             )
 
     async def _openai_synthesize(
@@ -386,12 +489,6 @@ async def _openai_synthesize(
             response.raise_for_status()
 
             audio_content = response.content
-        except httpx.TimeoutException:
-            logger.error(f"OpenAI TTS timeout after {self.timeout}s")
-            return TTSResult(
-                success=False,
-                error=f"OpenAI TTS timeout after {self.timeout}s",
-            )
         except httpx.HTTPError as e:
             logger.error(f"OpenAI TTS HTTP error: {e}")
             return TTSResult(
diff --git a/app/templates/index.html b/app/templates/index.html
@@ -46,9 +46,9 @@
                             <option value="es_MX">Spanish (Mexico)</option>
                             <option value="tr">Turkish</option>
                             <option value="bn" disabled>Bengali</option>
-                            <option value="ja" disabled>Japanese</option>
+                            <option value="ja">Japanese</option>
                             <option value="kn" disabled>Kannada</option>
-                            <option value="ko" disabled>Korean</option>
+                            <option value="ko">Korean</option>
                             <option value="mr" disabled>Marathi</option>
                             <option value="pt" disabled>Portuguese</option>
                             <option value="ta" disabled>Tamil</option>
@@ -82,9 +82,9 @@
                             <option value="es_MX">Spanish (Mexico)</option>
                             <option value="tr">Turkish</option>
                             <option value="bn" disabled>Bengali</option>
-                            <option value="ja" disabled>Japanese</option>
+                            <option value="ja">Japanese</option>
                             <option value="kn" disabled>Kannada</option>
-                            <option value="ko" disabled>Korean</option>
+                            <option value="ko">Korean</option>
                             <option value="mr" disabled>Marathi</option>
                             <option value="pt" disabled>Portuguese</option>
                             <option value="ta" disabled>Tamil</option>
diff --git a/config/config.yaml.example b/config/config.yaml.example
@@ -28,6 +28,23 @@ tts:
   mock_mode: true
   provider: "piper"
   base_url: "${TTS_BASE_URL}"
+  providers:
+    piper:
+      base_url: "${TTS_BASE_URL}"
+    supertonic:
+      base_url: "${SUPERTONIC_TTS_BASE_URL}"
+      voice: "${SUPERTONIC_TTS_VOICE}"
+      steps: "${SUPERTONIC_TTS_STEPS}"
+      speed: "${SUPERTONIC_TTS_SPEED}"
+      response_format: "wav"
+      voices:
+        ja: "${SUPERTONIC_TTS_JA_VOICE}"
+        ko: "${SUPERTONIC_TTS_KO_VOICE}"
+  language_providers:
+    ja: "supertonic"
+    ja_JP: "supertonic"
+    ko: "supertonic"
+    ko_KR: "supertonic"
   voice: "en_GB-jenny_dioco-medium"
   timeout_seconds: 10
   length_scales:
diff --git a/docker-compose.yml b/docker-compose.yml
@@ -72,6 +72,22 @@ services:
     networks:
       - polytalk-network
 
+  supertonic-tts:
+    build:
+      context: ./supertonic_tts
+      dockerfile: Dockerfile
+    image: polytalk-supertonic-tts:latest
+    container_name: polytalk-supertonic-tts
+    restart: unless-stopped
+    ports:
+      - "127.0.0.1:7788:7788"
+    environment:
+      - XDG_CACHE_HOME=/data/cache
+    volumes:
+      - supertonic_data:/data
+    networks:
+      - polytalk-network
+
   polytalk:
     build:
       context: .
@@ -89,8 +105,14 @@ services:
       - TRANSLATION_API_KEY=${TRANSLATION_API_KEY:-}
       - TRANSLATION_MODEL=${TRANSLATION_MODEL:-gpt-4o-mini}
       - TRANSLATION_MAX_TOKENS=${TRANSLATION_MAX_TOKENS:-160}
-      # TTS service (local Piper)
+      # TTS services
       - TTS_BASE_URL=${TTS_BASE_URL:-http://tts:5000}
+      - SUPERTONIC_TTS_BASE_URL=${SUPERTONIC_TTS_BASE_URL:-http://supertonic-tts:7788}
+      - SUPERTONIC_TTS_VOICE=${SUPERTONIC_TTS_VOICE:-M1}
+      - SUPERTONIC_TTS_JA_VOICE=${SUPERTONIC_TTS_JA_VOICE:-M1}
+      - SUPERTONIC_TTS_KO_VOICE=${SUPERTONIC_TTS_KO_VOICE:-M1}
+      - SUPERTONIC_TTS_STEPS=${SUPERTONIC_TTS_STEPS:-8}
+      - SUPERTONIC_TTS_SPEED=${SUPERTONIC_TTS_SPEED:-1.05}
       # Application
       - APP_HOST=0.0.0.0
       - APP_PORT=8000
@@ -114,11 +136,13 @@ services:
     depends_on:
       - stt
       - tts
+      - supertonic-tts
     networks:
       - polytalk-network
 
 volumes:
   stt_data:
+  supertonic_data:
 
 networks:
   polytalk-network:
diff --git a/supertonic_tts/Dockerfile b/supertonic_tts/Dockerfile
@@ -0,0 +1,28 @@
+FROM python:3.12-slim
+
+ENV PIP_BREAK_SYSTEM_PACKAGES=1
+ENV XDG_CACHE_HOME=/data/cache
+ENV HOME=/data/home
+
+WORKDIR /app
+
+RUN apt-get update && apt-get install -y --no-install-recommends \
+    build-essential \
+    gosu \
+    libsndfile1 \
+    && rm -rf /var/lib/apt/lists/*
+
+RUN pip install --no-cache-dir 'supertonic[serve]==1.3.1'
+
+RUN addgroup --system supertonic \
+    && adduser --system --ingroup supertonic --home /data/home supertonic \
+    && mkdir -p /data/cache /data/home /app \
+    && chown -R supertonic:supertonic /data /app
+
+COPY entrypoint.sh /app/entrypoint.sh
+RUN chmod +x /app/entrypoint.sh
+
+EXPOSE 7788
+
+ENTRYPOINT ["/app/entrypoint.sh"]
+CMD ["supertonic", "serve", "--host", "0.0.0.0", "--port", "7788"]
diff --git a/supertonic_tts/entrypoint.sh b/supertonic_tts/entrypoint.sh
@@ -0,0 +1,7 @@
+#!/bin/sh
+set -eu
+
+mkdir -p /data/cache /data/home
+chown -R supertonic:supertonic /data
+
+exec gosu supertonic "$@"
diff --git a/tests/test_tts_detailed.py b/tests/test_tts_detailed.py