fix (chat): deepgram sdk issues

itsskofficial · itsskofficial · commit 70af5c8c03b6 · 2025-08-08T22:41:12.000+05:30
fix (search): interactive search indexing
diff --git a/src/server/main/search/routes.py b/src/server/main/search/routes.py
@@ -1,6 +1,8 @@
 from fastapi import APIRouter, Depends, HTTPException, Query
 from fastapi.responses import JSONResponse, StreamingResponse
 import asyncio
+from bson import ObjectId
+import datetime
 
 from main.auth.utils import PermissionChecker
 from main.search.models import UnifiedSearchRequest
@@ -16,6 +18,15 @@
     tags=["Search"]
 )
 
+def sanitize_dict(d: dict) -> dict:
+    """Converts non-serializable types like ObjectId and datetime to strings."""
+    for key, value in d.items():
+        if isinstance(value, ObjectId):
+            d[key] = str(value)
+        elif isinstance(value, datetime.datetime):
+            d[key] = value.isoformat()
+    return d
+
 @router.post("/unified", summary="Perform a unified search across all data sources")
 async def unified_search_endpoint(
     request: UnifiedSearchRequest,
@@ -73,10 +84,10 @@ async def search_memories_coro():
             tasks_coro, chats_coro, search_memories_coro()
         )
 
-        # Format results
-        formatted_tasks = [{"type": "task", **t} for t in tasks_res]
-        formatted_chats = [{"type": "chat", **c} for c in chats_res]
-        formatted_memories = [{"type": "memory", **m} for m in memories_res]
+        # Format and sanitize results
+        formatted_tasks = [{"type": "task", **sanitize_dict(t)} for t in tasks_res]
+        formatted_chats = [{"type": "chat", **sanitize_dict(c)} for c in chats_res]
+        formatted_memories = [{"type": "memory", **sanitize_dict(m)} for m in memories_res]
 
         all_results = formatted_tasks + formatted_chats + formatted_memories
 
@@ -89,4 +100,4 @@ async def search_memories_coro():
         # Log the full error for debugging
         import traceback
         traceback.print_exc()
-        raise HTTPException(status_code=500, detail=f"An error occurred during search: {str(e)}")
+        raise HTTPException(status_code=500, detail=f"An error occurred during search: {str(e)}")
diff --git a/src/server/main/voice/routes.py b/src/server/main/voice/routes.py
@@ -114,6 +114,10 @@ async def process_audio_chunk(self, audio: tuple[int, np.ndarray]):
             
             await self.send_message(json.dumps({"type": "status", "message": "transcribing"}))
             sample_rate, audio_array = audio
+            
+            if audio_array.dtype != np.int16:
+                audio_array = (audio_array * 32767).astype(np.int16)
+
             transcription = await stt_model_instance.transcribe(audio_array.tobytes(), sample_rate=sample_rate)
             
             if not transcription or not transcription.strip():
diff --git a/src/server/main/voice/stt/deepgram.py b/src/server/main/voice/stt/deepgram.py
@@ -44,16 +44,19 @@ async def transcribe(self, audio_bytes: bytes, sample_rate: int) -> str:
             # The audio is raw PCM, 16-bit signed little-endian, mono.
             # We must provide the mimetype to Deepgram.
             source: BufferSource = {
-                "buffer": audio_bytes, 
-                "mimetype": f"audio/raw;pcm=s16le;sample_rate={sample_rate};channels=1"
+                "buffer": audio_bytes
             }
             
             # Configure Deepgram options for the request for best results
+            # Crucially, we must specify the encoding, sample_rate, and channels for raw audio.
             options = PrerecordedOptions(
                 model="nova-3",
                 smart_format=True,
                 punctuate=True,
-                utterances=True
+                utterances=True,
+                encoding="linear16",
+                sample_rate=sample_rate,
+                channels=1
             )
 
             # Make the API call to transcribe the audio buffer
diff --git a/src/server/requirements-dev.txt b/src/server/requirements-dev.txt
@@ -24,6 +24,7 @@ pgvector
 qwen-agent
 google-genai
 elevenlabs 
+deepgram-sdk
 librosa
 llama-cpp-python
 faster-whisper
diff --git a/src/server/requirements.txt b/src/server/requirements.txt
@@ -24,6 +24,7 @@ pgvector
 qwen-agent
 google-genai
 elevenlabs
+deepgram-sdk
 librosa
 torch
 fastrtc[vad, stt, tts]