Merge pull request #22 from AgoraIO-Conversational-AI/hotfix/v1.3.2

digitallysavvy · web-flow · commit 1d51b559076c · 2026-04-23T20:34:19.000-04:00
Hotfix/v1.3.2
diff --git a/README.md b/README.md
@@ -3,7 +3,7 @@
 [![fern shield](https://img.shields.io/badge/%F0%9F%8C%BF-Built%20with%20Fern-brightgreen)](https://buildwithfern.com?utm_source=github&utm_medium=github&utm_campaign=readme&utm_source=https%3A%2F%2Fgithub.com%2FAgoraIO-Conversational-AI%2Fagent-server-sdk-python)
 [![pypi](https://img.shields.io/pypi/v/agora-agent-server-sdk)](https://pypi.python.org/pypi/agora-agent-server-sdk)
 
-The Agora Conversational AI SDK provides convenient access to the Agora Conversational AI APIs, enabling you to build voice-powered AI agents with support for both cascading flows (ASR -> LLM -> TTS) and multimodal flows (MLLM) for real-time audio processing.
+The Agora Agent Server SDK for Python lets you build real-time voice agents on Agora Conversational AI with a high-level `Agent` / `AgentSession` API and a generated low-level REST client.
 
 ## Requirements
 
@@ -17,55 +17,170 @@ pip install agora-agent-server-sdk
 
 ## Quick Start
 
-Minimal builder-based example using supported preset-backed models with no vendor API keys:
+The recommended onboarding path is a server-side builder flow: define the agent once, configure preset-backed providers in the builder, and let AgentKit infer the reseller `preset` values when the session starts.
 
 ```python
+import os
+import time
+
 from agora_agent import Agora, Area
-from agora_agent.agentkit import Agent, DeepgramSTT, OpenAI, OpenAITTS
+from agora_agent.agentkit import (
+    Agent,
+    DataChannel,
+    DeepgramSTT,
+    MiniMaxTTS,
+    OpenAI,
+    expires_in_hours,
+)
+
+AGENT_PROMPT = (
+    "You are a concise, technically credible voice assistant. "
+    "Keep replies short unless the user asks for detail."
+)
+
+GREETING = "Hi there! I am your Agora voice assistant. How can I help?"
+
+
+def start_conversation() -> str:
+    app_id = os.environ["AGORA_APP_ID"]
+    app_certificate = os.environ["AGORA_APP_CERTIFICATE"]
 
-def main() -> None:
     client = Agora(
         area=Area.US,
-        app_id="your-app-id",
-        app_certificate="your-app-certificate",
+        app_id=app_id,
+        app_certificate=app_certificate,
     )
 
     agent = Agent(
-        instructions="You are a concise voice assistant.",
-        greeting="Hello! How can I help you today?",
+        name=f"conversation-{int(time.time())}",
+        instructions=AGENT_PROMPT,
+        greeting=GREETING,
+        failure_message="Please wait a moment.",
+        max_history=50,
+        turn_detection={
+            "config": {
+                "speech_threshold": 0.5,
+                "start_of_speech": {
+                    "mode": "vad",
+                    "vad_config": {
+                        "interrupt_duration_ms": 160,
+                        "prefix_padding_ms": 300,
+                    },
+                },
+                "end_of_speech": {
+                    "mode": "vad",
+                    "vad_config": {
+                        "silence_duration_ms": 480,
+                    },
+                },
+            },
+        },
+        advanced_features={
+            "enable_rtm": True,
+            "enable_tools": True,
+        },
+        parameters={
+            "data_channel": DataChannel.RTM,
+            "enable_error_message": True,
+        },
     ).with_stt(
-        DeepgramSTT(model="nova-3")
+        DeepgramSTT(
+            model="nova-3",
+            language="en",
+        )
     ).with_llm(
-        OpenAI(model="gpt-5-mini")
+        OpenAI(
+            model="gpt-4o-mini",
+            greeting_message=GREETING,
+            failure_message="Please wait a moment.",
+            max_history=15,
+            params={
+                "max_tokens": 1024,
+                "temperature": 0.7,
+                "top_p": 0.95,
+            },
+        )
     ).with_tts(
-        OpenAITTS(voice="alloy")
+        MiniMaxTTS(
+            model="speech_2_6_turbo",
+            voice_id="English_captivating_female1",
+        )
     )
 
     session = agent.create_session(
         client,
-        channel="support-room-123",
-        agent_uid="1",
-        remote_uids=["100"],
+        channel=f"demo-channel-{int(time.time())}",
+        agent_uid="123456",
+        remote_uids=["*"],
+        idle_timeout=30,
+        expires_in=expires_in_hours(1),
+        debug=False,
     )
 
-    agent_id = session.start()
-    print(agent_id)
-
-
-if __name__ == "__main__":
-    main()
+    return session.start()
 ```
 
 ### Why no token or vendor key in the example?
 
-The SDK-managed path is the recommended path. `Agora` generates the required ConvoAI REST auth and RTC join tokens automatically, and AgentKit infers the matching supported presets from the vendor configs when you omit vendor API keys.
+`Agora` generates the required ConvoAI REST auth and RTC join tokens automatically when you provide `app_id` and `app_certificate`. AgentKit then inspects the builder-provided vendor configs and infers the matching supported `preset` values for reseller-backed models, so you do not pass vendor API keys in this flow.
+
+### BYOK version of the same builder flow
+
+Use the same `Agent` builder shape, but provide credentials explicitly when you want vendor-managed billing and routing instead of Agora-managed presets.
+
+```python
+agent = Agent(
+    instructions=AGENT_PROMPT,
+    greeting=GREETING,
+).with_stt(
+    DeepgramSTT(
+        api_key=os.environ["DEEPGRAM_API_KEY"],
+        model="nova-3",
+        language="en",
+    )
+).with_llm(
+    OpenAI(
+        api_key=os.environ["OPENAI_API_KEY"],
+        model="gpt-4o-mini",
+        max_tokens=1024,
+        temperature=0.7,
+        top_p=0.95,
+    )
+).with_tts(
+    MiniMaxTTS(
+        key=os.environ["MINIMAX_API_KEY"],
+        group_id=os.environ["MINIMAX_GROUP_ID"],
+        model="speech_2_6_turbo",
+        voice_id="English_captivating_female1",
+        url="wss://api-uw.minimax.io/ws/v1/t2a_v2",
+    )
+)
+```
 
 ## BYOK
 
 If you want to bring your own vendor credentials instead of using Agora-managed presets, use the BYOK guide:
 
 - [BYOK Guide](./docs/guides/byok.md)
 
+## MLLM (Realtime / Multimodal)
+
+Use `with_mllm()` for OpenAI Realtime or Gemini Live. No STT, LLM, or TTS vendor is needed when MLLM mode is enabled.
+
+```python
+from agora_agent.agentkit import Agent, OpenAIRealtime
+
+agent = Agent(name="realtime-assistant").with_mllm(
+    OpenAIRealtime(
+        api_key=os.environ["OPENAI_API_KEY"],
+        model="gpt-4o-realtime-preview",
+        greeting_message="Hello! Ready to chat.",
+    )
+)
+```
+
+See the [MLLM Flow guide](./docs/guides/mllm-flow.md) for full examples with Gemini Live and Vertex AI.
+
 ## Documentation
 
 - [Overview](./docs/index.md)
diff --git a/src/agora_agent/agentkit/agent.py b/src/agora_agent/agentkit/agent.py
@@ -536,6 +536,10 @@ def to_properties(
                 mllm_config = dict(self._mllm)
                 if self._greeting:
                     mllm_config.setdefault("greeting_message", self._greeting)
+                if self._failure_message:
+                    mllm_config.setdefault("failure_message", self._failure_message)
+                if self._max_history is not None:
+                    mllm_config.setdefault("max_history", self._max_history)
                 base_kwargs["mllm"] = mllm_config
             return StartAgentsRequestProperties(**base_kwargs)
 
diff --git a/src/agora_agent/agentkit/vendors/mllm.py b/src/agora_agent/agentkit/vendors/mllm.py
@@ -16,6 +16,9 @@ class OpenAIRealtimeOptions(BaseModel):
     output_modalities: Optional[List[str]] = Field(default=None, description="Output modalities")
     messages: Optional[List[Dict[str, Any]]] = Field(default=None, description="Conversation messages")
     params: Optional[Dict[str, Any]] = Field(default=None, description="Additional parameters")
+    predefined_tools: Optional[List[str]] = Field(default=None, description="Predefined tools")
+    failure_message: Optional[str] = Field(default=None, description="Message played on failure")
+    max_history: Optional[int] = Field(default=None, description="Maximum conversation history length")
 
 class OpenAIRealtime(BaseMLLM):
     def __init__(self, **kwargs: Any):
@@ -45,6 +48,12 @@ def to_config(self) -> Dict[str, Any]:
             config["output_modalities"] = self.options.output_modalities
         if self.options.messages is not None:
             config["messages"] = self.options.messages
+        if self.options.predefined_tools is not None:
+            config["predefined_tools"] = self.options.predefined_tools
+        if self.options.failure_message is not None:
+            config["failure_message"] = self.options.failure_message
+        if self.options.max_history is not None:
+            config["max_history"] = self.options.max_history
 
         return config
 
@@ -53,6 +62,7 @@ class VertexAIOptions(BaseModel):
     model_config = ConfigDict(extra="forbid")
 
     model: str = Field(..., description="Model name")
+    url: Optional[str] = Field(default=None, description="WebSocket URL")
     project_id: str = Field(..., description="Google Cloud project ID")
     location: str = Field(..., description="Google Cloud location/region")
     adc_credentials_string: str = Field(..., description="Application Default Credentials JSON string")
@@ -63,6 +73,9 @@ class VertexAIOptions(BaseModel):
     output_modalities: Optional[List[str]] = Field(default=None, description="Output modalities")
     messages: Optional[List[Dict[str, Any]]] = Field(default=None, description="Conversation messages")
     additional_params: Optional[Dict[str, Any]] = Field(default=None, description="Additional parameters")
+    predefined_tools: Optional[List[str]] = Field(default=None, description="Predefined tools")
+    failure_message: Optional[str] = Field(default=None, description="Message played on failure")
+    max_history: Optional[int] = Field(default=None, description="Maximum conversation history length")
 
 class VertexAI(BaseMLLM):
     def __init__(self, **kwargs: Any):
@@ -89,6 +102,8 @@ def to_config(self) -> Dict[str, Any]:
             "params": params,
         }
 
+        if self.options.url is not None:
+            config["url"] = self.options.url
         if self.options.greeting_message is not None:
             config["greeting_message"] = self.options.greeting_message
         if self.options.input_modalities is not None:
@@ -97,6 +112,12 @@ def to_config(self) -> Dict[str, Any]:
             config["output_modalities"] = self.options.output_modalities
         if self.options.messages is not None:
             config["messages"] = self.options.messages
+        if self.options.predefined_tools is not None:
+            config["predefined_tools"] = self.options.predefined_tools
+        if self.options.failure_message is not None:
+            config["failure_message"] = self.options.failure_message
+        if self.options.max_history is not None:
+            config["max_history"] = self.options.max_history
 
         return config
 
@@ -106,13 +127,17 @@ class GeminiLiveOptions(BaseModel):
 
     api_key: str = Field(..., description="Google API key")
     model: str = Field(..., description="Gemini Live model name")
+    url: Optional[str] = Field(default=None, description="WebSocket URL")
     instructions: Optional[str] = Field(default=None, description="System instructions")
     voice: Optional[str] = Field(default=None, description="Voice name")
     greeting_message: Optional[str] = Field(default=None, description="Agent greeting message")
     input_modalities: Optional[List[str]] = Field(default=None, description="Input modalities")
     output_modalities: Optional[List[str]] = Field(default=None, description="Output modalities")
     messages: Optional[List[Dict[str, Any]]] = Field(default=None, description="Conversation messages")
     additional_params: Optional[Dict[str, Any]] = Field(default=None, description="Additional parameters")
+    predefined_tools: Optional[List[str]] = Field(default=None, description="Predefined tools")
+    failure_message: Optional[str] = Field(default=None, description="Message played on failure")
+    max_history: Optional[int] = Field(default=None, description="Maximum conversation history length")
 
 class GeminiLive(BaseMLLM):
     def __init__(self, **kwargs: Any):
@@ -135,6 +160,8 @@ def to_config(self) -> Dict[str, Any]:
             "params": params,
         }
 
+        if self.options.url is not None:
+            config["url"] = self.options.url
         if self.options.greeting_message is not None:
             config["greeting_message"] = self.options.greeting_message
         if self.options.input_modalities is not None:
@@ -143,5 +170,11 @@ def to_config(self) -> Dict[str, Any]:
             config["output_modalities"] = self.options.output_modalities
         if self.options.messages is not None:
             config["messages"] = self.options.messages
+        if self.options.predefined_tools is not None:
+            config["predefined_tools"] = self.options.predefined_tools
+        if self.options.failure_message is not None:
+            config["failure_message"] = self.options.failure_message
+        if self.options.max_history is not None:
+            config["max_history"] = self.options.max_history
 
         return config
diff --git a/tests/agentkit/test_agent.py b/tests/agentkit/test_agent.py
@@ -108,6 +108,7 @@ def test_to_properties_generates_token_and_respects_mllm_vendor_precedence():
     agent = Agent(greeting="top hello", failure_message="top fail", max_history=9).with_mllm(
         OpenAIRealtime(
             api_key="key",
+            url="wss://openai.example.com/realtime",
             greeting_message="vendor hello",
         )
     ).with_advanced_features({"enable_mllm": True})
@@ -123,6 +124,7 @@ def test_to_properties_generates_token_and_respects_mllm_vendor_precedence():
     )
 
     assert props["mllm"]["greeting_message"] == "vendor hello"
-    assert "failure_message" not in props["mllm"]
-    assert "max_history" not in props["mllm"]
+    assert props["mllm"]["failure_message"] == "top fail"
+    assert props["mllm"]["max_history"] == 9
+    assert props["mllm"]["url"] == "wss://openai.example.com/realtime"
     assert isinstance(props["token"], str) and props["token"]
diff --git a/tests/agentkit/test_agentkit_parity.py b/tests/agentkit/test_agentkit_parity.py
@@ -137,9 +137,13 @@ def test_gemini_live_matches_low_level_shape(self):
         config = GeminiLive(
             api_key="google-key",
             model="gemini-live-2.5-flash",
+            url="wss://generativelanguage.googleapis.com/ws",
             instructions="You are concise.",
             voice="Aoede",
             greeting_message="Hello",
+            predefined_tools=["_publish_message"],
+            failure_message="Please try again.",
+            max_history=8,
             additional_params={"temperature": 0.2},
             messages=[{"role": "user", "content": "Hi"}],
         ).to_config()
@@ -150,6 +154,7 @@ def test_gemini_live_matches_low_level_shape(self):
                 "vendor": "gemini",
                 "style": "openai",
                 "api_key": "google-key",
+                "url": "wss://generativelanguage.googleapis.com/ws",
                 "params": {
                     "temperature": 0.2,
                     "model": "gemini-live-2.5-flash",
@@ -158,6 +163,9 @@ def test_gemini_live_matches_low_level_shape(self):
                 },
                 "messages": [{"role": "user", "content": "Hi"}],
                 "greeting_message": "Hello",
+                "predefined_tools": ["_publish_message"],
+                "failure_message": "Please try again.",
+                "max_history": 8,
             },
         )
 
diff --git a/tests/agentkit/test_vendors.py b/tests/agentkit/test_vendors.py