fix: fix bidi tests

Murat Kaan Meral · Murat Kaan Meral · commit 8918757301c0 · 2025-11-11T00:01:49.000+03:00
diff --git a/src/strands/experimental/bidirectional_streaming/event_loop/bidirectional_event_loop.py b/src/strands/experimental/bidirectional_streaming/event_loop/bidirectional_event_loop.py
@@ -282,7 +282,7 @@ async def _process_model_events(session: BidirectionalConnection) -> None:
 
             # Queue tool requests for concurrent execution
             # Check for ToolUseStreamEvent (standard agent event)
-            if "current_tool_use" in strands_event:
+            if event_type == "tool_use_stream":
                 tool_use = strands_event.get("current_tool_use")
                 if tool_use:
                     tool_name = tool_use.get("name")
@@ -297,9 +297,9 @@ async def _process_model_events(session: BidirectionalConnection) -> None:
 
             # Update Agent conversation history for user transcripts
             if event_type == "bidirectional_transcript_stream":
-                source = strands_event.get("source")
+                role = strands_event.get("role")
                 text = strands_event.get("text", "")
-                if source == "user" and text.strip():
+                if role == "user" and text.strip():
                     user_message = {"role": "user", "content": text}
                     session.agent.messages.append(user_message)
                     logger.debug("User transcript added to history")
diff --git a/src/strands/experimental/bidirectional_streaming/models/gemini_live.py b/src/strands/experimental/bidirectional_streaming/models/gemini_live.py
@@ -219,11 +219,12 @@ def _convert_gemini_live_event(self, message: LiveServerMessage) -> Optional[Dic
                 # Check if the transcription object has text content
                 if hasattr(input_transcript, 'text') and input_transcript.text:
                     transcription_text = input_transcript.text
+                    role = getattr(input_transcript, 'role', 'user')
                     logger.debug(f"Input transcription detected: {transcription_text}")
                     return BidiTranscriptStreamEvent(
                         delta={"text": transcription_text},
                         text=transcription_text,
-                        role="user",
+                        role=role.lower() if isinstance(role, str) else "user",
                         is_final=True,
                         current_transcript=transcription_text
                     )
@@ -234,22 +235,24 @@ def _convert_gemini_live_event(self, message: LiveServerMessage) -> Optional[Dic
                 # Check if the transcription object has text content
                 if hasattr(output_transcript, 'text') and output_transcript.text:
                     transcription_text = output_transcript.text
+                    role = getattr(output_transcript, 'role', 'assistant')
                     logger.debug(f"Output transcription detected: {transcription_text}")
                     return BidiTranscriptStreamEvent(
                         delta={"text": transcription_text},
                         text=transcription_text,
-                        role="assistant",
+                        role=role.lower() if isinstance(role, str) else "assistant",
                         is_final=True,
                         current_transcript=transcription_text
                     )
             
             # Handle text output from model
             if message.text:
+                role = getattr(message, 'role', 'assistant')
                 logger.debug(f"Text output as transcript: {message.text}")
                 return BidiTranscriptStreamEvent(
                     delta={"text": message.text},
                     text=message.text,
-                    role="assistant",
+                    role=role.lower() if isinstance(role, str) else "assistant",
                     is_final=True,
                     current_transcript=message.text
                 )
diff --git a/src/strands/experimental/bidirectional_streaming/models/novasonic.py b/src/strands/experimental/bidirectional_streaming/models/novasonic.py
@@ -552,7 +552,7 @@ def _convert_nova_event(self, nova_event: dict[str, any]) -> OutputEvent | None:
         elif "textOutput" in nova_event:
             text_content = nova_event["textOutput"]["content"]
             # Use stored role from contentStart event, fallback to event role
-            role = getattr(self, "_current_role", nova_event["textOutput"].get("role", "assistant"))
+            role = getattr(self, "_current_role", None) or nova_event["textOutput"].get("role", "assistant")
 
             # Check for Nova Sonic interruption pattern
             if '{ "interrupted" : true }' in text_content:
@@ -562,7 +562,7 @@ def _convert_nova_event(self, nova_event: dict[str, any]) -> OutputEvent | None:
             return BidiTranscriptStreamEvent(
                 delta={"text": text_content},
                 text=text_content,
-                role="user" if role == "USER" else "assistant",
+                role=role.lower() if isinstance(role, str) else "assistant",
                 is_final=True,
                 current_transcript=text_content
             )
diff --git a/src/strands/experimental/bidirectional_streaming/models/openai.py b/src/strands/experimental/bidirectional_streaming/models/openai.py
@@ -174,11 +174,22 @@ def _require_active(self) -> bool:
         return self._active
 
     def _create_text_event(self, text: str, role: str, is_final: bool = True) -> BidiTranscriptStreamEvent:
-        """Create standardized transcript event."""
+        """Create standardized transcript event.
+        
+        Args:
+            text: The transcript text
+            role: The role (will be normalized to lowercase)
+            is_final: Whether this is the final transcript
+        """
+        # Normalize role to lowercase and ensure it's either "user" or "assistant"
+        normalized_role = role.lower() if isinstance(role, str) else "assistant"
+        if normalized_role not in ["user", "assistant"]:
+            normalized_role = "assistant"
+            
         return BidiTranscriptStreamEvent(
             delta={"text": text},
             text=text,
-            role="user" if role == "user" else "assistant",
+            role=normalized_role,
             is_final=is_final,
             current_transcript=text if is_final else None
         )
@@ -326,20 +337,23 @@ def _convert_openai_event(self, openai_event: dict[str, any]) -> list[OutputEven
         
         # Assistant text output events - combine multiple similar events
         elif event_type in ["response.output_text.delta", "response.output_audio_transcript.delta"]:
-            return [self._create_text_event(openai_event["delta"], "assistant")]
+            role = openai_event.get("role", "assistant")
+            return [self._create_text_event(openai_event["delta"], role.lower() if isinstance(role, str) else "assistant")]
         
         # User transcription events - combine multiple similar events
         elif event_type in ["conversation.item.input_audio_transcription.delta", 
                            "conversation.item.input_audio_transcription.completed"]:
             text_key = "delta" if "delta" in event_type else "transcript"
             text = openai_event.get(text_key, "")
+            role = openai_event.get("role", "user")
             is_final = "completed" in event_type
-            return [self._create_text_event(text, "user", is_final=is_final)] if text.strip() else None
+            return [self._create_text_event(text, role.lower() if isinstance(role, str) else "user", is_final=is_final)] if text.strip() else None
         
         elif event_type == "conversation.item.input_audio_transcription.segment":
             segment_data = openai_event.get("segment", {})
             text = segment_data.get("text", "")
-            return [self._create_text_event(text, "user")] if text.strip() else None
+            role = segment_data.get("role", "user")
+            return [self._create_text_event(text, role.lower() if isinstance(role, str) else "user")] if text.strip() else None
         
         elif event_type == "conversation.item.input_audio_transcription.failed":
             error_info = openai_event.get("error", {})