fix(vllm): Fix PagedAttention return signature unpacking and unrolled scan loop

khatwanimohit · khatwanimohit · commit c84d94c11443 · 2026-04-17T01:14:00.000Z
diff --git a/src/maxtext/layers/attentions.py b/src/maxtext/layers/attentions.py
@@ -981,7 +981,7 @@ def forward_serve_vllm(
       value: Array,
       rpa_kv_cache: list[Array] | None = None,
       rpa_metadata: dict[str, Any] | None = None,
-  ) -> tuple[list[Array], Array]:
+  ) -> tuple[Array, list[Array]]:
     """Forward function for vLLM serving with RPA attention."""
     try:
       # pylint: disable=import-outside-toplevel
@@ -998,7 +998,7 @@ def forward_serve_vllm(
 
     if rpa_kv_cache is None or rpa_metadata is None:
       # Return dummy values for dry runs (e.g. during model initialization or JIT tracing)
-      return [], query
+      return query, []
 
     if self.config.sliding_window_size > 0:
       attention_chunk_size = self.config.sliding_window_size
@@ -1027,7 +1027,7 @@ def forward_serve_vllm(
         k_scale,
         v_scale,
     )
-    return kv_cache, output
+    return output, kv_cache
 
   def __call__(
       self,
@@ -1170,7 +1170,7 @@ def __call__(
 
     elif self.config.attention == "vllm_rpa" and model_mode != MODEL_MODE_TRAIN:
       batch, seq_len, num_heads, head_dim = query.shape
-      updated_kv, attn_out = self.forward_serve_vllm(
+      attn_out, updated_kv = self.forward_serve_vllm(
           query, key, value, rpa_kv_cache=kv_cache, rpa_metadata=attention_metadata
       )
       out = attn_out.reshape(batch, seq_len, num_heads, head_dim)