Update on "Use unfused SDPA for short sequences (q_len <= 128 or kv_len <= 128)"

kimishpatel · kimishpatel · commit e4ba4cfdb559 · 2026-04-14T08:40:07.000-07:00
ATT Differential Revision: [D96044308](https://our.internmc.facebook.com/intern/diff/D96044308/) [ghstack-poisoned]
diff --git a/extension/llm/custom_ops/op_sdpa.cpp b/extension/llm/custom_ops/op_sdpa.cpp
@@ -416,7 +416,7 @@ Tensor& custom_sdpa_out_impl(
   // correctly when seq_dim=ONE and seq_len > 1, so keep the conservative
   // condition for quantized inputs.
   bool is_quantized = q.scalar_type() == ScalarType::Char;
-  bool use_unfused_sdpa = is_quantized && (seq_len <= 128 || num_keys_for_causal_attention <= 128);
+  bool use_unfused_sdpa = (!is_quantized) && (seq_len <= 128 || num_keys_for_causal_attention <= 128);
   if (use_unfused_sdpa) {
     ET_SWITCH_FLOAT_TYPES(output.scalar_type(), ctx, "sdpa", CTYPE, [&] {
       sdpa::impl::cpu_sdpa<CTYPE>(