feat(turboquant): wire --turbo-kv flag into server and KVCache

Aegis-AI · Aegis-AI · commit 55c3e1425819 · 2026-03-30T11:31:55.000-07:00
Phase 2: Server.swift integration of TurboQuant KV-cache compression. CLI: --turbo-kv Enable 3-bit PolarQuant+QJL KV compression on all KVCacheSimple layers. Compresses history > 8192 tokens to ~3.5 bits/token — recommended for 100k+ context. Default: disabled (zero overhead when off). KVCache.swift (submodule): KVCacheSimple.turboQuantEnabled: Bool = false Now settable at runtime so Server.swift can activate per-request. Server.swift: - @Flag --turbo-kv added to CLI - turboKV stored in ServerConfig - Startup log shows turbo_kv=enabled/disabled - Sets .turboQuantEnabled = true on each KVCacheSimple before prefill
diff --git a/Sources/mlx-server/Server.swift b/Sources/mlx-server/Server.swift
@@ -192,6 +192,9 @@ struct MLXServer: AsyncParsableCommand {
     @Flag(name: .long, help: "Enable SSD expert streaming for MoE models (Flash-MoE style memory-mapping)")
     var streamExperts: Bool = false
 
+    @Flag(name: .long, help: "Enable TurboQuant KV-cache compression (3-bit PolarQuant+QJL). Compresses KV history > 8192 tokens to ~3.5 bits/token — recommended for 100k+ context. Default: disabled")
+    var turboKV: Bool = false
+
     @Option(name: .long, help: "Chunk size for prefill evaluation (default: 512, lower to prevent GPU timeout on large models)")
     var prefillSize: Int = 512
 
@@ -397,7 +400,8 @@ struct MLXServer: AsyncParsableCommand {
             repeatPenalty: self.repeatPenalty,
             thinking: self.thinking,
             isVision: isVision,
-            prefillSize: self.prefillSize
+            prefillSize: self.prefillSize,
+            turboKV: self.turboKV
         )
 
         let parallelSlots = self.parallel
@@ -425,7 +429,8 @@ struct MLXServer: AsyncParsableCommand {
         let authStr = apiKeyValue != nil ? "enabled" : "disabled"
         let thinkingStr = config.thinking ? "enabled" : "disabled"
         let ssdStr = self.streamExperts ? "enabled" : "disabled"
-        print("[mlx-server] Config: ctx_size=\(ctxSizeStr), temp=\(config.temp), top_p=\(config.topP), repeat_penalty=\(penaltyStr), parallel=\(parallelSlots), cors=\(corsStr), mem_limit=\(memLimitStr), auth=\(authStr), thinking=\(thinkingStr), ssd_stream=\(ssdStr)")
+        let turboKVStr = config.turboKV ? "enabled" : "disabled"
+        print("[mlx-server] Config: ctx_size=\(ctxSizeStr), temp=\(config.temp), top_p=\(config.topP), repeat_penalty=\(penaltyStr), parallel=\(parallelSlots), cors=\(corsStr), mem_limit=\(memLimitStr), auth=\(authStr), thinking=\(thinkingStr), ssd_stream=\(ssdStr), turbo_kv=\(turboKVStr)")
 
         // ── Build Hummingbird router ──
         let router = Router()
@@ -647,6 +652,8 @@ struct ServerConfig: Sendable {
     let thinking: Bool
     let isVision: Bool
     let prefillSize: Int
+    /// When true, each KVCacheSimple layer compresses history > 8192 tokens to 3-bit PolarQuant.
+    let turboKV: Bool
 }
 
 // ── Model Directory Resolution ───────────────────────────────────────────────
@@ -896,6 +903,17 @@ func handleChatCompletion(
     let stream: AsyncStream<Generation> = try await container.perform { context in
         let cache = context.model.newCache(parameters: params)
 
+        // ── TurboQuant: enable 3-bit KV compression on every KVCacheSimple layer ──
+        // This compresses cache history older than 8192 tokens into 3.5-bit Polar+QJL
+        // form, halving KV RAM for long-context (100k+) requests.
+        if config.turboKV {
+            for layer in cache {
+                if let simple = layer as? KVCacheSimple {
+                    simple.turboQuantEnabled = true
+                }
+            }
+        }
+
         // Try to restore cached system prompt KV state
         if let cachedCount = await promptCache.restore(tokenHash: systemHash, into: cache) {
             // Cache hit: skip the cached prefix tokens, process only the rest
diff --git a/mlx-swift-lm b/mlx-swift-lm
@@ -1 +1 @@
-Subproject commit 2fa7627c9250754210639e5139bc7a750816996f
+Subproject commit 93a06f13201a68888daed250e8ff2c552df15261