feat: add DFlashTargetModel conformance for Qwen3, Qwen3MoE, and Llama

0xClandestine · 0xClandestine · commit d9f824b63e3f · 2026-04-23T20:48:53.000-04:00
Adds Sources/SwiftLM/{Qwen3,Qwen3MoE,Llama}+DFlash.swift — each
declares the DFlashTargetModel protocol conformance and delegates to
the model's public callCapturing / embedTokens / lmHead (exposed in
mlx-swift-lm commit f4cb110).

Coverage:
  Qwen3Model      → Qwen3-8B and similar dense Qwen3 variants
  Qwen3MoEModel   → Qwen3-Coder-30B-A3B and other Qwen3 MoE variants
  LlamaModel      → Meta-Llama-3.x, Mistral, and Llama-family models
  Qwen35MoEModel  → already covered via Qwen35Model inheritance
  Qwen36MoE       → no separate Swift class found; uses Qwen35MoE path
diff --git a/Sources/SwiftLM/Llama+DFlash.swift b/Sources/SwiftLM/Llama+DFlash.swift
@@ -0,0 +1,34 @@
+// Copyright 2026 SwiftLM Contributors
+// MIT License — see LICENSE file
+// Bridge: LlamaModel (and Mistral) conform to DFlashTargetModel
+
+import DFlash
+import MLX
+import MLXLLM
+import MLXLMCommon
+
+extension LlamaModel: DFlashTargetModel {
+    public func dflashEmbedTokens(_ tokens: MLXArray) -> MLXArray {
+        model.embedTokens(tokens)
+    }
+
+    public func dflashLmHeadLogits(_ hiddenStates: MLXArray) -> MLXArray {
+        if let lmHead {
+            return lmHead(hiddenStates)
+        }
+        return model.embedTokens.asLinear(hiddenStates)
+    }
+
+    public func dflashForwardWithCapture(
+        inputIDs: MLXArray,
+        cache: [KVCache],
+        captureLayerIDs: Set<Int>
+    ) -> (MLXArray, [Int: MLXArray]) {
+        let cacheOpt: [KVCache?] = cache.map { $0 }
+        let (hiddenStates, captured) = model.callCapturing(
+            inputIDs, cache: cacheOpt, captureLayerIDs: captureLayerIDs)
+        return (dflashLmHeadLogits(hiddenStates), captured)
+    }
+
+    public var dflashIsHybridGDN: Bool { false }
+}
diff --git a/Sources/SwiftLM/Qwen3+DFlash.swift b/Sources/SwiftLM/Qwen3+DFlash.swift
@@ -0,0 +1,34 @@
+// Copyright 2026 SwiftLM Contributors
+// MIT License — see LICENSE file
+// Bridge: Qwen3 dense models conform to DFlashTargetModel
+
+import DFlash
+import MLX
+import MLXLLM
+import MLXLMCommon
+
+extension Qwen3Model: DFlashTargetModel {
+    public func dflashEmbedTokens(_ tokens: MLXArray) -> MLXArray {
+        model.embedTokens(tokens)
+    }
+
+    public func dflashLmHeadLogits(_ hiddenStates: MLXArray) -> MLXArray {
+        if let lmHead {
+            return lmHead(hiddenStates)
+        }
+        return model.embedTokens.asLinear(hiddenStates)
+    }
+
+    public func dflashForwardWithCapture(
+        inputIDs: MLXArray,
+        cache: [KVCache],
+        captureLayerIDs: Set<Int>
+    ) -> (MLXArray, [Int: MLXArray]) {
+        let cacheOpt: [KVCache?] = cache.map { $0 }
+        let (hiddenStates, captured) = model.callCapturing(
+            inputIDs, cache: cacheOpt, captureLayerIDs: captureLayerIDs)
+        return (dflashLmHeadLogits(hiddenStates), captured)
+    }
+
+    public var dflashIsHybridGDN: Bool { false }
+}
diff --git a/Sources/SwiftLM/Qwen3MoE+DFlash.swift b/Sources/SwiftLM/Qwen3MoE+DFlash.swift
@@ -0,0 +1,34 @@
+// Copyright 2026 SwiftLM Contributors
+// MIT License — see LICENSE file
+// Bridge: Qwen3 MoE models conform to DFlashTargetModel
+
+import DFlash
+import MLX
+import MLXLLM
+import MLXLMCommon
+
+extension Qwen3MoEModel: DFlashTargetModel {
+    public func dflashEmbedTokens(_ tokens: MLXArray) -> MLXArray {
+        model.embedTokens(tokens)
+    }
+
+    public func dflashLmHeadLogits(_ hiddenStates: MLXArray) -> MLXArray {
+        if let lmHead {
+            return lmHead(hiddenStates)
+        }
+        return model.embedTokens.asLinear(hiddenStates)
+    }
+
+    public func dflashForwardWithCapture(
+        inputIDs: MLXArray,
+        cache: [KVCache],
+        captureLayerIDs: Set<Int>
+    ) -> (MLXArray, [Int: MLXArray]) {
+        let cacheOpt: [KVCache?] = cache.map { $0 }
+        let (hiddenStates, captured) = model.callCapturing(
+            inputIDs, cache: cacheOpt, captureLayerIDs: captureLayerIDs)
+        return (dflashLmHeadLogits(hiddenStates), captured)
+    }
+
+    public var dflashIsHybridGDN: Bool { false }
+}
diff --git a/mlx-swift-lm b/mlx-swift-lm
@@ -1 +1 @@
-Subproject commit ef3318e4dacf609a9e94d794d08f868771d28a42
+Subproject commit b5762584386f0141e2967518f204b0a97fd36c47