feat(distributed): torch CUDA DFlash+f_θ engine + GPU server + cross-host E2E

cursoragent · FluffyAIcode · cursoragent · commit e6e6543e23d5 · 2026-06-19T13:49:03.000Z
TorchRestorationDraftEngine (inference_engine/v04/dflash_distributed_engine.py):
the pure-torch RestorationDraftEngine for a GPU host, reusing the CUDA fused
machinery (CrossModelDLMRestoredVerifier.project_drafter_kv, Gap-B torch embed).
k3_dflash_proposer_server.py serves it. E2E script gains --remote-addr (true
cross-host) and uses block_size=1 as the greedy baseline. MLX adapter now filters
restored layers to the verifier's KV-source layers (gemma-4 cross-layer sharing).
Preset mlx-distributed-dflash-e2e-crosshost (Mac verifier &lt;-&gt; GPU proposer via
vast-mapped port).

Co-authored-by: FluffyAIcode &lt;FluffyAIcode@users.noreply.github.com&gt;
diff --git a/inference_engine/backends/mlx/dflash_distributed.py b/inference_engine/backends/mlx/dflash_distributed.py
@@ -229,6 +229,16 @@ def __init__(
         self._prev = None
         self._block_logits = None
         self._candidate: List[int] = []
+        # gemma-4 shares K/V across layers; the MLX verifier injects restored K/V
+        # only at "source" layers (src_map[li]==li). A torch host B ships every
+        # non-exact layer; filter to what THIS verifier consumes.
+        from inference_engine.backends.mlx.cross_model_dlm_verifier import (
+            kv_source_layer_map,
+            resolve_mlx_text_model,
+        )
+        _tm = resolve_mlx_text_model(mlx_model)
+        _src = kv_source_layer_map(_tm)
+        self._source_layers = {li for li in range(len(_src)) if _src[li] == li}
 
     @property
     def context_len(self) -> int:
@@ -243,6 +253,8 @@ def prefill(
         rk: Dict[int, Any] = {}
         rv: Dict[int, Any] = {}
         for layer, k_w, v_w in restored:
+            if layer not in self._source_layers:
+                continue  # non-source layer (shared K/V) — verifier doesn't inject it
             rk[layer] = wire_to_mlx(k_w)
             rv[layer] = wire_to_mlx(v_w)
         self.adapter.prefill(
diff --git a/inference_engine/bridge/manifest.py b/inference_engine/bridge/manifest.py
@@ -154,6 +154,30 @@ def _harness_preset(
             },
             validate_reports=False,
         ),
+        Preset(
+            name="mlx-distributed-dflash-e2e-crosshost",
+            description="TRUE cross-host: gemma-4 mlx-4bit verifier on THIS Mac ↔ a "
+                        "remote torch DFlash+f_θ DFlashProposerService on a GPU "
+                        "(107.206.71.138:43032, the vast map of the H200's :6006). "
+                        "Runs greedy (block=1) + distributed (block=N) over the wire "
+                        "and asserts byte-identical, reporting real cross-host RTT.",
+            command_templates=(
+                (
+                    "python3", "scripts/research/k3_distributed_dflash_e2e_mac.py",
+                    "--verifier-path", "${ENV:KAKEYA_MAC_VERIFIER_PATH}",
+                    "--drafter-id", "${ENV:KAKEYA_MAC_DRAFTER_ID}",
+                    "--remote-addr", "107.206.71.138:43032",
+                    "--max-new-tokens", "{max_new_tokens}",
+                    "--block-size", "{block_size}",
+                ),
+            ),
+            timeout_minutes=90,
+            params={
+                "max_new_tokens": ("int:max_new_tokens", "48"),
+                "block_size": ("int:block_size", "4"),
+            },
+            validate_reports=False,
+        ),
         Preset(
             name="mlx-distributed-spec-decode-demo",
             description="ADR 0009 distributed spec-decode, on-device: two local "
diff --git a/inference_engine/v04/dflash_distributed_engine.py b/inference_engine/v04/dflash_distributed_engine.py
@@ -0,0 +1,147 @@
+"""Torch/CUDA ``RestorationDraftEngine`` (ADR 0009 §4 F3, host B on a GPU).
+
+The pure-torch twin of ``inference_engine.backends.mlx.dflash_distributed
+.MLXRestorationDraftEngine``: a remote DFlash drafter + f_θ projection that runs
+on a CUDA host (no MLX), feeding a gemma-4 MLX verifier on another host. Reuses
+the CUDA fused-engine machinery (``CrossModelDLMRestoredVerifier.project_drafter_kv``,
+``DFlashDrafter`` context K/V, the Gap-B torch embed/lm_head).
+
+Imports torch + transformers + the v04 stack, so it lives in v04 (not coverage-
+gated) and is validated on-device.
+"""
+from __future__ import annotations
+
+from dataclasses import dataclass
+from typing import Any, Dict, List, Sequence, Tuple
+
+from inference_engine.distributed.dflash_service import DraftResult, RestoreResult
+from inference_engine.distributed.tensor_codec import (
+    WireTensor,
+    torch_to_wire,
+    wire_to_torch,
+)
+
+
+def build_torch_embed_lm_head(verifier_model, softcap):
+    """Gap-B torch embed/lm_head over the verifier's tied embedding (no
+    ×sqrt(hidden) on embed; tied head + final-logit softcap). Mirrors
+    scripts/research/k3_specdecode_gpu_bench._build_embed_lm_head."""
+    import torch
+    import torch.nn.functional as F
+
+    emb_w = verifier_model.get_input_embeddings().weight.detach()
+    head_w = verifier_model.get_output_embeddings().weight.detach()
+
+    def embed_fn(ids: torch.Tensor) -> torch.Tensor:
+        return F.embedding(ids, emb_w).float()
+
+    def lm_head_fn(h: torch.Tensor) -> torch.Tensor:
+        logits = (h.to(head_w.dtype) @ head_w.t()).float()
+        if softcap:
+            logits = softcap * torch.tanh(logits / softcap)
+        return logits
+
+    return embed_fn, lm_head_fn
+
+
+@dataclass
+class _Session:
+    ctx_kv: Any = None
+
+
+class TorchRestorationDraftEngine:
+    """``RestorationDraftEngine`` on a CUDA host: torch DFlash + f_θ + a gemma-4
+    verifier (used only for its embedding / drafter-KV capture)."""
+
+    def __init__(
+        self, *, verifier_model: Any, drafter: Any, f_theta: Any, device: Any,
+        sink: int, window: int, force_f_theta: bool = True,
+    ) -> None:
+        import torch
+
+        from inference_engine.v04.cross_model_dlm_verifier import (
+            CrossModelDLMRestoredVerifier,
+            full_attention_layer_indices,
+        )
+
+        self._torch = torch
+        self.device = device
+        self.sink = int(sink)
+        self.window = int(window)
+        self.force_f_theta = bool(force_f_theta)
+        self.drafter = drafter
+        self.exact_set = set(full_attention_layer_indices(verifier_model))
+        self._restored = CrossModelDLMRestoredVerifier(
+            verifier_model=verifier_model, drafter=drafter, f_theta=f_theta,
+            sink_size=sink, window_size=window,
+            exact_layer_indices=self.exact_set)
+        softcap = None
+        vcfg = getattr(verifier_model, "config", None)
+        for attr in ("final_logit_softcapping",):
+            cap = getattr(vcfg, attr, None) if vcfg is not None else None
+            if cap is None and vcfg is not None:
+                cap = getattr(getattr(vcfg, "text_config", None), attr, None)
+            if cap:
+                softcap = float(cap)
+        self._embed_fn, self._lm_head_fn = build_torch_embed_lm_head(
+            verifier_model, softcap)
+        self._sessions: Dict[str, _Session] = {}
+
+    def restore(
+        self, session_id: str, prompt_ids: Sequence[int], *,
+        sink: int, window: int, s5_exact_full_attn: bool, model_id: str,
+    ) -> RestoreResult:
+        from inference_engine.v04.kv_merge import compute_evicted_positions
+
+        torch = self._torch
+        self._sessions[session_id] = _Session()
+        prompt_ids = list(prompt_ids)
+        T = len(prompt_ids)
+        evicted = compute_evicted_positions(T, self.sink, self.window)
+        restored: List[Tuple[int, WireTensor, WireTensor]] = []
+        if not (s5_exact_full_attn and not self.force_f_theta):
+            ids = torch.tensor([prompt_ids], dtype=torch.long, device=self.device)
+            with torch.no_grad():
+                vk, vv = self._restored.project_drafter_kv(ids)
+            for li in range(len(vk)):
+                if s5_exact_full_attn and li in self.exact_set:
+                    continue  # native cache owns exact (full-attn) layers
+                restored.append((li, torch_to_wire(vk[li]), torch_to_wire(vv[li])))
+        return RestoreResult(restored=restored, evicted_positions=list(evicted),
+                             prompt_len=T)
+
+    def seed_context(
+        self, session_id: str, aux: Sequence[WireTensor], positions: Sequence[int],
+    ) -> int:
+        torch = self._torch
+        aux_t = [wire_to_torch(w).to(self.device) for w in aux]
+        pos = torch.tensor(list(positions), device=self.device)
+        self._sessions[session_id].ctx_kv = self.drafter.make_context_kv(aux_t, pos)
+        return len(positions)
+
+    def draft_block(
+        self, session_id: str, *, bonus_token_id: int, context_len: int,
+        block_size: int,
+    ) -> DraftResult:
+        if block_size <= 0:
+            raise ValueError("block_size must be positive")
+        sess = self._sessions[session_id]
+        drafts = self.drafter.draft_block_cached(
+            sess.ctx_kv, int(bonus_token_id), self._embed_fn, self._lm_head_fn,
+            block_size=block_size, context_len=int(context_len))
+        return DraftResult(draft_token_ids=[int(t) for t in drafts],
+                           forward_passes=1, peak_activation_bytes=0)
+
+    def extend_context(
+        self, session_id: str, aux: Sequence[WireTensor], positions: Sequence[int],
+    ) -> int:
+        torch = self._torch
+        sess = self._sessions[session_id]
+        aux_t = [wire_to_torch(w).to(self.device) for w in aux]
+        pos = torch.tensor(list(positions), device=self.device)
+        new_kv = self.drafter.make_context_kv(aux_t, pos)
+        sess.ctx_kv = self.drafter.extend_context_kv(sess.ctx_kv, new_kv)
+        return int(positions[-1]) + 1 if len(positions) else 0
+
+    def close_session(self, session_id: str) -> None:
+        self._sessions.pop(session_id, None)
diff --git a/scripts/research/k3_dflash_proposer_server.py b/scripts/research/k3_dflash_proposer_server.py
@@ -0,0 +1,63 @@
+"""Serve a remote DFlash+f_θ DFlashProposerService on a CUDA host (ADR 0009 F3).
+
+Loads a torch gemma-4 verifier (for its embedding / drafter-KV capture), the
+torch DFlash drafter, and f_θ, wraps them in a TorchRestorationDraftEngine, and
+serves the gRPC DFlashProposerService. The gemma-4 MLX verifier on another host
+drives it via RemoteDFlashProposer.
+"""
+from __future__ import annotations
+
+import argparse
+import asyncio
+import sys
+
+
+async def main() -> int:
+    ap = argparse.ArgumentParser()
+    ap.add_argument("--verifier-id", default="google/gemma-4-26B-A4B-it")
+    ap.add_argument("--drafter-id", default="z-lab/gemma-4-26B-A4B-it-DFlash")
+    ap.add_argument("--f-theta-dir", default="results/research/f_theta_v5_s5_sliding")
+    ap.add_argument("--bind", default="0.0.0.0:6006")
+    ap.add_argument("--sink", type=int, default=4)
+    ap.add_argument("--window", type=int, default=64)
+    ap.add_argument("--dtype", default="bfloat16")
+    args = ap.parse_args()
+
+    import grpc
+    import torch
+    from transformers import AutoModelForCausalLM
+
+    from inference_engine.distributed.dflash_service import add_dflash_proposer_service
+    from inference_engine.v04 import DFlashDrafter, FThetaProjection
+    from inference_engine.v04.dflash_distributed_engine import TorchRestorationDraftEngine
+
+    dev = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    dtype = getattr(torch, args.dtype)
+    print(f"[server] loading verifier {args.verifier_id} ({dtype}) on {dev}", file=sys.stderr, flush=True)
+    verifier = AutoModelForCausalLM.from_pretrained(
+        args.verifier_id, dtype=dtype, attn_implementation="eager").to(dev).eval()
+    for p in verifier.parameters():
+        p.requires_grad_(False)
+    print(f"[server] loading drafter {args.drafter_id} + f_θ {args.f_theta_dir}", file=sys.stderr, flush=True)
+    drafter = DFlashDrafter.from_pretrained(args.drafter_id, dtype=dtype).to(dev).eval()
+    for p in drafter.parameters():
+        p.requires_grad_(False)
+    f_theta = FThetaProjection.from_pretrained(args.f_theta_dir, dtype=torch.float32, device=dev)
+
+    engine = TorchRestorationDraftEngine(
+        verifier_model=verifier, drafter=drafter, f_theta=f_theta, device=dev,
+        sink=args.sink, window=args.window, force_f_theta=True)
+
+    server = grpc.aio.server(options=[
+        ("grpc.max_send_message_length", 512 * 1024 * 1024),
+        ("grpc.max_receive_message_length", 512 * 1024 * 1024)])
+    add_dflash_proposer_service(server, engine)
+    server.add_insecure_port(args.bind)
+    await server.start()
+    print(f"[server] DFlashProposerService serving on {args.bind} (ready)", file=sys.stderr, flush=True)
+    await server.wait_for_termination()
+    return 0
+
+
+if __name__ == "__main__":
+    raise SystemExit(asyncio.run(main()))
diff --git a/scripts/research/k3_distributed_dflash_e2e_mac.py b/scripts/research/k3_distributed_dflash_e2e_mac.py
diff --git a/tests/inference_engine/bridge/test_manifest.py b/tests/inference_engine/bridge/test_manifest.py