test(gemma): end-to-end parity for load(NATIVE_OPTIMIZED) packed path

michalharakal · claude · michalharakal · commit aaffafb8a3f2 · 2026-06-11T13:43:04.000+02:00
Extends GemmaQ5KPackedParityTest to also decode via
GemmaNetworkLoader.load(NATIVE_OPTIMIZED) — the wired commonMain
convertGemmaWeightsPacked (board) path, no MemSeg/Arena. All three paths
(FP32 baseline, jvmMain MemSeg-packed, load() packed) produce the identical
token sequence -&gt; `&lt;tool_0&gt;(state="on")&lt;end&gt;` for "Turn the light on."

Co-Authored-By: Claude Opus 4.8 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/llm-inference/gemma/src/jvmTest/kotlin/sk/ainet/models/gemma/GemmaQ5KPackedParityTest.kt b/llm-inference/gemma/src/jvmTest/kotlin/sk/ainet/models/gemma/GemmaQ5KPackedParityTest.kt
@@ -123,5 +123,20 @@ class GemmaQ5KPackedParityTest {
 
             assertEquals(genFp32, genNat, "Q5_K packed decode diverged from FP32 baseline")
         }
+
+        // The wired path: GemmaNetworkLoader.load(NATIVE_OPTIMIZED) applies the
+        // commonMain convertGemmaWeightsPacked (the board path) — no MemSeg, no
+        // Arena. Must decode identically to the FP32 baseline too.
+        val mLoad = GemmaNetworkLoader.fromGguf(
+            randomAccessProvider = { JvmRandomAccessSource.open(gguf) },
+            quantPolicy = QuantPolicy.NATIVE_OPTIMIZED,
+        ).load<FP32, Float>(ctx)
+        val rtLoad = OptimizedLLMRuntime(
+            model = mLoad, ctx = ctx, mode = OptimizedLLMMode.DIRECT,
+            dtype = FP32::class, bos = tokenizer.bosTokenId,
+        )
+        val genLoad = decode(rtLoad, promptTokens, maxNew, eos, eot)
+        println("load(NATIVE_OPTIMIZED) gen=$genLoad")
+        assertEquals(genFp32, genLoad, "load(NATIVE_OPTIMIZED) packed decode diverged from FP32 baseline")
     }
 }