Fix Metal norm correction parity + add dk64 guards (Codex audit)

luvwinnie · luvwinnie · commit 50923d86c112 · 2026-03-30T12:30:02.000+09:00
Metal quantize functions (quantize_turbo*_1, quantize_rq*_1) now apply
the same norm correction as CPU: store original_norm/reconstruction_norm.
Previously only CPU had norm correction, causing CPU/GPU mismatch.

Added dk64 guards in llama-context.cpp: turbo/rq types now fail init
with clear error if n_embd_head_k != 64 or n_embd_head_v != 64.
Prevents silent misuse on unsupported head dimensions (e.g. dk128).
diff --git a/ggml/src/ggml-metal/ggml-metal.metal b/ggml/src/ggml-metal/ggml-metal.metal
@@ -9275,12 +9275,18 @@ void quantize_turbo3_1(device const float * src, device block_turbo3_1 & dst) {
     float norm = sqrt(sum2 + 1e-12f);
     dst.norm = half(norm);
     float inv_norm = 1.0f / norm;
+    float recon_sq = 0.0f;
     for (int i = 0; i < 16; i++) dst.qs[i] = 0;
     for (int i = 0; i < 64; i++) {
         float val = src[i] * inv_norm;
         int idx = turbo_nearest_centroid_m<4>(val, TURBO_CENTROIDS_2BIT_M);
+        recon_sq += TURBO_CENTROIDS_2BIT_M[idx] * TURBO_CENTROIDS_2BIT_M[idx];
         turbo_pack_bits(dst.qs, i * 2, 2, idx);
     }
+    float recon_norm = sqrt(recon_sq);
+    if (recon_norm > 1e-10f) {
+        dst.norm = half(norm / recon_norm);
+    }
 }
 
 void quantize_turbo4_1(device const float * src, device block_turbo4_1 & dst) {
@@ -9289,12 +9295,18 @@ void quantize_turbo4_1(device const float * src, device block_turbo4_1 & dst) {
     float norm = sqrt(sum2 + 1e-12f);
     dst.norm = half(norm);
     float inv_norm = 1.0f / norm;
+    float recon_sq = 0.0f;
     for (int i = 0; i < 24; i++) dst.qs[i] = 0;
     for (int i = 0; i < 64; i++) {
         float val = src[i] * inv_norm;
         int idx = turbo_nearest_centroid_m<8>(val, TURBO_CENTROIDS_3BIT_M);
+        recon_sq += TURBO_CENTROIDS_3BIT_M[idx] * TURBO_CENTROIDS_3BIT_M[idx];
         turbo_pack_bits(dst.qs, i * 3, 3, idx);
     }
+    float recon_norm = sqrt(recon_sq);
+    if (recon_norm > 1e-10f) {
+        dst.norm = half(norm / recon_norm);
+    }
 }
 
 void quantize_turbo5_1(device const float * src, device block_turbo5_1 & dst) {
@@ -9303,12 +9315,18 @@ void quantize_turbo5_1(device const float * src, device block_turbo5_1 & dst) {
     float norm = sqrt(sum2 + 1e-12f);
     dst.norm = half(norm);
     float inv_norm = 1.0f / norm;
+    float recon_sq = 0.0f;
     for (int i = 0; i < 32; i++) dst.qs[i] = 0;
     for (int i = 0; i < 64; i++) {
         float val = src[i] * inv_norm;
         int idx = turbo_nearest_centroid_m<16>(val, TURBO_CENTROIDS_4BIT_M);
+        recon_sq += TURBO_CENTROIDS_4BIT_M[idx] * TURBO_CENTROIDS_4BIT_M[idx];
         turbo_pack_bits(dst.qs, i * 4, 4, idx);
     }
+    float recon_norm = sqrt(recon_sq);
+    if (recon_norm > 1e-10f) {
+        dst.norm = half(norm / recon_norm);
+    }
 }
 
 void quantize_turbo6_1(device const float * src, device block_turbo6_1 & dst) {
@@ -9317,12 +9335,18 @@ void quantize_turbo6_1(device const float * src, device block_turbo6_1 & dst) {
     float norm = sqrt(sum2 + 1e-12f);
     dst.norm = half(norm);
     float inv_norm = 1.0f / norm;
+    float recon_sq = 0.0f;
     for (int i = 0; i < 40; i++) dst.qs[i] = 0;
     for (int i = 0; i < 64; i++) {
         float val = src[i] * inv_norm;
         int idx = turbo_nearest_centroid_m<32>(val, TURBO_CENTROIDS_5BIT_M);
+        recon_sq += TURBO_CENTROIDS_5BIT_M[idx] * TURBO_CENTROIDS_5BIT_M[idx];
         turbo_pack_bits(dst.qs, i * 5, 5, idx);
     }
+    float recon_norm = sqrt(recon_sq);
+    if (recon_norm > 1e-10f) {
+        dst.norm = half(norm / recon_norm);
+    }
 }
 
 // RotorQuant GPU quantize functions (with Clifford rotor rotation matching CPU path)
@@ -9332,6 +9356,7 @@ void quantize_rq3_1(device const float * src, device block_rq3_1 & dst) {
     float norm = sqrt(sum2 + 1e-12f);
     dst.norm = half(norm);
     float inv_norm = 1.0f / norm;
+    float recon_sq = 0.0f;
     float u[64];
     for (int i = 0; i < 64; i++) u[i] = src[i] * inv_norm;
     // Apply forward rotor per group of 3
@@ -9345,8 +9370,13 @@ void quantize_rq3_1(device const float * src, device block_rq3_1 & dst) {
     for (int i = 0; i < 16; i++) dst.qs[i] = 0;
     for (int i = 0; i < 64; i++) {
         int idx = turbo_nearest_centroid_m<4>(rotated[i], TURBO_CENTROIDS_2BIT_M);
+        recon_sq += TURBO_CENTROIDS_2BIT_M[idx] * TURBO_CENTROIDS_2BIT_M[idx];
         turbo_pack_bits(dst.qs, i * 2, 2, idx);
     }
+    float recon_norm = sqrt(recon_sq);
+    if (recon_norm > 1e-10f) {
+        dst.norm = half(norm / recon_norm);
+    }
 }
 
 void quantize_rq4_1(device const float * src, device block_rq4_1 & dst) {
@@ -9355,6 +9385,7 @@ void quantize_rq4_1(device const float * src, device block_rq4_1 & dst) {
     float norm = sqrt(sum2 + 1e-12f);
     dst.norm = half(norm);
     float inv_norm = 1.0f / norm;
+    float recon_sq = 0.0f;
     float u[64];
     for (int i = 0; i < 64; i++) u[i] = src[i] * inv_norm;
     float rotated[64];
@@ -9367,8 +9398,13 @@ void quantize_rq4_1(device const float * src, device block_rq4_1 & dst) {
     for (int i = 0; i < 24; i++) dst.qs[i] = 0;
     for (int i = 0; i < 64; i++) {
         int idx = turbo_nearest_centroid_m<8>(rotated[i], TURBO_CENTROIDS_3BIT_M);
+        recon_sq += TURBO_CENTROIDS_3BIT_M[idx] * TURBO_CENTROIDS_3BIT_M[idx];
         turbo_pack_bits(dst.qs, i * 3, 3, idx);
     }
+    float recon_norm = sqrt(recon_sq);
+    if (recon_norm > 1e-10f) {
+        dst.norm = half(norm / recon_norm);
+    }
 }
 
 void quantize_rq5_1(device const float * src, device block_rq5_1 & dst) {
@@ -9377,6 +9413,7 @@ void quantize_rq5_1(device const float * src, device block_rq5_1 & dst) {
     float norm = sqrt(sum2 + 1e-12f);
     dst.norm = half(norm);
     float inv_norm = 1.0f / norm;
+    float recon_sq = 0.0f;
     float u[64];
     for (int i = 0; i < 64; i++) u[i] = src[i] * inv_norm;
     float rotated[64];
@@ -9389,8 +9426,13 @@ void quantize_rq5_1(device const float * src, device block_rq5_1 & dst) {
     for (int i = 0; i < 32; i++) dst.qs[i] = 0;
     for (int i = 0; i < 64; i++) {
         int idx = turbo_nearest_centroid_m<16>(rotated[i], TURBO_CENTROIDS_4BIT_M);
+        recon_sq += TURBO_CENTROIDS_4BIT_M[idx] * TURBO_CENTROIDS_4BIT_M[idx];
         turbo_pack_bits(dst.qs, i * 4, 4, idx);
     }
+    float recon_norm = sqrt(recon_sq);
+    if (recon_norm > 1e-10f) {
+        dst.norm = half(norm / recon_norm);
+    }
 }
 
 void quantize_rq6_1(device const float * src, device block_rq6_1 & dst) {
@@ -9399,6 +9441,7 @@ void quantize_rq6_1(device const float * src, device block_rq6_1 & dst) {
     float norm = sqrt(sum2 + 1e-12f);
     dst.norm = half(norm);
     float inv_norm = 1.0f / norm;
+    float recon_sq = 0.0f;
     float u[64];
     for (int i = 0; i < 64; i++) u[i] = src[i] * inv_norm;
     float rotated[64];
@@ -9411,8 +9454,13 @@ void quantize_rq6_1(device const float * src, device block_rq6_1 & dst) {
     for (int i = 0; i < 40; i++) dst.qs[i] = 0;
     for (int i = 0; i < 64; i++) {
         int idx = turbo_nearest_centroid_m<32>(rotated[i], TURBO_CENTROIDS_5BIT_M);
+        recon_sq += TURBO_CENTROIDS_5BIT_M[idx] * TURBO_CENTROIDS_5BIT_M[idx];
         turbo_pack_bits(dst.qs, i * 5, 5, idx);
     }
+    float recon_norm = sqrt(recon_sq);
+    if (recon_norm > 1e-10f) {
+        dst.norm = half(norm / recon_norm);
+    }
 }
 
 template<typename block_q, short nl, void (*dequantize_func)(device const block_q *, short, thread float4x4 &)>
diff --git a/src/llama-context.cpp b/src/llama-context.cpp
@@ -2923,6 +2923,22 @@ llama_context_params llama_context_default_params() {
 llama_context * llama_init_from_model(
                  llama_model * model,
         llama_context_params   params) {
+    auto is_turbo_or_rq_type = [](ggml_type type) {
+        switch (type) {
+            case GGML_TYPE_TURBO3_1:
+            case GGML_TYPE_TURBO4_1:
+            case GGML_TYPE_TURBO5_1:
+            case GGML_TYPE_TURBO6_1:
+            case GGML_TYPE_RQ3_1:
+            case GGML_TYPE_RQ4_1:
+            case GGML_TYPE_RQ5_1:
+            case GGML_TYPE_RQ6_1:
+                return true;
+            default:
+                return false;
+        }
+    };
+
     if (!model) {
         LLAMA_LOG_ERROR("%s: model cannot be NULL\n", __func__);
         return nullptr;
@@ -2946,6 +2962,11 @@ llama_context * llama_init_from_model(
     if (params.flash_attn_type == LLAMA_FLASH_ATTN_TYPE_AUTO && ggml_is_quantized(params.type_k)) {
         const uint32_t blck_size = ggml_blck_size(params.type_k);
         for (uint32_t il = 0; il < model->hparams.n_layer; ++il) {
+            if (is_turbo_or_rq_type(params.type_k) && model->hparams.n_embd_head_k(il) != 64) {
+                LLAMA_LOG_ERROR("%s: K cache type %s currently supports only n_embd_head_k=64, got %u at layer %u\n",
+                    __func__, ggml_type_name(params.type_k), model->hparams.n_embd_head_k(il), il);
+                return nullptr;
+            }
             if (model->hparams.n_embd_head_k(il) % blck_size != 0) {
                 LLAMA_LOG_ERROR("%s: K cache type %s with block size %u does not divide n_embd_head_k=%u\n",
                     __func__, ggml_type_name(params.type_k), blck_size, model->hparams.n_embd_head_k(il));
@@ -2957,6 +2978,11 @@ llama_context * llama_init_from_model(
     if (params.flash_attn_type == LLAMA_FLASH_ATTN_TYPE_AUTO && ggml_is_quantized(params.type_v)) {
         const uint32_t blck_size = ggml_blck_size(params.type_v);
         for (uint32_t il = 0; il < model->hparams.n_layer; ++il) {
+            if (is_turbo_or_rq_type(params.type_v) && model->hparams.n_embd_head_v(il) != 64) {
+                LLAMA_LOG_ERROR("%s: V cache type %s currently supports only n_embd_head_v=64, got %u at layer %u\n",
+                    __func__, ggml_type_name(params.type_v), model->hparams.n_embd_head_v(il), il);
+                return nullptr;
+            }
             if (model->hparams.n_embd_head_v(il) % blck_size != 0) {
                 LLAMA_LOG_ERROR("%s: V cache type %s with block size %u does not divide n_embd_head_v=%u\n",
                     __func__, ggml_type_name(params.type_v), blck_size, model->hparams.n_embd_head_v(il));