quantumaikr
diff --git a/‎docs/papers/2504.19874v1.pdf‎
842 KB b/‎docs/papers/2504.19874v1.pdf‎
842 KB
diff --git a/‎docs/prd/v1.1-long-context-proof.md‎ ‎…/plan/prd/prd_v1.1-long-context-proof.md‎docs/prd/v1.1-long-context-proof.md renamed to docs/plan/prd/prd_v1.1-long-context-proof.md b/‎docs/prd/v1.1-long-context-proof.md‎ ‎…/plan/prd/prd_v1.1-long-context-proof.md‎docs/prd/v1.1-long-context-proof.md renamed to docs/plan/prd/prd_v1.1-long-context-proof.md
diff --git a/‎docs/wbs_v1.1.md‎ ‎docs/plan/wbs/wbs_v1.1.md‎docs/wbs_v1.1.md renamed to docs/plan/wbs/wbs_v1.1.md b/‎docs/wbs_v1.1.md‎ ‎docs/plan/wbs/wbs_v1.1.md‎docs/wbs_v1.1.md renamed to docs/plan/wbs/wbs_v1.1.md
diff --git a/‎include/turboquant/tq_types.h‎
Lines changed: 30 additions & 1 deletion b/‎include/turboquant/tq_types.h‎
Lines changed: 30 additions & 1 deletion
diff --git a/‎integrations/llamacpp/tq_kv_cache.cpp‎
Lines changed: 41 additions & 9 deletions b/‎integrations/llamacpp/tq_kv_cache.cpp‎
Lines changed: 41 additions & 9 deletions
diff --git a/‎src/core/tq_codebook.c‎
Lines changed: 107 additions & 0 deletions b/‎src/core/tq_codebook.c‎
Lines changed: 107 additions & 0 deletions
diff --git a/‎src/core/tq_traits.c‎
Lines changed: 36 additions & 0 deletions b/‎src/core/tq_traits.c‎
Lines changed: 36 additions & 0 deletions
@@ -49,7 +49,9 @@ typedef enum {
     TQ_TYPE_UNIFORM_4B= 5,   /* Min-Max uniform 4-bit             */
     TQ_TYPE_UNIFORM_2B= 6,   /* Min-Max uniform 2-bit             */
     TQ_TYPE_MIXED_4B8 = 7,   /* Mixed: 4-bit base + fp16 outliers */
-    TQ_TYPE_COUNT     = 8
+    TQ_TYPE_TURBO_KV_3B = 8, /* TurboQuant KV: 2-bit codebook + 1-bit QJL residual */
+    TQ_TYPE_TURBO_KV_4B = 9, /* TurboQuant KV: 3-bit codebook + 1-bit QJL residual */
+    TQ_TYPE_COUNT     = 10
 } tq_type;
 
 /* ============================================================
@@ -175,6 +177,31 @@ typedef struct {
 }
 #endif
 
+/* TurboQuant KV cache block: RHT + Lloyd-Max codebook + QJL residual
+ * 3-bit variant: 2-bit codebook (4 levels) + 1-bit QJL sign hash
+ * Block covers TQ_BK elements (128).
+ * Layout: norm(2) + residual_norm(2) + rht_seed(4) + mse_2bit(32) + qjl_signs(16) = 56 bytes
+ */
+typedef struct {
+    uint16_t norm;                     /* L2 norm of original vector (fp16)      */
+    uint16_t residual_norm;            /* L2 norm of residual after MSE (fp16)   */
+    uint32_t rht_seed;                 /* RHT random seed for this block         */
+    uint8_t  mse_indices[TQ_BK / 4];  /* 2-bit packed codebook indices (32B)    */
+    uint8_t  qjl_signs[TQ_BK / 8];    /* 1-bit QJL sign hash on residual (16B) */
+} block_tq_turbo_kv_3b;
+
+/* TurboQuant KV cache block: 4-bit variant
+ * 3-bit codebook (8 levels) + 1-bit QJL sign hash
+ * Layout: norm(2) + residual_norm(2) + rht_seed(4) + mse_3bit(48) + qjl_signs(16) = 72 bytes
+ */
+typedef struct {
+    uint16_t norm;                         /* L2 norm of original vector (fp16)      */
+    uint16_t residual_norm;                /* L2 norm of residual after MSE (fp16)   */
+    uint32_t rht_seed;                     /* RHT random seed for this block         */
+    uint8_t  mse_indices[TQ_BK * 3 / 8];  /* 3-bit packed codebook indices (48B)    */
+    uint8_t  qjl_signs[TQ_BK / 8];        /* 1-bit QJL sign hash on residual (16B) */
+} block_tq_turbo_kv_4b;
+
 /* ============================================================
  * Block size verification (compile-time, C/C++ compatible)
  * Uses negative-size array trick for universal compatibility.
@@ -187,5 +214,7 @@ TQ_CHECK_SIZE(block_tq_qjl,        4 + TQ_SKETCH_DIM / 8 + TQ_OUTLIERS);
 TQ_CHECK_SIZE(block_tq_uniform_4b, 4 + TQ_BK / 2);
 TQ_CHECK_SIZE(block_tq_uniform_2b, 4 + TQ_BK / 4);
 TQ_CHECK_SIZE(block_tq_mixed_4b8, 4 + TQ_MIXED_OUTLIERS + TQ_MIXED_OUTLIERS * 2 + TQ_BK / 2);
+TQ_CHECK_SIZE(block_tq_turbo_kv_3b, 8 + TQ_BK / 4 + TQ_BK / 8);
+TQ_CHECK_SIZE(block_tq_turbo_kv_4b, 8 + TQ_BK * 3 / 8 + TQ_BK / 8);
 
 #endif /* TQ_TYPES_H */
@@ -39,8 +39,10 @@ enum {
     GGML_TYPE_TQ_TURBO_4B   = GGML_TYPE_TQ_BASE + 4,
     GGML_TYPE_TQ_UNIFORM_4B = GGML_TYPE_TQ_BASE + 5,
     GGML_TYPE_TQ_UNIFORM_2B = GGML_TYPE_TQ_BASE + 6,
-    GGML_TYPE_TQ_MIXED_4B8  = GGML_TYPE_TQ_BASE + 7,
-    GGML_TYPE_TQ_COUNT      = 8,
+    GGML_TYPE_TQ_MIXED_4B8     = GGML_TYPE_TQ_BASE + 7,
+    GGML_TYPE_TQ_TURBO_KV_3B  = GGML_TYPE_TQ_BASE + 8,
+    GGML_TYPE_TQ_TURBO_KV_4B  = GGML_TYPE_TQ_BASE + 9,
+    GGML_TYPE_TQ_COUNT         = 10,
 };
 
 /* ============================================================
@@ -56,7 +58,9 @@ static int tq_to_ggml_type(tq_type type) {
         case TQ_TYPE_TURBO_4B:   return GGML_TYPE_TQ_TURBO_4B;
         case TQ_TYPE_UNIFORM_4B: return GGML_TYPE_TQ_UNIFORM_4B;
         case TQ_TYPE_UNIFORM_2B: return GGML_TYPE_TQ_UNIFORM_2B;
-        case TQ_TYPE_MIXED_4B8:  return GGML_TYPE_TQ_MIXED_4B8;
+        case TQ_TYPE_MIXED_4B8:     return GGML_TYPE_TQ_MIXED_4B8;
+        case TQ_TYPE_TURBO_KV_3B:  return GGML_TYPE_TQ_TURBO_KV_3B;
+        case TQ_TYPE_TURBO_KV_4B:  return GGML_TYPE_TQ_TURBO_KV_4B;
         default: return -1;
     }
 }
@@ -70,7 +74,9 @@ static tq_type ggml_to_tq_type(int ggml_id) {
         case GGML_TYPE_TQ_TURBO_4B:   return TQ_TYPE_TURBO_4B;
         case GGML_TYPE_TQ_UNIFORM_4B: return TQ_TYPE_UNIFORM_4B;
         case GGML_TYPE_TQ_UNIFORM_2B: return TQ_TYPE_UNIFORM_2B;
-        case GGML_TYPE_TQ_MIXED_4B8:  return TQ_TYPE_MIXED_4B8;
+        case GGML_TYPE_TQ_MIXED_4B8:     return TQ_TYPE_MIXED_4B8;
+        case GGML_TYPE_TQ_TURBO_KV_3B:  return TQ_TYPE_TURBO_KV_3B;
+        case GGML_TYPE_TQ_TURBO_KV_4B:  return TQ_TYPE_TURBO_KV_4B;
         default: return TQ_TYPE_COUNT;
     }
 }
@@ -130,7 +136,9 @@ TQ_GGML_WRAPPERS(turbo_3b,   TQ_TYPE_TURBO_3B)
 TQ_GGML_WRAPPERS(turbo_4b,   TQ_TYPE_TURBO_4B)
 TQ_GGML_WRAPPERS(uniform_4b, TQ_TYPE_UNIFORM_4B)
 TQ_GGML_WRAPPERS(uniform_2b, TQ_TYPE_UNIFORM_2B)
-TQ_GGML_WRAPPERS(mixed_4b8,  TQ_TYPE_MIXED_4B8)
+TQ_GGML_WRAPPERS(mixed_4b8,     TQ_TYPE_MIXED_4B8)
+TQ_GGML_WRAPPERS(turbo_kv_3b,  TQ_TYPE_TURBO_KV_3B)
+TQ_GGML_WRAPPERS(turbo_kv_4b,  TQ_TYPE_TURBO_KV_4B)
 
 /* ============================================================
  * vec_dot wrappers (quantized key . FP32 query -> scalar)
@@ -178,7 +186,9 @@ TQ_GGML_VEC_DOT(turbo_3b,   TQ_TYPE_TURBO_3B)
 TQ_GGML_VEC_DOT(turbo_4b,   TQ_TYPE_TURBO_4B)
 TQ_GGML_VEC_DOT(uniform_4b, TQ_TYPE_UNIFORM_4B)
 TQ_GGML_VEC_DOT(uniform_2b, TQ_TYPE_UNIFORM_2B)
-TQ_GGML_VEC_DOT(mixed_4b8,  TQ_TYPE_MIXED_4B8)
+TQ_GGML_VEC_DOT(mixed_4b8,     TQ_TYPE_MIXED_4B8)
+TQ_GGML_VEC_DOT(turbo_kv_3b,  TQ_TYPE_TURBO_KV_3B)
+TQ_GGML_VEC_DOT(turbo_kv_4b,  TQ_TYPE_TURBO_KV_4B)
 
 /* ============================================================
  * GGML type trait table
@@ -262,6 +272,22 @@ static const tq_ggml_type_trait TQ_GGML_TRAITS[GGML_TYPE_TQ_COUNT] = {
         tq_ggml_to_float_mixed_4b8,
         tq_ggml_vec_dot_mixed_4b8,
     },
+    {
+        "tq_turbo_kv_3b", GGML_TYPE_TQ_TURBO_KV_3B, TQ_TYPE_TURBO_KV_3B,
+        sizeof(block_tq_turbo_kv_3b), TQ_BK,
+        (float)sizeof(block_tq_turbo_kv_3b) * 8.0f / TQ_BK,
+        tq_ggml_from_float_turbo_kv_3b,
+        tq_ggml_to_float_turbo_kv_3b,
+        tq_ggml_vec_dot_turbo_kv_3b,
+    },
+    {
+        "tq_turbo_kv_4b", GGML_TYPE_TQ_TURBO_KV_4B, TQ_TYPE_TURBO_KV_4B,
+        sizeof(block_tq_turbo_kv_4b), TQ_BK,
+        (float)sizeof(block_tq_turbo_kv_4b) * 8.0f / TQ_BK,
+        tq_ggml_from_float_turbo_kv_4b,
+        tq_ggml_to_float_turbo_kv_4b,
+        tq_ggml_vec_dot_turbo_kv_4b,
+    },
 };
 
 #define TQ_GGML_NUM_TYPES (sizeof(TQ_GGML_TRAITS) / sizeof(TQ_GGML_TRAITS[0]))
@@ -346,9 +372,15 @@ tq_type tq_parse_kv_cache_type(const char* arg) {
         { "uniform4",     TQ_TYPE_UNIFORM_4B },
         { "uniform_4b",   TQ_TYPE_UNIFORM_4B },
         { "tq-uniform-4b",TQ_TYPE_UNIFORM_4B },
-        { "uniform2",     TQ_TYPE_UNIFORM_2B },
-        { "uniform_2b",   TQ_TYPE_UNIFORM_2B },
-        { "tq-uniform-2b",TQ_TYPE_UNIFORM_2B },
+        { "uniform2",        TQ_TYPE_UNIFORM_2B },
+        { "uniform_2b",     TQ_TYPE_UNIFORM_2B },
+        { "tq-uniform-2b",  TQ_TYPE_UNIFORM_2B },
+        { "turbo_kv_3b",    TQ_TYPE_TURBO_KV_3B },
+        { "tq-turbo-kv-3b", TQ_TYPE_TURBO_KV_3B },
+        { "turbokv3",       TQ_TYPE_TURBO_KV_3B },
+        { "turbo_kv_4b",    TQ_TYPE_TURBO_KV_4B },
+        { "tq-turbo-kv-4b", TQ_TYPE_TURBO_KV_4B },
+        { "turbokv4",       TQ_TYPE_TURBO_KV_4B },
     };
 
     for (size_t i = 0; i < sizeof(map) / sizeof(map[0]); i++) {
 
@@ -0,0 +1,107 @@
+/**
+ * tq_codebook.c -- Optimal Gaussian Lloyd-Max codebook quantization
+ *
+ * Pre-computed optimal centroids for N(0,1) distribution at bit-widths 1-4.
+ * These are the reconstruction points from the Max-Lloyd algorithm.
+ * Decision boundaries are midpoints between consecutive centroids.
+ *
+ * Usage: After RHT, each coordinate is approximately N(0, 1/sqrt(d)),
+ * so we scale by inv_std = sqrt(d) to normalize to N(0,1) before
+ * codebook lookup, then scale back after dequantization.
+ */
+
+#include "turboquant/turboquant.h"
+#include <math.h>
+#include <float.h>
+
+/* ============================================================
+ * Pre-computed Lloyd-Max centroids for standard normal N(0,1)
+ * ============================================================ */
+
+/* b=1 (2 levels): E[|X|] for half-normal = sqrt(2/pi) ~ 0.7979 */
+static const float CODEBOOK_1BIT[2] = {-0.7979f, 0.7979f};
+
+/* b=2 (4 levels): optimal Lloyd-Max for N(0,1) */
+static const float CODEBOOK_2BIT[4] = {-1.5104f, -0.4528f, 0.4528f, 1.5104f};
+
+/* b=3 (8 levels): optimal Lloyd-Max for N(0,1) */
+static const float CODEBOOK_3BIT[8] = {
+    -2.1520f, -1.3440f, -0.7560f, -0.2451f,
+     0.2451f,  0.7560f,  1.3440f,  2.1520f
+};
+
+/* b=4 (16 levels): optimal Lloyd-Max for N(0,1) */
+static const float CODEBOOK_4BIT[16] = {
+    -2.7326f, -2.0690f, -1.6180f, -1.2562f, -0.9423f, -0.6568f, -0.3881f, -0.1284f,
+     0.1284f,  0.3881f,  0.6568f,  0.9423f,  1.2562f,  1.6180f,  2.0690f,  2.7326f
+};
+
+/* Codebook table indexed by bits */
+static const float* const CODEBOOKS[5] = {
+    NULL,          /* 0 bits: unused */
+    CODEBOOK_1BIT, /* 1 bit: 2 levels */
+    CODEBOOK_2BIT, /* 2 bits: 4 levels */
+    CODEBOOK_3BIT, /* 3 bits: 8 levels */
+    CODEBOOK_4BIT  /* 4 bits: 16 levels */
+};
+
+static const int CODEBOOK_SIZES[5] = {0, 2, 4, 8, 16};
+
+/* ============================================================
+ * Codebook quantize: find nearest centroid for each element
+ * ============================================================ */
+
+void tq_codebook_quantize(const float* src, uint8_t* dst_indices,
+                           int n, int bits, float inv_std) {
+    if (!src || !dst_indices || bits < 1 || bits > 4 || n <= 0) return;
+
+    const float* centroids = CODEBOOKS[bits];
+    int n_levels = CODEBOOK_SIZES[bits];
+
+    for (int i = 0; i < n; i++) {
+        /* Scale to standard normal space */
+        float x = src[i] * inv_std;
+
+        /* Find nearest centroid (linear scan, optimal for small n_levels) */
+        int best = 0;
+        float best_dist = fabsf(x - centroids[0]);
+        for (int c = 1; c < n_levels; c++) {
+            float dist = fabsf(x - centroids[c]);
+            if (dist < best_dist) {
+                best_dist = dist;
+                best = c;
+            }
+        }
+        dst_indices[i] = (uint8_t)best;
+    }
+}
+
+/* ============================================================
+ * Codebook dequantize: reconstruct from centroid lookup
+ * ============================================================ */
+
+void tq_codebook_dequantize(const uint8_t* indices, float* dst,
+                             int n, int bits, float inv_std) {
+    if (!indices || !dst || bits < 1 || bits > 4 || n <= 0) return;
+
+    const float* centroids = CODEBOOKS[bits];
+    float std_val = (inv_std > 1e-10f) ? (1.0f / inv_std) : 1.0f;
+
+    for (int i = 0; i < n; i++) {
+        dst[i] = centroids[indices[i]] * std_val;
+    }
+}
+
+/* ============================================================
+ * Codebook helpers: get centroids and number of levels
+ * ============================================================ */
+
+const float* tq_codebook_centroids(int bits) {
+    if (bits < 1 || bits > 4) return NULL;
+    return CODEBOOKS[bits];
+}
+
+int tq_codebook_levels(int bits) {
+    if (bits < 1 || bits > 4) return 0;
+    return CODEBOOK_SIZES[bits];
+}
@@ -33,6 +33,16 @@ extern void tq_mixed_4b8_dequantize_ref(const void* src, float* dst, int n);
 extern void tq_mixed_4b8_attention_ref(const float* query, const void* kv,
                                         float* scores, int seq_len, int head_dim);
 
+extern void tq_turbo_kv_3b_quantize_ref(const float* src, void* dst, int n);
+extern void tq_turbo_kv_3b_dequantize_ref(const void* src, float* dst, int n);
+extern void tq_turbo_kv_3b_attention_ref(const float* query, const void* kv,
+                                          float* scores, int seq_len, int head_dim);
+
+extern void tq_turbo_kv_4b_quantize_ref(const float* src, void* dst, int n);
+extern void tq_turbo_kv_4b_dequantize_ref(const void* src, float* dst, int n);
+extern void tq_turbo_kv_4b_attention_ref(const float* query, const void* kv,
+                                          float* scores, int seq_len, int head_dim);
+
 const tq_type_traits_t TQ_TRAITS[TQ_TYPE_COUNT] = {
     [TQ_TYPE_POLAR_3B] = {
         .name       = "polar_3b",
@@ -114,6 +124,26 @@ const tq_type_traits_t TQ_TRAITS[TQ_TYPE_COUNT] = {
         .attention  = tq_mixed_4b8_attention_ref,
         .residual_type = TQ_TYPE_COUNT,
     },
+    [TQ_TYPE_TURBO_KV_3B] = {
+        .name       = "turbo_kv_3b",
+        .block_size = TQ_BK,
+        .type_size  = sizeof(block_tq_turbo_kv_3b),
+        .bpe        = (float)sizeof(block_tq_turbo_kv_3b) * 8.0f / TQ_BK,
+        .quantize   = tq_turbo_kv_3b_quantize_ref,
+        .dequantize = tq_turbo_kv_3b_dequantize_ref,
+        .attention  = tq_turbo_kv_3b_attention_ref,
+        .residual_type = TQ_TYPE_QJL_1B,
+    },
+    [TQ_TYPE_TURBO_KV_4B] = {
+        .name       = "turbo_kv_4b",
+        .block_size = TQ_BK,
+        .type_size  = sizeof(block_tq_turbo_kv_4b),
+        .bpe        = (float)sizeof(block_tq_turbo_kv_4b) * 8.0f / TQ_BK,
+        .quantize   = tq_turbo_kv_4b_quantize_ref,
+        .dequantize = tq_turbo_kv_4b_dequantize_ref,
+        .attention  = tq_turbo_kv_4b_attention_ref,
+        .residual_type = TQ_TYPE_QJL_1B,
+    },
 };
 
 const char* tq_type_name(tq_type type) {
@@ -178,6 +208,12 @@ tq_format_spec_t tq_get_format_spec(tq_type type) {
         case TQ_TYPE_MIXED_4B8:
             spec.algorithm = TQ_ALG_MIXED; spec.key_bits = 4;
             spec.outlier_count = TQ_MIXED_OUTLIERS; break;
+        case TQ_TYPE_TURBO_KV_3B:
+            spec.algorithm = TQ_ALG_TURBO; spec.key_bits = 3;
+            spec.flags = TQ_FLAG_HAS_RESIDUAL; break;
+        case TQ_TYPE_TURBO_KV_4B:
+            spec.algorithm = TQ_ALG_TURBO; spec.key_bits = 4;
+            spec.flags = TQ_FLAG_HAS_RESIDUAL; break;
         default: break;
     }
     return spec;