transformerless_lm: v3 — phi-power "fluid Fibonacci" tier basis

claude · claude · commit b66bae779b9d · 2026-05-20T23:45:46.000Z
V2 quantization sweep showed:
  - per_row scale fixes ~0.24 nats (the standard quantization trick works)
  - reciprocal Fibonacci values barely help (geometric spacing near 0
    is still too coarse — F(k+1)/F(k) is 2 at small k, not phi)
  - both archs plateau around +0.6 to +0.7 nats vs the 0.1 nat target
  - tied_substrate quantizes BETTER than dense_crt (+0.59 vs +0.74)
    -- the tied weight constraint pushes W toward more substrate-compatible
    structure during training (Principle A x Principle B synergy)

V3 introduces the "fluid Fibonacci" tier basis the user gestured at:
phi_power_tier_values(n) returns {0, +-phi^k} for k centered around 0.
Adjacent ratio is EXACTLY phi (not approaching phi asymptotically like
discrete Fibonacci does at small k). This is Binet's continuous limit:
F(k) ~= phi^k / sqrt(5), so phi^k is the natural "what Fibonacci wants
to be" at all scales including the small-k regime where discrete F(k)
has integer jumps.

The bench now tests all three tier bases:
  - fibonacci, no reciprocals  (v1)
  - fibonacci, with reciprocals (v2)
  - phi_power                   (v3, new)
each at n_tiers in {4,8,16,32} and scale in {per_tensor, per_row}.

Includes the v2 results json for reference.
diff --git a/experiments/transformerless_lm/models_substrate.py b/experiments/transformerless_lm/models_substrate.py
@@ -52,6 +52,30 @@
 FIB_POS_UNIQUE = sorted(set(f for f in FIBONACCI if f > 0))
 
 
+PHI = (1.0 + 5.0 ** 0.5) / 2.0   # golden ratio φ ≈ 1.61803
+
+
+def phi_power_tier_values(n_tiers: int) -> list[float]:
+    """Continuous Binet limit of Fibonacci tiers: {0, ±φ^k}.
+
+    Since F(k+1)/F(k) → φ, Fibonacci's "true" continuous ratio is φ.
+    Tier values {φ^k} have ADJACENT RATIO EXACTLY = φ (not approaching φ
+    asymptotically like discrete Fibonacci does at small k).
+
+    n_tiers = number of distinct positive φ^k values. Centered around
+    φ^0 = 1 so we get both reciprocals (small values) and powers (large
+    values) for free, in a single smooth geometric series.
+
+    For n_tiers=8: positive values = {φ^-4, ..., φ^3}
+                  ≈ {0.146, 0.236, 0.382, 0.618, 1.0, 1.618, 2.618, 4.236}
+    """
+    half = n_tiers // 2
+    k_lo = -half
+    k_hi = n_tiers - half
+    pos = [PHI ** k for k in range(k_lo, k_hi)]
+    return sorted([-v for v in pos] + [0.0] + pos)
+
+
 def fibonacci_tier_values(n_tiers: int, reciprocals: bool = False) -> list[float]:
     """Signed Fibonacci tier values.
 
@@ -78,7 +102,8 @@ def fibonacci_tier_values(n_tiers: int, reciprocals: bool = False) -> list[float
 
 def fibonacci_tier_snap(W: torch.Tensor, n_tiers: int = 8,
                          scale: str = "per_tensor",
-                         reciprocals: bool = False) -> tuple[torch.Tensor, int]:
+                         reciprocals: bool = False,
+                         tier_basis: str = "fibonacci") -> tuple[torch.Tensor, int]:
     """Snap each weight in W to its nearest signed-Fibonacci tier value.
 
     Args:
@@ -95,10 +120,13 @@ def fibonacci_tier_snap(W: torch.Tensor, n_tiers: int = 8,
     Returns:
         (W_quantized, n_unique_values_actually_used_avg)
     """
-    tier_vals = torch.tensor(
-        fibonacci_tier_values(n_tiers, reciprocals=reciprocals),
-        dtype=W.dtype, device=W.device,
-    )                                                       # [n_levels]
+    if tier_basis == "fibonacci":
+        tv_list = fibonacci_tier_values(n_tiers, reciprocals=reciprocals)
+    elif tier_basis == "phi_power":
+        tv_list = phi_power_tier_values(n_tiers)
+    else:
+        raise ValueError(f"unknown tier_basis: {tier_basis}")
+    tier_vals = torch.tensor(tv_list, dtype=W.dtype, device=W.device)   # [n_levels]
     max_tier = max(tier_vals.abs().max().item(), 1.0)
 
     if scale == "per_tensor":
@@ -116,7 +144,8 @@ def fibonacci_tier_snap(W: torch.Tensor, n_tiers: int = 8,
     if scale == "per_row":
         if W.dim() != 2:
             # Fall back to per-tensor for 1-D / N-D parameters.
-            return fibonacci_tier_snap(W, n_tiers, "per_tensor", reciprocals)
+            return fibonacci_tier_snap(W, n_tiers, "per_tensor",
+                                         reciprocals, tier_basis)
         abs_max_row = W.abs().max(dim=-1, keepdim=True).values.clamp(min=1e-12)  # [out, 1]
         s_row = abs_max_row / max_tier                       # [out, 1]
         # For each row, scaled tier set is tier_vals * s_row. We need
@@ -135,6 +164,7 @@ def fibonacci_tier_snap(W: torch.Tensor, n_tiers: int = 8,
 def fibonacci_quantize_model(model: torch.nn.Module, n_tiers: int = 8,
                               scale: str = "per_tensor",
                               reciprocals: bool = False,
+                              tier_basis: str = "fibonacci",
                               targets: list[str] = None) -> dict:
     """In-place Fibonacci-tier-snap of model parameters matching `targets`."""
     if targets is None:
@@ -146,7 +176,8 @@ def fibonacci_quantize_model(model: torch.nn.Module, n_tiers: int = 8,
             continue
         with torch.no_grad():
             W_q, n_unique = fibonacci_tier_snap(
-                p.data, n_tiers=n_tiers, scale=scale, reciprocals=reciprocals,
+                p.data, n_tiers=n_tiers, scale=scale,
+                reciprocals=reciprocals, tier_basis=tier_basis,
             )
             p.data.copy_(W_q)
             stats["params_quantized"] += p.numel()
diff --git a/experiments/transformerless_lm/results_weight_substrate_v2.json b/experiments/transformerless_lm/results_weight_substrate_v2.json
@@ -0,0 +1,306 @@
+{
+  "archs": {
+    "dense_crt": {
+      "n_params": 801664,
+      "n_attn_params": 264192,
+      "val_fp32": 2.439574755728245,
+      "quantized": {
+        "n4_nor_per_tensor": {
+          "n_tiers": 4,
+          "reciprocals": false,
+          "scale": "per_tensor",
+          "val": 7.848854899406433,
+          "delta": 5.409280143678188,
+          "params_quantized": 801664,
+          "avg_unique_tier_values": 5.784313725490196
+        },
+        "n8_nor_per_tensor": {
+          "n_tiers": 8,
+          "reciprocals": false,
+          "scale": "per_tensor",
+          "val": 3.4171799793839455,
+          "delta": 0.9776052236557007,
+          "params_quantized": 801664,
+          "avg_unique_tier_values": 12.254901960784315
+        },
+        "n16_nor_per_tensor": {
+          "n_tiers": 16,
+          "reciprocals": false,
+          "scale": "per_tensor",
+          "val": 3.404290087521076,
+          "delta": 0.9647153317928314,
+          "params_quantized": 801664,
+          "avg_unique_tier_values": 19.96078431372549
+        },
+        "n32_nor_per_tensor": {
+          "n_tiers": 32,
+          "reciprocals": false,
+          "scale": "per_tensor",
+          "val": 3.4040319994091988,
+          "delta": 0.964457243680954,
+          "params_quantized": 801664,
+          "avg_unique_tier_values": 24.235294117647058
+        },
+        "n4_nor_per_row": {
+          "n_tiers": 4,
+          "reciprocals": false,
+          "scale": "per_row",
+          "val": 4.788576230406761,
+          "delta": 2.3490014746785164,
+          "params_quantized": 801664,
+          "avg_unique_tier_values": 5.823529411764706
+        },
+        "n8_nor_per_row": {
+          "n_tiers": 8,
+          "reciprocals": false,
+          "scale": "per_row",
+          "val": 3.1771102994680405,
+          "delta": 0.7375355437397957,
+          "params_quantized": 801664,
+          "avg_unique_tier_values": 12.27450980392157
+        },
+        "n16_nor_per_row": {
+          "n_tiers": 16,
+          "reciprocals": false,
+          "scale": "per_row",
+          "val": 3.2084167823195457,
+          "delta": 0.768842026591301,
+          "params_quantized": 801664,
+          "avg_unique_tier_values": 19.980392156862745
+        },
+        "n32_nor_per_row": {
+          "n_tiers": 32,
+          "reciprocals": false,
+          "scale": "per_row",
+          "val": 3.2085734754800797,
+          "delta": 0.7689987197518349,
+          "params_quantized": 801664,
+          "avg_unique_tier_values": 23.84313725490196
+        },
+        "n4_rec_per_tensor": {
+          "n_tiers": 4,
+          "reciprocals": true,
+          "scale": "per_tensor",
+          "val": 4.2178787142038345,
+          "delta": 1.7783039584755898,
+          "params_quantized": 801664,
+          "avg_unique_tier_values": 9.07843137254902
+        },
+        "n8_rec_per_tensor": {
+          "n_tiers": 8,
+          "reciprocals": true,
+          "scale": "per_tensor",
+          "val": 3.3867647871375084,
+          "delta": 0.9471900314092636,
+          "params_quantized": 801664,
+          "avg_unique_tier_values": 18.07843137254902
+        },
+        "n16_rec_per_tensor": {
+          "n_tiers": 16,
+          "reciprocals": true,
+          "scale": "per_tensor",
+          "val": 3.4041296541690826,
+          "delta": 0.9645548984408379,
+          "params_quantized": 801664,
+          "avg_unique_tier_values": 23.862745098039216
+        },
+        "n32_rec_per_tensor": {
+          "n_tiers": 32,
+          "reciprocals": true,
+          "scale": "per_tensor",
+          "val": 3.4040321484208107,
+          "delta": 0.9644573926925659,
+          "params_quantized": 801664,
+          "avg_unique_tier_values": 24.372549019607842
+        },
+        "n4_rec_per_row": {
+          "n_tiers": 4,
+          "reciprocals": true,
+          "scale": "per_row",
+          "val": 4.287693277001381,
+          "delta": 1.8481185212731361,
+          "params_quantized": 801664,
+          "avg_unique_tier_values": 9.117647058823529
+        },
+        "n8_rec_per_row": {
+          "n_tiers": 8,
+          "reciprocals": true,
+          "scale": "per_row",
+          "val": 3.2172485813498497,
+          "delta": 0.7776738256216049,
+          "params_quantized": 801664,
+          "avg_unique_tier_values": 18.098039215686274
+        },
+        "n16_rec_per_row": {
+          "n_tiers": 16,
+          "reciprocals": true,
+          "scale": "per_row",
+          "val": 3.208352394402027,
+          "delta": 0.7687776386737823,
+          "params_quantized": 801664,
+          "avg_unique_tier_values": 23.352941176470587
+        },
+        "n32_rec_per_row": {
+          "n_tiers": 32,
+          "reciprocals": true,
+          "scale": "per_row",
+          "val": 3.208573505282402,
+          "delta": 0.7689987495541573,
+          "params_quantized": 801664,
+          "avg_unique_tier_values": 23.88235294117647
+        }
+      }
+    },
+    "tied_substrate": {
+      "n_params": 668536,
+      "n_attn_params": 131072,
+      "val_fp32": 2.592747889459133,
+      "quantized": {
+        "n4_nor_per_tensor": {
+          "n_tiers": 4,
+          "reciprocals": false,
+          "scale": "per_tensor",
+          "val": 6.7923648953437805,
+          "delta": 4.199617005884647,
+          "params_quantized": 668536,
+          "avg_unique_tier_values": 6.373831775700935
+        },
+        "n8_nor_per_tensor": {
+          "n_tiers": 8,
+          "reciprocals": false,
+          "scale": "per_tensor",
+          "val": 3.584361217916012,
+          "delta": 0.9916133284568787,
+          "params_quantized": 668536,
+          "avg_unique_tier_values": 13.598130841121495
+        },
+        "n16_nor_per_tensor": {
+          "n_tiers": 16,
+          "reciprocals": false,
+          "scale": "per_tensor",
+          "val": 3.6512366607785225,
+          "delta": 1.0584887713193893,
+          "params_quantized": 668536,
+          "avg_unique_tier_values": 22.289719626168225
+        },
+        "n32_nor_per_tensor": {
+          "n_tiers": 32,
+          "reciprocals": false,
+          "scale": "per_tensor",
+          "val": 3.6507833153009415,
+          "delta": 1.0580354258418083,
+          "params_quantized": 668536,
+          "avg_unique_tier_values": 26.14018691588785
+        },
+        "n4_nor_per_row": {
+          "n_tiers": 4,
+          "reciprocals": false,
+          "scale": "per_row",
+          "val": 6.571510136127472,
+          "delta": 3.9787622466683388,
+          "params_quantized": 668536,
+          "avg_unique_tier_values": 6.383177570093458
+        },
+        "n8_nor_per_row": {
+          "n_tiers": 8,
+          "reciprocals": false,
+          "scale": "per_row",
+          "val": 3.2470703125,
+          "delta": 0.6543224230408669,
+          "params_quantized": 668536,
+          "avg_unique_tier_values": 13.607476635514018
+        },
+        "n16_nor_per_row": {
+          "n_tiers": 16,
+          "reciprocals": false,
+          "scale": "per_row",
+          "val": 3.183598607778549,
+          "delta": 0.590850718319416,
+          "params_quantized": 668536,
+          "avg_unique_tier_values": 22.299065420560748
+        },
+        "n32_nor_per_row": {
+          "n_tiers": 32,
+          "reciprocals": false,
+          "scale": "per_row",
+          "val": 3.183070808649063,
+          "delta": 0.59032291918993,
+          "params_quantized": 668536,
+          "avg_unique_tier_values": 25.49532710280374
+        },
+        "n4_rec_per_tensor": {
+          "n_tiers": 4,
+          "reciprocals": true,
+          "scale": "per_tensor",
+          "val": 3.734321117401123,
+          "delta": 1.14157322794199,
+          "params_quantized": 668536,
+          "avg_unique_tier_values": 10.037383177570094
+        },
+        "n8_rec_per_tensor": {
+          "n_tiers": 8,
+          "reciprocals": true,
+          "scale": "per_tensor",
+          "val": 3.504885621368885,
+          "delta": 0.9121377319097519,
+          "params_quantized": 668536,
+          "avg_unique_tier_values": 20.233644859813083
+        },
+        "n16_rec_per_tensor": {
+          "n_tiers": 16,
+          "reciprocals": true,
+          "scale": "per_tensor",
+          "val": 3.6509373784065247,
+          "delta": 1.0581894889473915,
+          "params_quantized": 668536,
+          "avg_unique_tier_values": 25.53271028037383
+        },
+        "n32_rec_per_tensor": {
+          "n_tiers": 32,
+          "reciprocals": true,
+          "scale": "per_tensor",
+          "val": 3.650783285498619,
+          "delta": 1.058035396039486,
+          "params_quantized": 668536,
+          "avg_unique_tier_values": 26.1588785046729
+        },
+        "n4_rec_per_row": {
+          "n_tiers": 4,
+          "reciprocals": true,
+          "scale": "per_row",
+          "val": 3.894965998828411,
+          "delta": 1.302218109369278,
+          "params_quantized": 668536,
+          "avg_unique_tier_values": 10.046728971962617
+        },
+        "n8_rec_per_row": {
+          "n_tiers": 8,
+          "reciprocals": true,
+          "scale": "per_row",
+          "val": 3.2067508846521378,
+          "delta": 0.6140029951930046,
+          "params_quantized": 668536,
+          "avg_unique_tier_values": 20.242990654205606
+        },
+        "n16_rec_per_row": {
+          "n_tiers": 16,
+          "reciprocals": true,
+          "scale": "per_row",
+          "val": 3.183425836265087,
+          "delta": 0.590677946805954,
+          "params_quantized": 668536,
+          "avg_unique_tier_values": 24.94392523364486
+        },
+        "n32_rec_per_row": {
+          "n_tiers": 32,
+          "reciprocals": true,
+          "scale": "per_row",
+          "val": 3.183070831000805,
+          "delta": 0.5903229415416718,
+          "params_quantized": 668536,
+          "avg_unique_tier_values": 25.49532710280374
+        }
+      }
+    }
+  }
+}
diff --git a/experiments/transformerless_lm/train_weight_substrate.py b/experiments/transformerless_lm/train_weight_substrate.py