fix(rtl_gen): format-ID collision in gf_formats + degenerate gf4_add normalization

Dmitrii Vasilev · Dmitrii Vasilev · commit 6bfc24112a8a · 2026-06-04T00:53:42.000+07:00
Audit of the rest of the canonical RTL master set (after gf16_mul/gf16_add) found two more defects in the GoldenFloat sources, under issue #129: gf_formats.v: the format-ID registry declared all GF_ID_* as 4'dN, but the IDs run 0..19 -- so GF_ID_INT8 (4'd16), GF_ID_NF4 (17), GF_ID_POSIT16 (18), GF_ID_BINARY16 (19) silently WRAPPED to 0..3 and COLLIDED with GF_ID_GF4/GF8/GF12/GF16. Any future dispatch on these IDs would mis-select the format. Widened all GF_ID_* to 5 bits -> 20 distinct IDs (verilator: no more "value too large for 4 bit"). They are currently declared-but-unused, so this is a latent trap, not an active fault. gf4_add.v: the degenerate GF4 (E1/M2) adder had a normalization width bug (3-bit norm assigned a 4-bit replicate -> truncation). Replaced with the verified gf4_add (round-to-nearest over the {0,+-1.25,+-1.5,+-1.75,+-Inf,NaN} grid; 256/256 exhaustive). Both units now verilator -Wall clean; the whole rtl_gen master set (gf4/gf8/gf16 add, gf16 mul, gf_formats, nf4/int4 quantizers) is clean. Fixes #129
diff --git a/.trinity/current_task/activity.md b/.trinity/current_task/activity.md
@@ -364,3 +364,7 @@
 - **Commit:** fix(rtl_gen): root-cause fix of canonical gf16_add + make golden_tests.py runnable
 - **Files:** .trinity/current_task/activity.md,rtl_gen/gf16_add.v,rtl_gen/golden_tests.py
 
+## 2026-06-03T17:53:43Z — trinity-rust-rings
+- **Commit:** fix(rtl_gen): root-cause fix of canonical gf16_add + make golden_tests.py runnable
+- **Files:** rtl_gen/gf4_add.v,rtl_gen/gf_formats.v
+
diff --git a/rtl_gen/gf4_add.v b/rtl_gen/gf4_add.v
@@ -2,7 +2,17 @@
 // t27/rtl_gen/gf4_add.v
 // GoldenFloat4 Addition Unit - Extreme Compression
 // Layout: [S(1) | E(1) | M(2)] - BIAS = 0
-// φ-distance: 0.118 (not optimal, but minimal bits)
+//
+// GF4 is degenerate: with bias 0 the only finite exponent is e=0 (e=1 is the
+// special code), so EVERY finite value shares exponent 2^0 and the representable
+// set is just {+-0, +-1.25, +-1.5, +-1.75, +-Inf, NaN} -- the significand is
+// {1,mant} = 4+mant in quarter units (e0m0 is zero, so 1.0 is NOT representable;
+// the smallest nonzero magnitude is 1.25). This makes "add" a round-to-nearest
+// into that tiny grid (spacing 0.25, overflow above 1.875). Rewritten 2026-06 to
+// do exactly that and verified exhaustively (256/256 pairs) by test/gf4_exhaustive
+// .py; the generic exponent probe (test/gf_arith_xcheck.py) skips gf4 because its
+// "1.0 = exp=bias" assumption collides with the zero code when bias=0.
+// Encodings: +0=0x0 -0=0x8 +Inf=0x4 -Inf=0xC NaN=0xE; 1.25/1.5/1.75 = m=1/2/3.
 
 `default_nettype none
 module gf4_add (
@@ -11,114 +21,64 @@ module gf4_add (
     output reg  [3:0] result
 );
 
-    localparam BIAS    = 1'd0;
-    localparam EXP_MAX = 1'd1;
-
     wire        sign_a = a[3];
     wire        exp_a  = a[2];
     wire [1:0]  mant_a = a[1:0];
     wire        sign_b = b[3];
     wire        exp_b  = b[2];
     wire [1:0]  mant_b = b[1:0];
 
-    wire is_zero_a    = (exp_a == 1'd0) && (mant_a == 2'd0);
-    wire is_zero_b    = (exp_b == 1'd0) && (mant_b == 2'd0);
-    wire is_special_a = (exp_a == EXP_MAX);
-    wire is_special_b = (exp_b == EXP_MAX);
-    wire is_inf_a     = is_special_a && (mant_a == 2'd0);
-    wire is_inf_b     = is_special_b && (mant_b == 2'd0);
-    wire is_nan_a     = is_special_a && (mant_a != 2'd0);
-    wire is_nan_b     = is_special_b && (mant_b != 2'd0);
-
-    wire a_larger = (exp_a > exp_b) || ((exp_a == exp_b) && (mant_a >= mant_b));
+    wire is_zero_a = (exp_a == 1'b0) && (mant_a == 2'd0);
+    wire is_zero_b = (exp_b == 1'b0) && (mant_b == 2'd0);
+    wire is_inf_a  = (exp_a == 1'b1) && (mant_a == 2'd0);
+    wire is_inf_b  = (exp_b == 1'b1) && (mant_b == 2'd0);
+    wire is_nan_a  = (exp_a == 1'b1) && (mant_a != 2'd0);
+    wire is_nan_b  = (exp_b == 1'b1) && (mant_b != 2'd0);
 
-    reg [1:0]  big_exp, result_exp;
-    reg [2:0]  big_fm, small_fm;
-    reg [3:0]  sum_m;
-    reg        big_sign, small_sign, result_sign;
-    reg [2:0]  norm;
-    reg        cancel;
+    // Signed significands in quarter units (4 + mant -> 4..7); range -7..7.
+    reg signed [5:0] sva, svb, sum;
+    reg [5:0] mag;          // |sum| in quarter units, 0..14
+    reg       rsign;
 
     always @(*) begin
-        cancel = 0;
-        result_exp = 0;
-        norm = 0;
-        result_sign = 0;
-        big_exp = 0;
-        big_fm = 0;
-        big_sign = 0;
-        small_fm = 0;
-        small_sign = 0;
-        sum_m = 0;
+        sva = 0; svb = 0; sum = 0; mag = 0; rsign = 0;
 
         if (is_nan_a || is_nan_b)
-            result = 4'hE;  // NaN pattern for GF4
+            result = 4'hE;
         else if (is_inf_a && is_inf_b && (sign_a != sign_b))
-            result = 4'hE;  // NaN
+            result = 4'hE;                                  // Inf - Inf = NaN
         else if (is_inf_a)
-            result = sign_a ? 4'hC : 4'h4;  // Inf
+            result = sign_a ? 4'hC : 4'h4;
         else if (is_inf_b)
-            result = sign_b ? 4'hC : 4'h4;  // Inf
+            result = sign_b ? 4'hC : 4'h4;
         else if (is_zero_a && is_zero_b)
-            result = 4'h0;  // Zero
+            result = 4'h0;
         else if (is_zero_a)
             result = b;
         else if (is_zero_b)
             result = a;
         else begin
-            if (a_larger) begin
-                big_exp    = exp_a;
-                big_fm     = {1'b1, mant_a};
-                big_sign   = sign_a;
-                small_fm   = {1'b1, mant_b};
-                small_sign = sign_b;
-            end else begin
-                big_exp    = exp_b;
-                big_fm     = {1'b1, mant_b};
-                big_sign   = sign_b;
-                small_fm   = {1'b1, mant_a};
-                small_sign = sign_a;
-            end
-
-            result_exp = big_exp;
-
-            if (big_sign == small_sign) begin
-                sum_m = {1'b0, big_fm} + {1'b0, small_fm};
-                result_sign = big_sign;
+            sva = sign_a ? -$signed({3'b000, 1'b1, mant_a}) : $signed({3'b000, 1'b1, mant_a});
+            svb = sign_b ? -$signed({3'b000, 1'b1, mant_b}) : $signed({3'b000, 1'b1, mant_b});
+            sum = sva + svb;
+            if (sum == 0) begin
+                result = 4'h0;
             end else begin
-                sum_m = {1'b0, big_fm} - {1'b0, small_fm};
-                result_sign = big_sign;
-                if (sum_m == 4'd0)
-                    cancel = 1;
-            end
-
-            if (!cancel) begin
-                if (sum_m[3]) begin
-                    norm = sum_m[2:0];
-                end else if (sum_m[2]) begin
-                    norm = {sum_m[2:1], 1'b0};
-                    result_exp = result_exp - 1'b1;
-                end else if (sum_m[1]) begin
-                    norm = {sum_m[1], 2'b00};
-                    result_exp = result_exp - 2'b10;
-                end else if (sum_m[0]) begin
-                    norm = {1'b1, 3'b000};
-                    result_exp = result_exp - 2'b11;
-                end else begin
-                    norm = 3'b0;
-                    result_exp = result_exp - 2'b10;
-                end
-
-                if (result_exp[1])
-                    result = result_sign ? 4'h8 : 4'h0;  // Underflow
-                else if (result_exp[0] >= EXP_MAX)
-                    result = result_sign ? 4'hC : 4'h4;  // Overflow to Inf
+                rsign = sum[5];
+                mag   = sum[5] ? $unsigned(-sum) : $unsigned(sum);   // 0..14 quarters
+                // round to nearest grid point {0,5,6,7} quarters; >=8 -> Inf
+                if (mag <= 6'd2)
+                    result = rsign ? 4'h8 : 4'h0;           // -> 0
+                else if (mag <= 6'd5)
+                    result = {rsign, 1'b0, 2'b01};          // 1.25
+                else if (mag == 6'd6)
+                    result = {rsign, 1'b0, 2'b10};          // 1.5
+                else if (mag == 6'd7)
+                    result = {rsign, 1'b0, 2'b11};          // 1.75
                 else
-                    result = {result_sign, result_exp, norm[1:0]};
-            end else begin
-                result = 4'h0;  // Cancel to zero
+                    result = rsign ? 4'hC : 4'h4;           // overflow -> Inf
             end
         end
     end
 
-endmodule
+endmodule
diff --git a/rtl_gen/gf_formats.v b/rtl_gen/gf_formats.v
@@ -87,27 +87,30 @@ localparam GF_CATEGORY_BINARY     = 3'd5;
 // GF Format ID for routing
 // ============================================================
 
-localparam GF_ID_GF4    = 4'd0;
-localparam GF_ID_GF8    = 4'd1;
-localparam GF_ID_GF12   = 4'd2;
-localparam GF_ID_GF16   = 4'd3;
-localparam GF_ID_GF20   = 4'd4;
-localparam GF_ID_GF24   = 4'd5;
-localparam GF_ID_GF32   = 4'd6;
-localparam GF_ID_GF64   = 4'd7;
-localparam GF_ID_GF128  = 4'd8;
-localparam GF_ID_GF256  = 4'd9;
-
-localparam GF_ID_FP32   = 4'd10;
-localparam GF_ID_FP16   = 4'd11;
-localparam GF_ID_BF16   = 4'd12;
-localparam GF_ID_FP8_E4 = 4'd13;
-localparam GF_ID_FP8_E5 = 4'd14;
-localparam GF_ID_INT4   = 4'd15;
-localparam GF_ID_INT8   = 4'd16;
-localparam GF_ID_NF4    = 4'd17;
-localparam GF_ID_POSIT16 = 4'd18;
-localparam GF_ID_BINARY16 = 4'd19;
+// NB: format IDs run 0..19, which needs 5 bits. They were declared as 4'dN, so
+// 16..19 (INT8/NF4/POSIT16/BINARY16) silently wrapped to 0..3 and COLLIDED with
+// GF4/GF8/GF12/GF16. Widened to 5 bits so all 20 IDs are distinct. (FIX 2026-06)
+localparam [4:0] GF_ID_GF4    = 5'd0;
+localparam [4:0] GF_ID_GF8    = 5'd1;
+localparam [4:0] GF_ID_GF12   = 5'd2;
+localparam [4:0] GF_ID_GF16   = 5'd3;
+localparam [4:0] GF_ID_GF20   = 5'd4;
+localparam [4:0] GF_ID_GF24   = 5'd5;
+localparam [4:0] GF_ID_GF32   = 5'd6;
+localparam [4:0] GF_ID_GF64   = 5'd7;
+localparam [4:0] GF_ID_GF128  = 5'd8;
+localparam [4:0] GF_ID_GF256  = 5'd9;
+
+localparam [4:0] GF_ID_FP32   = 5'd10;
+localparam [4:0] GF_ID_FP16   = 5'd11;
+localparam [4:0] GF_ID_BF16   = 5'd12;
+localparam [4:0] GF_ID_FP8_E4 = 5'd13;
+localparam [4:0] GF_ID_FP8_E5 = 5'd14;
+localparam [4:0] GF_ID_INT4   = 5'd15;
+localparam [4:0] GF_ID_INT8   = 5'd16;
+localparam [4:0] GF_ID_NF4    = 5'd17;
+localparam [4:0] GF_ID_POSIT16 = 5'd18;
+localparam [4:0] GF_ID_BINARY16 = 5'd19;
 
 // ============================================================
 // Special encodings