Phase 13.14.GB: prange + bincount optimization

miranov25 · miranov25 · commit 209e7c2f6543 · 2026-03-24T09:27:38.000+01:00
Step 2: np.bincount replaces Python loop (2.3s → 0.013s)
Step 3: nb.prange(n_bins) parallelizes over bins (6s → expected &lt;0.5s)
No race condition — each bin writes to its own output row.
diff --git a/UTILS/dfextensions/groupby_regression/groupby_regression_sliding_window.py b/UTILS/dfextensions/groupby_regression/groupby_regression_sliding_window.py
@@ -4154,7 +4154,7 @@ def _get_numba_agg_kernel():
     """Compile and return numba-accelerated window accumulation kernel."""
     import numba as nb
 
-    @nb.njit(cache=True)
+    @nb.njit(parallel=True, cache=True)
     def _accumulate_numba(
             bin_coords,        # (B, D) int64
             neighbor_offsets,  # (W, D) int64
@@ -4177,7 +4177,7 @@ def _accumulate_numba(
         n_cols = sum_x.shape[1]
         n_dims = bin_coords.shape[1]
 
-        for bi in range(n_bins):
+        for bi in nb.prange(n_bins):
             for ni in range(n_offsets):
                 valid = True
                 flat_idx = np.int64(0)