google
diff --git a/‎ops/brgemm-inl.h‎
Lines changed: 115 additions & 72 deletions b/‎ops/brgemm-inl.h‎
Lines changed: 115 additions & 72 deletions
@@ -13,7 +13,36 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
 
-// BRGeMM dispatch. Included from matmul-inl.h inside gcpp::HWY_NAMESPACE.
+// BRGeMM dispatch for BF16 MatMul on Intel AMX/AVX-512.
+
+#include <stddef.h>
+#include <stdint.h>
+
+#include <algorithm>
+#include <utility>
+#include <vector>
+
+#include "ops/brgemm.h"
+#include "ops/matmul.h"
+#include "util/mat.h"
+#include "util/threading_context.h"
+#include "util/zones.h"
+#include "hwy/base.h"
+
+// Include guard for (potentially) SIMD code.
+#if defined(THIRD_PARTY_GEMMA_CPP_BRGEMM_TOGGLE) == defined(HWY_TARGET_TOGGLE)
+#ifdef THIRD_PARTY_GEMMA_CPP_BRGEMM_TOGGLE
+#undef THIRD_PARTY_GEMMA_CPP_BRGEMM_TOGGLE
+#else
+#define THIRD_PARTY_GEMMA_CPP_BRGEMM_TOGGLE
+#endif
+
+#include "hwy/highway.h"
+
+HWY_BEFORE_NAMESPACE();
+namespace gcpp {
+namespace HWY_NAMESPACE {
+namespace hn = hwy::HWY_NAMESPACE;
 
 #if GEMMA_ONEDNN_BRGEMM
 
@@ -55,8 +84,7 @@ static HWY_NOINLINE void DoMatMul_BRGeMM(
 
     ke.K_blk = cfg.K_blk;
     ke.N_blk = cfg.N_blk;
-    ke.M_blk =
-        static_cast<int64_t>(std::min(static_cast<size_t>(cfg.M_blk), M));
+    ke.M_blk = std::min(cfg.M_blk, M);
 
     ke.M_tail = M % ke.M_blk;
     ke.N_tail = N % ke.N_blk;
@@ -97,10 +125,13 @@ static HWY_NOINLINE void DoMatMul_BRGeMM(
     ke.m_sizes[1] = ke.M_tail ? ke.M_tail : ke.M_blk;
     ke.n_sizes[0] = ke.N_blk;
     ke.n_sizes[1] = ke.N_tail ? ke.N_tail : ke.N_blk;
-    const int64_t ldb_for[2] = {ke.N_blk, ke.N_tail ? ke.N_tail : ke.N_blk};
-    const int64_t ldc_for[2] = {ke.N_blk, ke.N_tail ? ke.N_tail : ke.N_blk};
+    const int64_t ldb_for[2] = {static_cast<int64_t>(ke.N_blk),
+                                 static_cast<int64_t>(ke.N_tail ? ke.N_tail : ke.N_blk)};
+    const int64_t ldc_for[2] = {static_cast<int64_t>(ke.N_blk),
+                                 static_cast<int64_t>(ke.N_tail ? ke.N_tail : ke.N_blk)};
 
-    // Create brgemm kernels for each (M-tile, N-tile) variant.
+    // Create brgemm kernels for full/tail M and N tile sizes.
+    // mi=0 is the full M tile, mi=1 is the M-tail; likewise for ni and N.
     size_t max_sp = 0;
     for (int mi = 0; mi < 2; ++mi) {
       for (int ni = 0; ni < 2; ++ni) {
@@ -109,22 +140,25 @@ static HWY_NOINLINE void DoMatMul_BRGeMM(
         if (mi == 0 && ke.M_full_tiles == 0) continue;
         if (ni == 0 && ke.N_full_tiles == 0) continue;
 
-        const int64_t ms = ke.m_sizes[mi];
-        const int64_t ns = ke.n_sizes[ni];
+        const int64_t ms = static_cast<int64_t>(ke.m_sizes[mi]);
+        const int64_t ns = static_cast<int64_t>(ke.n_sizes[ni]);
 
         if (ke.K_chunks > 0) {
-          if (!MakeBrgemm(ke.brg_first_all[mi][ni], ms, ns, ke.K_blk,
-                          ke.K_super_size, ke.lda, ldb_for[ni], ldc_for[ni],
-                          a_dt, b_dt, c_dt, false)) {
+          if (!MakeBrgemm(ke.brg_first_all[mi][ni], ms, ns,
+                          static_cast<int64_t>(ke.K_blk),
+                          static_cast<int64_t>(ke.K_super_size), ke.lda,
+                          ldb_for[ni], ldc_for[ni], a_dt, b_dt, c_dt,
+                          false)) {
             return;
           }
           max_sp = std::max(max_sp,
                             ke.brg_first_all[mi][ni].get_scratchpad_size());
         }
         if (ke.K_super_blocks > 1) {
-          if (!MakeBrgemm(ke.brg_full[mi][ni], ms, ns, ke.K_blk,
-                          ke.batch_full, ke.lda, ldb_for[ni], ldc_for[ni],
-                          a_dt, b_dt, c_dt, true)) {
+          if (!MakeBrgemm(ke.brg_full[mi][ni], ms, ns,
+                          static_cast<int64_t>(ke.K_blk),
+                          static_cast<int64_t>(ke.batch_full), ke.lda,
+                          ldb_for[ni], ldc_for[ni], a_dt, b_dt, c_dt, true)) {
             return;
           }
           max_sp =
@@ -134,7 +168,8 @@ static HWY_NOINLINE void DoMatMul_BRGeMM(
           const bool rem_is_first = (ke.K_super_blocks == 0);
           auto& target = rem_is_first ? ke.brg_first_rem[mi][ni]
                                       : ke.brg_rem[mi][ni];
-          if (!MakeBrgemm(target, ms, ns, ke.K_blk, ke.batch_rem, ke.lda,
+          if (!MakeBrgemm(target, ms, ns, static_cast<int64_t>(ke.K_blk),
+                          static_cast<int64_t>(ke.batch_rem), ke.lda,
                           ldb_for[ni], ldc_for[ni], a_dt, b_dt, c_dt,
                           !rem_is_first)) {
             return;
@@ -143,7 +178,8 @@ static HWY_NOINLINE void DoMatMul_BRGeMM(
         }
         if (ke.K_tail > 0) {
           const bool add_c = (ke.K_chunks > 0);
-          if (!MakeBrgemm(ke.brg_ktail[mi][ni], ms, ns, ke.K_tail, 1, ke.lda,
+          if (!MakeBrgemm(ke.brg_ktail[mi][ni], ms, ns,
+                          static_cast<int64_t>(ke.K_tail), 1, ke.lda,
                           ldb_for[ni], ldc_for[ni], a_dt, b_dt, c_dt,
                           add_c)) {
             return;
@@ -161,28 +197,30 @@ static HWY_NOINLINE void DoMatMul_BRGeMM(
         if (ni == 1 && ke.N_tail == 0) continue;
         if (ni == 0 && ke.N_full_tiles == 0) continue;
 
-        const int64_t ns = ke.n_sizes[ni];
+        const int64_t ns = static_cast<int64_t>(ke.n_sizes[ni]);
         if (ke.K_chunks > 0) {
-          const int64_t K_full = ke.K_chunks * ke.K_blk;
+          const int64_t K_full =
+              static_cast<int64_t>(ke.K_chunks * ke.K_blk);
           try {
             ke.pack_B[ni] = transform(K_full, ns, pack_type::trans,
                                        ke.ldb_orig, ldb_for[ni], b_dt, b_dt);
             if (!ke.pack_B[ni]) return;
             ke.pack_B[ni].generate();
-            ke.blocked_B_size[ni] = ldb_for[ni] * ke.K_blk * ke.b_dt_size;
+            ke.blocked_B_size[ni] = static_cast<size_t>(ldb_for[ni]) *
+                                    ke.K_blk * ke.b_dt_size;
           } catch (...) {
             return;
           }
         }
         if (ke.K_tail > 0) {
           try {
             ke.pack_B_ktail[ni] = transform(
-                ke.K_tail, ns, pack_type::trans, ke.ldb_orig, ldb_for[ni],
-                b_dt, b_dt);
+                static_cast<int64_t>(ke.K_tail), ns, pack_type::trans,
+                ke.ldb_orig, ldb_for[ni], b_dt, b_dt);
             if (!ke.pack_B_ktail[ni]) return;
             ke.pack_B_ktail[ni].generate();
             ke.blocked_B_ktail_size[ni] =
-                ldb_for[ni] * ke.K_tail * ke.b_dt_size;
+                static_cast<size_t>(ldb_for[ni]) * ke.K_tail * ke.b_dt_size;
           } catch (...) {
             return;
           }
@@ -194,55 +232,55 @@ static HWY_NOINLINE void DoMatMul_BRGeMM(
     for (int ni = 0; ni < 2; ++ni) {
       if (ni == 1 && ke.N_tail == 0) continue;
       if (ni == 0 && ke.N_full_tiles == 0) continue;
-      const int64_t cur_n = ke.n_sizes[ni];
+      const size_t cur_n = ke.n_sizes[ni];
 
       if (ke.K_chunks > 0) {
         ke.offsets_first_all[ni].resize(ke.K_super_size);
-        for (int64_t i = 0; i < ke.K_super_size; ++i) {
+        for (size_t i = 0; i < ke.K_super_size; ++i) {
           const int64_t a_off =
-              i * ke.K_blk * static_cast<int64_t>(ke.a_dt_size);
+              static_cast<int64_t>(i * ke.K_blk * ke.a_dt_size);
           const int64_t b_off =
               ke.need_pack
-                  ? i * static_cast<int64_t>(ke.blocked_B_size[ni])
-                  : i * cur_n * ke.K_blk * static_cast<int64_t>(ke.b_dt_size);
+                  ? static_cast<int64_t>(i * ke.blocked_B_size[ni])
+                  : static_cast<int64_t>(i * cur_n * ke.K_blk * ke.b_dt_size);
           ke.offsets_first_all[ni][i] = {a_off, b_off};
         }
       }
 
       if (ke.K_super_blocks > 1) {
         ke.offsets_full[ni].resize(ke.K_super_blocks - 1);
-        for (int64_t ks = 1; ks < ke.K_super_blocks; ++ks) {
+        for (size_t ks = 1; ks < ke.K_super_blocks; ++ks) {
           auto& tbl = ke.offsets_full[ni][ks - 1];
           tbl.resize(ke.batch_full);
-          const int64_t k_start = ks * ke.K_super_size;
-          for (int64_t i = 0; i < ke.batch_full; ++i) {
-            const int64_t k_idx = k_start + i;
+          const size_t k_start = ks * ke.K_super_size;
+          for (size_t i = 0; i < ke.batch_full; ++i) {
+            const size_t k_idx = k_start + i;
             const int64_t a_off =
-                k_idx * ke.K_blk * static_cast<int64_t>(ke.a_dt_size);
+                static_cast<int64_t>(k_idx * ke.K_blk * ke.a_dt_size);
             const int64_t b_off =
                 ke.need_pack
-                    ? k_idx * static_cast<int64_t>(ke.blocked_B_size[ni])
-                    : k_idx * cur_n * ke.K_blk *
-                          static_cast<int64_t>(ke.b_dt_size);
+                    ? static_cast<int64_t>(k_idx * ke.blocked_B_size[ni])
+                    : static_cast<int64_t>(k_idx * cur_n * ke.K_blk *
+                                           ke.b_dt_size);
             tbl[i] = {a_off, b_off};
           }
         }
       }
 
       if (ke.K_super_rem > 0) {
-        const int64_t k_base = ke.K_super_blocks * ke.K_super_size;
+        const size_t k_base = ke.K_super_blocks * ke.K_super_size;
         auto& rem_tbl = (ke.K_super_blocks == 0) ? ke.offsets_first_rem[ni]
                                                   : ke.offsets_rem[ni];
         rem_tbl.resize(ke.K_super_rem);
-        for (int64_t i = 0; i < ke.K_super_rem; ++i) {
-          const int64_t k_idx = k_base + i;
+        for (size_t i = 0; i < ke.K_super_rem; ++i) {
+          const size_t k_idx = k_base + i;
           const int64_t a_off =
-              k_idx * ke.K_blk * static_cast<int64_t>(ke.a_dt_size);
+              static_cast<int64_t>(k_idx * ke.K_blk * ke.a_dt_size);
           const int64_t b_off =
               ke.need_pack
-                  ? k_idx * static_cast<int64_t>(ke.blocked_B_size[ni])
-                  : k_idx * cur_n * ke.K_blk *
-                        static_cast<int64_t>(ke.b_dt_size);
+                  ? static_cast<int64_t>(k_idx * ke.blocked_B_size[ni])
+                  : static_cast<int64_t>(k_idx * cur_n * ke.K_blk *
+                                         ke.b_dt_size);
           rem_tbl[i] = {a_off, b_off};
         }
       }
@@ -270,7 +308,7 @@ static HWY_NOINLINE void DoMatMul_BRGeMM(
 
     if (ke.need_pack) {
       size_t total_packed = 0;
-      for (int64_t nt = 0; nt < ke.N_total_tiles; ++nt) {
+      for (size_t nt = 0; nt < ke.N_total_tiles; ++nt) {
         const int ni = (nt < ke.N_full_tiles) ? 0 : 1;
         pe.B_tile_offset[nt] = total_packed;
         if (ke.K_chunks > 0)
@@ -283,13 +321,13 @@ static HWY_NOINLINE void DoMatMul_BRGeMM(
       uint8_t* B_packed = pe.B_packed_buf.data();
       if (!B_packed) return;
 
-      for (int64_t nt = 0; nt < ke.N_total_tiles; ++nt) {
+      for (size_t nt = 0; nt < ke.N_total_tiles; ++nt) {
         const int ni = (nt < ke.N_full_tiles) ? 0 : 1;
-        const int64_t b_row = (nt < ke.N_full_tiles)
-                                  ? nt * ke.N_blk
-                                  : ke.N_full_tiles * ke.N_blk;
+        const size_t b_row = (nt < ke.N_full_tiles)
+                                 ? nt * ke.N_blk
+                                 : ke.N_full_tiles * ke.N_blk;
         const uint8_t* B_in =
-            B_base + b_row * ke.ldb_orig * ke.b_dt_size;
+            B_base + b_row * static_cast<size_t>(ke.ldb_orig) * ke.b_dt_size;
 
         try {
           if (ke.K_chunks > 0) {
@@ -320,14 +358,14 @@ static HWY_NOINLINE void DoMatMul_BRGeMM(
 
   // Execute one (m, n) tile for a given K-super-block.
   const auto execute_tile = [&](size_t m_start, size_t n_start,
-                                int64_t k_super, float* temp_C,
+                                size_t k_super, float* temp_C,
                                 uint8_t* scratch) HWY_ATTR {
-    const int64_t m_tile_idx = m_start / ke.M_blk;
-    const int64_t n_tile_idx = n_start / ke.N_blk;
+    const size_t m_tile_idx = m_start / ke.M_blk;
+    const size_t n_tile_idx = n_start / ke.N_blk;
     const int mi = (m_tile_idx < ke.M_full_tiles) ? 0 : 1;
     const int ni = (n_tile_idx < ke.N_full_tiles) ? 0 : 1;
-    const int64_t cur_m = ke.m_sizes[mi];
-    const int64_t cur_n = ke.n_sizes[ni];
+    const size_t cur_m = ke.m_sizes[mi];
+    const size_t cur_n = ke.n_sizes[ni];
 
     const size_t real_m = (m_tile_idx < ke.M_full_tiles)
                               ? m_tile_idx * ke.M_blk
@@ -336,16 +374,18 @@ static HWY_NOINLINE void DoMatMul_BRGeMM(
                               ? n_tile_idx * ke.N_blk
                               : ke.N_full_tiles * ke.N_blk;
 
-    const uint8_t* A_tile = A_base + real_m * ke.lda * ke.a_dt_size;
+    const uint8_t* A_tile =
+        A_base + real_m * static_cast<size_t>(ke.lda) * ke.a_dt_size;
     const void* B_tile =
         ke.need_pack
             ? static_cast<const void*>(B_packed +
                                        pe.B_tile_offset[n_tile_idx])
-            : static_cast<const void*>(B_base +
-                                       real_n * ke.ldb_orig * ke.b_dt_size);
+            : static_cast<const void*>(
+                  B_base +
+                  real_n * static_cast<size_t>(ke.ldb_orig) * ke.b_dt_size);
 
     float* C_tile_ptr = temp_C;
-    const int64_t k_total =
+    const size_t k_total =
         ke.K_super_blocks + (ke.K_super_rem > 0 ? 1 : 0);
 
     if (k_super < ke.K_super_blocks) {
@@ -379,7 +419,7 @@ static HWY_NOINLINE void DoMatMul_BRGeMM(
                 ? static_cast<const void*>(B_packed +
                                            pe.B_ktail_offset[n_tile_idx])
                 : static_cast<const void*>(
-                      B_base + (real_n * ke.ldb_orig +
+                      B_base + (real_n * static_cast<size_t>(ke.ldb_orig) +
                                 ke.K_chunks * ke.K_blk) *
                                    ke.b_dt_size);
         ke.brg_ktail[mi][ni].execute(A_ktail, const_cast<void*>(B_ktail),
@@ -390,19 +430,18 @@ static HWY_NOINLINE void DoMatMul_BRGeMM(
       const hn::ScalableTag<float> df;
       const auto vscale = hn::Set(df, scale);
       const size_t lanes = hn::Lanes(df);
-      for (int64_t m = 0; m < cur_m; ++m) {
+      for (size_t m = 0; m < cur_m; ++m) {
         TC* C_row = C.Row(real_m + m) + real_n;
         const float* t_row = C_tile_ptr + m * cur_n;
         const float* add_row = add ? add + real_n : nullptr;
-        int64_t n = 0;
+        size_t n = 0;
         if (add_row) {
-          for (; n + static_cast<int64_t>(lanes) <= cur_n;
-               n += static_cast<int64_t>(lanes)) {
+          for (; n + lanes <= cur_n; n += lanes) {
             const auto v = hn::Load(df, t_row + n);
             const auto va = hn::Load(df, add_row + n);
             const auto result = hn::MulAdd(v, vscale, va);
             if constexpr (hwy::IsSame<TC, float>()) {
-              hn::Store(result, df, reinterpret_cast<float*>(C_row) + n);
+              hn::Store(result, df, HWY_RCAST_ALIGNED(float*, C_row) + n);
             } else {
               const hn::Rebind<TC, decltype(df)> dc;
               hn::Store(hn::DemoteTo(dc, result), dc, C_row + n);
@@ -413,12 +452,11 @@ static HWY_NOINLINE void DoMatMul_BRGeMM(
             C_row[n] = hwy::ConvertScalarTo<TC>(val);
           }
         } else {
-          for (; n + static_cast<int64_t>(lanes) <= cur_n;
-               n += static_cast<int64_t>(lanes)) {
+          for (; n + lanes <= cur_n; n += lanes) {
             const auto v = hn::Load(df, t_row + n);
             const auto result = hn::Mul(v, vscale);
             if constexpr (hwy::IsSame<TC, float>()) {
-              hn::Store(result, df, reinterpret_cast<float*>(C_row) + n);
+              hn::Store(result, df, HWY_RCAST_ALIGNED(float*, C_row) + n);
             } else {
               const hn::Rebind<TC, decltype(df)> dc;
               hn::Store(hn::DemoteTo(dc, result), dc, C_row + n);
@@ -434,9 +472,9 @@ static HWY_NOINLINE void DoMatMul_BRGeMM(
   };
 
   // Parallel dispatch: K-super outer, N middle, M inner (keeps B in L2).
-  const int64_t k_total_supers =
+  const size_t k_total_supers =
       ke.K_super_blocks + (ke.K_super_rem > 0 ? 1 : 0);
-  const int64_t k_iters = (k_total_supers > 0) ? k_total_supers : 1;
+  const size_t k_iters = (k_total_supers > 0) ? k_total_supers : size_t{1};
 
   const size_t num_threads = ctx.pools.MaxWorkersPerCluster();
   const size_t total_n_tiles = ke.N_total_tiles;
@@ -466,12 +504,11 @@ static HWY_NOINLINE void DoMatMul_BRGeMM(
         const size_t total_tc = total_m_tiles * n_tiles_in_range;
         float* tc_base = tbufs.EnsureTempC(total_tc);
 
-        for (int64_t ks = 0; ks < k_iters; ++ks) {
+        for (size_t ks = 0; ks < k_iters; ++ks) {
           size_t n_idx = 0;
           for (size_t nt = n_begin; nt < n_end; ++nt) {
             const size_t n = nt * ke.N_blk;
-            for (int64_t mt = 0; mt < static_cast<int64_t>(total_m_tiles);
-                 ++mt) {
+            for (size_t mt = 0; mt < total_m_tiles; ++mt) {
               const size_t m = mt * ke.M_blk;
               float* temp_C =
                   tc_base + (mt * n_tiles_in_range + n_idx) *
@@ -485,8 +522,14 @@ static HWY_NOINLINE void DoMatMul_BRGeMM(
 
   dnnl::ukernel::brgemm::release_hw_context();
   auto& main_bufs = GetBRGeMMThreadBufs();
-  main_bufs.hw_ctx_set = false;
   main_bufs.hw_ctx_kernel = nullptr;
 }
 
 #endif  // GEMMA_ONEDNN_BRGEMM
+
+// NOLINTNEXTLINE(google-readability-namespace-comments)
+}  // namespace HWY_NAMESPACE
+}  // namespace gcpp
+HWY_AFTER_NAMESPACE();
+
+#endif  // NOLINT