Implement PackDepthwiseConvMatrix in NEON + deprecate aarch64 compat layers (#5779)

Nicoshev · meta-codesync[bot] · commit bad96b5f1394 · 2026-05-29T11:59:37.000-07:00
Summary: X-link: https://github.com/facebookresearch/FBGEMM/pull/2709 Pull Request resolved: #5779 Add a NEON-based aarch64 implementation of the `PackedDepthWiseConvMatrix` constructor in `PackDepthwiseConvMatrix.cc`, alongside the existing AVX2 x86 implementation. The constructor packs depthwise convolution weight matrices into a SIMD-friendly interleaved layout. Rename depthwise-convolution related files, as NEON and AVX2 implementations already co-exist Remove compilation of avx2 source files for aarch64 targets and remove usage of aarch64 compat layers Reviewed By: q10, YifanYuan3 Differential Revision: D106137964
diff --git a/bench/Depthwise3DBenchmark.cc b/bench/Depthwise3DBenchmark.cc
@@ -19,7 +19,7 @@
 
 #include "./AlignedVec.h"
 #include "./BenchUtils.h"
-#include "fbgemm/FbgemmI8DepthwiseAvx2.h"
+#include "fbgemm/FbgemmI8Depthwise.h"
 #include "fbgemm/Utils.h"
 #include "src/RefImplementations.h" // @manual
 
diff --git a/bench/DepthwiseBenchmark.cc b/bench/DepthwiseBenchmark.cc
@@ -20,7 +20,7 @@
 
 #include "./AlignedVec.h"
 #include "./BenchUtils.h"
-#include "fbgemm/FbgemmI8DepthwiseAvx2.h"
+#include "fbgemm/FbgemmI8Depthwise.h"
 #include "fbgemm/Utils.h"
 #include "src/RefImplementations.h" // @manual
 
diff --git a/defs.bzl b/defs.bzl
@@ -106,7 +106,7 @@ def get_fbgemm_public_headers():
         "include/fbgemm/FbgemmFP32.h",
         "include/fbgemm/FbgemmFPCommon.h",
         "include/fbgemm/FbgemmI64.h",
-        "include/fbgemm/FbgemmI8DepthwiseAvx2.h",
+        "include/fbgemm/FbgemmI8Depthwise.h",
         "include/fbgemm/FbgemmI8DirectconvAvx2.h",
         "include/fbgemm/FbgemmI8Spmdm.h",
         "include/fbgemm/FbgemmPackMatrixB.h",
@@ -132,9 +132,9 @@ def get_fbgemm_avx2_srcs(buck = False):
     # downstream targets pull in both fbgemm_avx2 and fbgemm_sve (the
     # latter is selected by the main fbgemm target on arm64).
     depthwise_srcs = [
-        "src/FbgemmI8Depthwise3DAvx2.cc",
-        "src/FbgemmI8DepthwiseAvx2.cc",
-        "src/PackDepthwiseConvMatrixAvx2.cc",
+        "src/FbgemmI8Depthwise3D.cc",
+        "src/FbgemmI8Depthwise.cc",
+        "src/PackDepthwiseConvMatrix.cc",
     ]
 
     common_srcs = [
@@ -211,6 +211,9 @@ def get_fbgemm_inline_sve_srcs(msvc = False, buck = False):
         "src/FbgemmFP16UKernelsSve128.cc",
         "src/UtilsSve.cc",
         "src/FbgemmFloat16ConvertSVE.cc",
+        "src/PackDepthwiseConvMatrix.cc",
+        "src/FbgemmI8Depthwise3D.cc",
+        "src/FbgemmI8Depthwise.cc",
     ]
 
     if buck:
diff --git a/include/fbgemm/Fbgemm.h b/include/fbgemm/Fbgemm.h
@@ -17,7 +17,7 @@
 #include "./ConvUtils.h" // @manual
 #include "./FbgemmBuild.h" // @manual
 #include "./FbgemmEmbedding.h" // @manual
-#include "./FbgemmI8DepthwiseAvx2.h" // @manual
+#include "./FbgemmI8Depthwise.h" // @manual
 #include "./FbgemmI8DirectconvAvx2.h" // @manual
 #include "./FbgemmI8Spmdm.h" // @manual
 #include "./FloatConversion.h" // @manual
diff --git a/include/fbgemm/FbgemmI8Depthwise.h b/include/fbgemm/FbgemmI8Depthwise.h
diff --git a/src/FbgemmI8Depthwise.cc b/src/FbgemmI8Depthwise.cc
@@ -7,12 +7,12 @@
  */
 
 #define FBGEMM_EXPORTS
-#include "fbgemm/FbgemmI8DepthwiseAvx2.h"
+#include "fbgemm/FbgemmI8Depthwise.h"
 
 #include <stdexcept> // for logic_error
 #include <string>
 
-#include "./FbgemmI8Depthwise2DAvx2-inl.h" // @manual
+#include "./FbgemmI8Depthwise2D-inl.h" // @manual
 
 using namespace std;
 
diff --git a/src/FbgemmI8Depthwise2D-inl.h b/src/FbgemmI8Depthwise2D-inl.h
diff --git a/src/FbgemmI8Depthwise3D.cc b/src/FbgemmI8Depthwise3D.cc
@@ -7,7 +7,7 @@
  */
 
 #define FBGEMM_EXPORTS
-#include "fbgemm/FbgemmI8DepthwiseAvx2.h"
+#include "fbgemm/FbgemmI8Depthwise.h"
 
 #include <stdexcept> // for logic_error
 #include <string>
diff --git a/src/FbgemmI8DepthwisePerChannelQuantAvx2.cc b/src/FbgemmI8DepthwisePerChannelQuantAvx2.cc
@@ -7,9 +7,9 @@
  */
 
 #define FBGEMM_EXPORTS
-#include "fbgemm/FbgemmI8DepthwiseAvx2.h"
+#include "fbgemm/FbgemmI8Depthwise.h"
 
-#include "./FbgemmI8Depthwise2DAvx2-inl.h" // @manual
+#include "./FbgemmI8Depthwise2D-inl.h" // @manual
 
 namespace fbgemm {
 
diff --git a/src/PackDepthwiseConvMatrix.cc b/src/PackDepthwiseConvMatrix.cc
@@ -7,18 +7,24 @@
  */
 
 #define FBGEMM_EXPORTS
-#include "fbgemm/FbgemmI8DepthwiseAvx2.h"
+#include "fbgemm/FbgemmI8Depthwise.h"
 
 #if defined(__x86_64__) || defined(__i386__) || \
     (defined(_MSC_VER) && (defined(_M_X64) || defined(_M_IX86)))
 #include <immintrin.h>
+#include "./MaskAvx2.h" // @manual
+#elif defined(__aarch64__)
+#include <arm_neon.h>
+#include <cstring>
 #endif
 
-#include "./MaskAvx2.h" // @manual
 #include "fbgemm/UtilsAvx2.h"
 
 namespace fbgemm {
 
+#if defined(__x86_64__) || defined(__i386__) || \
+    (defined(_MSC_VER) && (defined(_M_X64) || defined(_M_IX86)))
+
 PackedDepthWiseConvMatrix::PackedDepthWiseConvMatrix(
     int OC,
     int kernel_prod,
@@ -159,6 +165,114 @@ PackedDepthWiseConvMatrix::PackedDepthWiseConvMatrix(
   }
 }
 
+#elif defined(__aarch64__)
+
+namespace {
+struct neon_256i {
+  int8x16_t lo, hi;
+};
+} // namespace
+
+PackedDepthWiseConvMatrix::PackedDepthWiseConvMatrix(
+    int OC,
+    int kernel_prod,
+    const int8_t* smat)
+    : OC_(OC), kernel_prod_(kernel_prod) {
+  auto smat_transposed_owner =
+      makeAlignedUniquePtr<int8_t>(64, OC * kernel_prod);
+  int8_t* smat_transposed = smat_transposed_owner.get();
+  for (int i = 0; i < kernel_prod; ++i) {
+    for (int j = 0; j < OC; ++j) {
+      smat_transposed[i * OC + j] = smat[i + j * kernel_prod];
+    }
+  }
+
+  int kernel_prod_aligned = (kernel_prod + 1) / 2 * 2;
+  pmat_ = static_cast<int8_t*>(fbgemmAlignedAlloc(
+      64, ((OC + 31) / 32) * kernel_prod_aligned * 32 * sizeof(int8_t)));
+
+  auto b_v_owner = makeAlignedUniquePtr<neon_256i>(64, kernel_prod);
+  auto b_v = b_v_owner.get();
+  auto b_interleaved_epi16_owner =
+      makeAlignedUniquePtr<neon_256i>(64, kernel_prod_aligned);
+  auto b_interleaved_epi16 = b_interleaved_epi16_owner.get();
+  auto b_interleaved_epi32_owner =
+      makeAlignedUniquePtr<neon_256i>(64, kernel_prod_aligned);
+  auto b_interleaved_epi32 = b_interleaved_epi32_owner.get();
+
+  for (int k1 = 0; k1 < OC; k1 += 32) {
+    int remainder = OC - k1;
+    if (remainder < 32) {
+      for (int i = 0; i < kernel_prod; ++i) {
+        alignas(16) int8_t tmp[32] = {};
+        int valid_bytes = (remainder / 4) * 4;
+        memcpy(tmp, smat_transposed + i * OC + k1, valid_bytes);
+        b_v[i].lo = vld1q_s8(tmp);
+        b_v[i].hi = vld1q_s8(tmp + 16);
+      }
+    } else {
+      for (int i = 0; i < kernel_prod; ++i) {
+        const int8_t* src = smat_transposed + i * OC + k1;
+        b_v[i].lo = vld1q_s8(src);
+        b_v[i].hi = vld1q_s8(src + 16);
+      }
+    }
+
+    neon_256i zero_v;
+    zero_v.lo = vdupq_n_s8(0);
+    zero_v.hi = vdupq_n_s8(0);
+    for (int i = 0; i < kernel_prod_aligned / 2; ++i) {
+      neon_256i a = b_v[2 * i];
+      neon_256i b_val = (2 * i + 1 >= kernel_prod) ? zero_v : b_v[2 * i + 1];
+      b_interleaved_epi16[2 * i].lo = vzip1q_s8(a.lo, b_val.lo);
+      b_interleaved_epi16[2 * i].hi = vzip1q_s8(a.hi, b_val.hi);
+      b_interleaved_epi16[2 * i + 1].lo = vzip2q_s8(a.lo, b_val.lo);
+      b_interleaved_epi16[2 * i + 1].hi = vzip2q_s8(a.hi, b_val.hi);
+    }
+
+    for (int i = 0; i < kernel_prod_aligned / 4; ++i) {
+      int16x8_t a_lo = vreinterpretq_s16_s8(b_interleaved_epi16[4 * i].lo);
+      int16x8_t a_hi = vreinterpretq_s16_s8(b_interleaved_epi16[4 * i].hi);
+      int16x8_t c_lo = vreinterpretq_s16_s8(b_interleaved_epi16[4 * i + 2].lo);
+      int16x8_t c_hi = vreinterpretq_s16_s8(b_interleaved_epi16[4 * i + 2].hi);
+
+      b_interleaved_epi32[4 * i].lo =
+          vreinterpretq_s8_s16(vzip1q_s16(a_lo, c_lo));
+      b_interleaved_epi32[4 * i].hi =
+          vreinterpretq_s8_s16(vzip1q_s16(a_hi, c_hi));
+      b_interleaved_epi32[4 * i + 1].lo =
+          vreinterpretq_s8_s16(vzip2q_s16(a_lo, c_lo));
+      b_interleaved_epi32[4 * i + 1].hi =
+          vreinterpretq_s8_s16(vzip2q_s16(a_hi, c_hi));
+
+      int16x8_t b_lo = vreinterpretq_s16_s8(b_interleaved_epi16[4 * i + 1].lo);
+      int16x8_t b_hi = vreinterpretq_s16_s8(b_interleaved_epi16[4 * i + 1].hi);
+      int16x8_t d_lo = vreinterpretq_s16_s8(b_interleaved_epi16[4 * i + 3].lo);
+      int16x8_t d_hi = vreinterpretq_s16_s8(b_interleaved_epi16[4 * i + 3].hi);
+
+      b_interleaved_epi32[4 * i + 2].lo =
+          vreinterpretq_s8_s16(vzip1q_s16(b_lo, d_lo));
+      b_interleaved_epi32[4 * i + 2].hi =
+          vreinterpretq_s8_s16(vzip1q_s16(b_hi, d_hi));
+      b_interleaved_epi32[4 * i + 3].lo =
+          vreinterpretq_s8_s16(vzip2q_s16(b_lo, d_lo));
+      b_interleaved_epi32[4 * i + 3].hi =
+          vreinterpretq_s8_s16(vzip2q_s16(b_hi, d_hi));
+    }
+    for (int i = kernel_prod_aligned / 4 * 4; i < kernel_prod_aligned; ++i) {
+      b_interleaved_epi32[i] = b_interleaved_epi16[i];
+    }
+
+    for (int i = 0; i < kernel_prod_aligned; ++i) {
+      int8_t* dst = &pmat_[((k1 / 32) * kernel_prod_aligned + i) * 32];
+      vst1q_s8(dst, b_interleaved_epi32[i].lo);
+      vst1q_s8(dst + 16, b_interleaved_epi32[i].hi);
+    }
+  }
+}
+
+#endif
+
 int PackedDepthWiseConvMatrix::addr(int r, int c) {
   int kernel_prod_aligned = (kernel_prod_ + 1) / 2 * 2;
   if (c >= kernel_prod_ / 4 * 4 &&
diff --git a/test/I8DepthwiseTest.cc b/test/I8DepthwiseTest.cc
@@ -14,7 +14,7 @@
 #include "./TestUtils.h"
 #include "bench/AlignedVec.h" // @manual
 #include "bench/BenchUtils.h" // @manual
-#include "fbgemm/FbgemmI8DepthwiseAvx2.h"
+#include "fbgemm/FbgemmI8Depthwise.h"
 #include "src/FbgemmI8DepthwiseUtils.h"
 #include "src/RefImplementations.h" // @manual
 
diff --git a/test/I8DirectconvTest.cc b/test/I8DirectconvTest.cc
@@ -15,7 +15,7 @@
 #include "bench/AlignedVec.h" // @manual
 #include "bench/BenchUtils.h" // @manual
 #include "fbgemm/Fbgemm.h"
-#include "fbgemm/FbgemmI8DepthwiseAvx2.h"
+#include "fbgemm/FbgemmI8Depthwise.h"
 #include "src/DirectConv.h"
 #include "src/OptimizedKernelsAvx2.h"
 #include "src/RefImplementations.h" // @manual