zilliztech
diff --git a/‎CMakeLists.txt‎
Lines changed: 6 additions & 1 deletion b/‎CMakeLists.txt‎
Lines changed: 6 additions & 1 deletion
diff --git a/‎src/index/sparse/block_inverted_index.h‎
Lines changed: 1 addition & 0 deletions b/‎src/index/sparse/block_inverted_index.h‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/index/sparse/flatten_inverted_index.h‎
Lines changed: 1 addition & 0 deletions b/‎src/index/sparse/flatten_inverted_index.h‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/index/sparse/inverted_index.h‎
Lines changed: 3 additions & 0 deletions b/‎src/index/sparse/inverted_index.h‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎src/index/sparse/sindi_inverted_index.h‎
Lines changed: 1002 additions & 0 deletions b/‎src/index/sparse/sindi_inverted_index.h‎
Lines changed: 1002 additions & 0 deletions
diff --git a/‎src/index/sparse/sindi_simd.cc‎
Lines changed: 107 additions & 0 deletions b/‎src/index/sparse/sindi_simd.cc‎
Lines changed: 107 additions & 0 deletions
diff --git a/‎src/index/sparse/sindi_simd.h‎
Lines changed: 80 additions & 0 deletions b/‎src/index/sparse/sindi_simd.h‎
Lines changed: 80 additions & 0 deletions
diff --git a/‎src/index/sparse/sindi_simd_avx2.cc‎
Lines changed: 142 additions & 0 deletions b/‎src/index/sparse/sindi_simd_avx2.cc‎
Lines changed: 142 additions & 0 deletions
@@ -205,7 +205,12 @@ if(CMAKE_SYSTEM_PROCESSOR MATCHES "(x86_64|amd64)")
         src/index/sparse/codec/streamvbyte_0124_decode.c
         src/index/sparse/codec/streamvbyte_0124_encode.c
         PROPERTIES COMPILE_FLAGS "-msse4.1")
-
+    set_source_files_properties(
+        src/index/sparse/sindi_simd_avx2.cc
+        PROPERTIES COMPILE_FLAGS "-mavx2 -mfma -mf16c")
+    set_source_files_properties(
+        src/index/sparse/sindi_simd_avx512.cc
+        PROPERTIES COMPILE_FLAGS "-mavx512f -mavx512bw -mavx512vl -mavx512dq -mavx512cd -mavx2 -mfma -mf16c")
 endif()
 
 knowhere_file_glob(GLOB_RECURSE KNOWHERE_GPU_SRCS src/index/gpu/flat_gpu/*.cc
 
@@ -851,6 +851,7 @@ BlockInvertedIndex<DType, QType, MetricType>::serialize(MemoryIOWriter& writer)
     //    - nr_sections (uint32_t): Number of sections
     //    - section_headers[nr_sections]: Array of section headers, each containing:
     //      - type (InvertedIndexSectionType): Type of the section
+    //      - padding (uint32_t): Padding to align the section header to 8 bytes
     //      - offset (uint64_t): Offset of the section from the beginning of the file
     //      - size (uint64_t): Size of the section in bytes
     //
 
@@ -565,6 +565,7 @@ FlattenInvertedIndex<DType, QType>::serialize(MemoryIOWriter& writer) const {
     //    - nr_sections (uint32_t): Number of sections
     //    - section_headers[nr_sections]: Array of section headers, each containing:
     //      - type (InvertedIndexSectionType): Type of the section
+    //      - padding (uint32_t): Padding to align the section header to 8 bytes
     //      - offset (uint64_t): Offset of the section from the beginning of the file
     //      - size (uint64_t): Size of the section in bytes
     //
 
@@ -31,6 +31,7 @@ enum class InvertedIndexAlgo : uint32_t {
     DAAT_WAND = 2,
     BLOCK_MAX_MAXSCORE = 3,
     BLOCK_MAX_WAND = 4,
+    SINDI = 5,
 };
 
 enum class InvertedIndexEncoding : uint32_t {
@@ -247,6 +248,8 @@ class InvertedIndex {
                 LOG_KNOWHERE_WARNING_ << "No block size provided, using default block size 128";
                 meta_data_.block_max_data_.block_size_ = 128;
             }
+        } else if (build_algo == "SINDI") {
+            build_algo_ = InvertedIndexAlgo::SINDI;
         } else {
             build_algo_ = InvertedIndexAlgo::TAAT_NAIVE;
         }
 
@@ -0,0 +1,107 @@
+#include "index/sparse/sindi_simd.h"
+
+#include "simd/hook.h"
+
+namespace knowhere::sparse::inverted::sindi {
+
+void
+ip_scatter_scalar_fp16(float qval, const knowhere::fp16* vals, const uint16_t* ids, int32_t num, float* out) {
+    for (int32_t i = 0; i < num; ++i) {
+        out[ids[i]] += qval * static_cast<float>(vals[i]);
+    }
+}
+
+void
+bm25_scatter_scalar_u16(float qval, const uint16_t* vals, const uint16_t* ids, int32_t num, float* out, float k1,
+                        float b, float avgdl, const float* row_sums) {
+    const float p1 = k1 + 1.0f;
+    const float p2 = k1 * (1.0f - b);
+    const float p3 = k1 * b / avgdl;
+
+    for (int32_t i = 0; i < num; ++i) {
+        float tf = static_cast<float>(vals[i]);
+        uint16_t docid = ids[i];
+        float dl = row_sums[docid];
+        float bm25_score = qval * p1 * tf / (tf + p2 + p3 * dl);
+        out[docid] += bm25_score;
+    }
+}
+
+void
+batch_insert_scalar(const float* scores, size_t docid_start, size_t count,
+                    knowhere::ResultMinHeap<float, uint32_t>& topk_q, float& threshold, const BitsetView& bitset) {
+    for (size_t i = 0; i < count; ++i) {
+        float s = scores[i];
+        if (s <= threshold) {
+            continue;
+        }
+        if (!bitset.empty() && bitset.test(static_cast<int64_t>(docid_start + i))) {
+            continue;
+        }
+        if (topk_q.Push(s, static_cast<uint32_t>(docid_start + i))) {
+            if (topk_q.Full()) {
+                threshold = topk_q.Threshold();
+            }
+        }
+    }
+}
+
+const IPKernels&
+get_ip_kernels() {
+    static const IPKernels kernels = []() {
+        IPKernels k{};
+#if defined(__x86_64__)
+        if (faiss::cppcontrib::knowhere::cpu_support_avx512()) {
+            k.accumulate = ip_scatter_avx512_fp16;
+            k.batch_insert = batch_insert_avx512;
+            return k;
+        }
+        if (faiss::cppcontrib::knowhere::cpu_support_avx2()) {
+            k.accumulate = ip_scatter_avx2_fp16;
+            k.batch_insert = batch_insert_avx2;
+            return k;
+        }
+#elif defined(__aarch64__) && defined(__ARM_FEATURE_SVE)
+        if (faiss::cppcontrib::knowhere::supports_sve()) {
+            k.accumulate = ip_scatter_sve_fp16;
+            k.batch_insert = batch_insert_sve;
+            return k;
+        }
+#endif
+        k.accumulate = ip_scatter_scalar_fp16;
+        k.batch_insert = batch_insert_scalar;
+        return k;
+    }();
+    return kernels;
+}
+
+const BM25Kernels&
+get_bm25_kernels() {
+    static const BM25Kernels kernels = []() {
+        BM25Kernels k{};
+#if defined(__x86_64__)
+        if (faiss::cppcontrib::knowhere::cpu_support_avx512()) {
+            k.accumulate = bm25_scatter_avx512_u16;
+            k.batch_insert = batch_insert_avx512;
+            return k;
+        }
+        if (faiss::cppcontrib::knowhere::cpu_support_avx2()) {
+            k.accumulate = bm25_scatter_avx2_u16;
+            k.batch_insert = batch_insert_avx2;
+            return k;
+        }
+#elif defined(__aarch64__) && defined(__ARM_FEATURE_SVE)
+        if (faiss::cppcontrib::knowhere::supports_sve()) {
+            k.accumulate = bm25_scatter_sve_u16;
+            k.batch_insert = batch_insert_sve;
+            return k;
+        }
+#endif
+        k.accumulate = bm25_scatter_scalar_u16;
+        k.batch_insert = batch_insert_scalar;
+        return k;
+    }();
+    return kernels;
+}
+
+}  // namespace knowhere::sparse::inverted::sindi
@@ -0,0 +1,80 @@
+#pragma once
+
+#include <cstdint>
+
+#include "knowhere/bitsetview.h"
+#include "knowhere/heap.h"
+#include "knowhere/operands.h"
+
+namespace knowhere::sparse::inverted::sindi {
+
+using ip_accumulate_fn_t = void (*)(float qval, const knowhere::fp16* vals, const uint16_t* ids, int32_t num,
+                                    float* out);
+
+using bm25_accumulate_fn_t = void (*)(float qval, const uint16_t* tf_vals, const uint16_t* ids, int32_t num, float* out,
+                                      float k1, float b, float avgdl, const float* row_sums);
+
+using batch_insert_fn_t = void (*)(const float* scores, size_t docid_start, size_t count,
+                                   knowhere::ResultMinHeap<float, uint32_t>& topk_q, float& threshold,
+                                   const BitsetView& bitset);
+
+struct IPKernels {
+    ip_accumulate_fn_t accumulate;
+    batch_insert_fn_t batch_insert;
+};
+
+struct BM25Kernels {
+    bm25_accumulate_fn_t accumulate;
+    batch_insert_fn_t batch_insert;
+};
+
+const IPKernels&
+get_ip_kernels();
+const BM25Kernels&
+get_bm25_kernels();
+
+// Scalar implementations (always available)
+void
+ip_scatter_scalar_fp16(float qval, const knowhere::fp16* vals, const uint16_t* ids, int32_t num, float* out);
+void
+bm25_scatter_scalar_u16(float qval, const uint16_t* vals, const uint16_t* ids, int32_t num, float* out, float k1,
+                        float b, float avgdl, const float* row_sums);
+void
+batch_insert_scalar(const float* scores, size_t docid_start, size_t count,
+                    knowhere::ResultMinHeap<float, uint32_t>& topk_q, float& threshold, const BitsetView& bitset);
+
+#if defined(__x86_64__)
+// AVX2 implementations (compiled separately with -mavx2)
+void
+ip_scatter_avx2_fp16(float qval, const knowhere::fp16* vals, const uint16_t* ids, int32_t num, float* out);
+void
+bm25_scatter_avx2_u16(float qval, const uint16_t* vals, const uint16_t* ids, int32_t num, float* out, float k1, float b,
+                      float avgdl, const float* row_sums);
+void
+batch_insert_avx2(const float* scores, size_t docid_start, size_t count,
+                  knowhere::ResultMinHeap<float, uint32_t>& topk_q, float& threshold, const BitsetView& bitset);
+
+// AVX512 implementations (compiled separately with -mavx512f)
+void
+ip_scatter_avx512_fp16(float qval, const knowhere::fp16* vals, const uint16_t* ids, int32_t num, float* out);
+void
+bm25_scatter_avx512_u16(float qval, const uint16_t* vals, const uint16_t* ids, int32_t num, float* out, float k1,
+                        float b, float avgdl, const float* row_sums);
+void
+batch_insert_avx512(const float* scores, size_t docid_start, size_t count,
+                    knowhere::ResultMinHeap<float, uint32_t>& topk_q, float& threshold, const BitsetView& bitset);
+#endif
+
+#if defined(__aarch64__) && defined(__ARM_FEATURE_SVE)
+// SVE implementations (compiled with SVE support)
+void
+ip_scatter_sve_fp16(float qval, const knowhere::fp16* vals, const uint16_t* ids, int32_t num, float* out);
+void
+bm25_scatter_sve_u16(float qval, const uint16_t* vals, const uint16_t* ids, int32_t num, float* out, float k1, float b,
+                     float avgdl, const float* row_sums);
+void
+batch_insert_sve(const float* scores, size_t docid_start, size_t count,
+                 knowhere::ResultMinHeap<float, uint32_t>& topk_q, float& threshold, const BitsetView& bitset);
+#endif
+
+}  // namespace knowhere::sparse::inverted::sindi
@@ -0,0 +1,142 @@
+#include "index/sparse/sindi_simd.h"
+
+#if defined(__x86_64__)
+#include <immintrin.h>
+
+namespace knowhere::sparse::inverted::sindi {
+
+void
+ip_scatter_avx2_fp16(float qval, const knowhere::fp16* vals, const uint16_t* ids, int32_t num, float* out) {
+    int32_t i = 0;
+    const __m256 vq = _mm256_set1_ps(qval);
+    for (; i + 8 <= num; i += 8) {
+        const uint16_t* hptr = reinterpret_cast<const uint16_t*>(vals + i);
+        __m128i h = _mm_loadu_si128(reinterpret_cast<const __m128i*>(hptr));
+        __m256 v_vals = _mm256_cvtph_ps(h);
+        __m256 v_mul = _mm256_mul_ps(v_vals, vq);
+
+        __m128i idx16 = _mm_loadu_si128(reinterpret_cast<const __m128i*>(ids + i));
+        __m256i v_idx = _mm256_cvtepu16_epi32(idx16);
+        __m256 v_old = _mm256_i32gather_ps(out, v_idx, 4);
+        __m256 v_sum = _mm256_add_ps(v_old, v_mul);
+
+        alignas(32) uint32_t tmp_idx[8];
+        alignas(32) float tmp_sum[8];
+        _mm256_store_si256(reinterpret_cast<__m256i*>(tmp_idx), v_idx);
+        _mm256_store_ps(tmp_sum, v_sum);
+        out[tmp_idx[0]] = tmp_sum[0];
+        out[tmp_idx[1]] = tmp_sum[1];
+        out[tmp_idx[2]] = tmp_sum[2];
+        out[tmp_idx[3]] = tmp_sum[3];
+        out[tmp_idx[4]] = tmp_sum[4];
+        out[tmp_idx[5]] = tmp_sum[5];
+        out[tmp_idx[6]] = tmp_sum[6];
+        out[tmp_idx[7]] = tmp_sum[7];
+    }
+    for (; i < num; ++i) {
+        out[ids[i]] += qval * static_cast<float>(vals[i]);
+    }
+}
+
+void
+bm25_scatter_avx2_u16(float qval, const uint16_t* vals, const uint16_t* ids, int32_t num, float* out, float k1, float b,
+                      float avgdl, const float* row_sums) {
+    const float p1 = k1 + 1.0f;
+    const float p2 = k1 * (1.0f - b);
+    const float p3 = k1 * b / avgdl;
+
+    int32_t i = 0;
+    const __m256 vqval = _mm256_set1_ps(qval);
+    const __m256 vp1 = _mm256_set1_ps(p1);
+    const __m256 vp2 = _mm256_set1_ps(p2);
+    const __m256 vp3 = _mm256_set1_ps(p3);
+
+    for (; i + 8 <= num; i += 8) {
+        const uint16_t* hptr = vals + i;
+        __m128i h = _mm_loadu_si128(reinterpret_cast<const __m128i*>(hptr));
+        __m256i w = _mm256_cvtepu16_epi32(h);
+        __m256 tf_vec = _mm256_cvtepi32_ps(w);
+
+        __m128i idx16 = _mm_loadu_si128(reinterpret_cast<const __m128i*>(ids + i));
+        __m256i v_idx = _mm256_cvtepu16_epi32(idx16);
+        __m256 dl_vec = _mm256_i32gather_ps(row_sums, v_idx, 4);
+
+        __m256 numerator = _mm256_mul_ps(tf_vec, vp1);
+        numerator = _mm256_mul_ps(numerator, vqval);
+
+        __m256 denominator = _mm256_fmadd_ps(dl_vec, vp3, vp2);
+        denominator = _mm256_add_ps(tf_vec, denominator);
+
+        __m256 bm25_vec = _mm256_div_ps(numerator, denominator);
+
+        __m256 v_old = _mm256_i32gather_ps(out, v_idx, 4);
+        __m256 v_sum = _mm256_add_ps(v_old, bm25_vec);
+
+        alignas(32) uint32_t tmp_idx[8];
+        alignas(32) float tmp_sum[8];
+        _mm256_store_si256(reinterpret_cast<__m256i*>(tmp_idx), v_idx);
+        _mm256_store_ps(tmp_sum, v_sum);
+        out[tmp_idx[0]] = tmp_sum[0];
+        out[tmp_idx[1]] = tmp_sum[1];
+        out[tmp_idx[2]] = tmp_sum[2];
+        out[tmp_idx[3]] = tmp_sum[3];
+        out[tmp_idx[4]] = tmp_sum[4];
+        out[tmp_idx[5]] = tmp_sum[5];
+        out[tmp_idx[6]] = tmp_sum[6];
+        out[tmp_idx[7]] = tmp_sum[7];
+    }
+
+    for (; i < num; ++i) {
+        float tf = static_cast<float>(vals[i]);
+        uint16_t docid = ids[i];
+        float dl = row_sums[docid];
+        float bm25_score = qval * p1 * tf / (tf + p2 + p3 * dl);
+        out[docid] += bm25_score;
+    }
+}
+
+void
+batch_insert_avx2(const float* scores, size_t docid_start, size_t count,
+                  knowhere::ResultMinHeap<float, uint32_t>& topk_q, float& threshold, const BitsetView& bitset) {
+    size_t i = 0;
+    __m256 vthr = _mm256_set1_ps(threshold);
+    for (; i + 8 <= count; i += 8) {
+        _mm_prefetch(reinterpret_cast<const char*>(scores + i + 32), _MM_HINT_T0);
+        __m256 v = _mm256_loadu_ps(scores + i);
+        __m256 cmp = _mm256_cmp_ps(v, vthr, _CMP_GT_OQ);
+        int mm = _mm256_movemask_ps(cmp);
+        while (mm != 0) {
+            unsigned bit = __builtin_ctz(static_cast<unsigned>(mm));
+            mm &= (mm - 1);
+            size_t idx = i + bit;
+            if (!bitset.empty() && bitset.test(static_cast<int64_t>(docid_start + idx))) {
+                continue;
+            }
+            float s = scores[idx];
+            if (topk_q.Push(s, static_cast<uint32_t>(docid_start + idx))) {
+                if (topk_q.Full()) {
+                    threshold = topk_q.Threshold();
+                    vthr = _mm256_set1_ps(threshold);
+                }
+            }
+        }
+    }
+    for (; i < count; ++i) {
+        float s = scores[i];
+        if (s <= threshold) {
+            continue;
+        }
+        if (!bitset.empty() && bitset.test(static_cast<int64_t>(docid_start + i))) {
+            continue;
+        }
+        if (topk_q.Push(s, static_cast<uint32_t>(docid_start + i))) {
+            if (topk_q.Full()) {
+                threshold = topk_q.Threshold();
+            }
+        }
+    }
+}
+
+}  // namespace knowhere::sparse::inverted::sindi
+
+#endif  // __x86_64__