sergcpp
diff --git a/‎internal/SmallVector.h‎
Lines changed: 11 additions & 18 deletions b/‎internal/SmallVector.h‎
Lines changed: 11 additions & 18 deletions
diff --git a/‎internal/simd/simd.h‎
Lines changed: 34 additions & 28 deletions b/‎internal/simd/simd.h‎
Lines changed: 34 additions & 28 deletions
diff --git a/‎internal/simd/simd_avx.h‎
Lines changed: 63 additions & 3 deletions b/‎internal/simd/simd_avx.h‎
Lines changed: 63 additions & 3 deletions
@@ -21,7 +21,7 @@ template <typename T, typename Allocator = aligned_allocator<T, alignof(T)>> cla
     static const uint32_t OwnerBit = (1u << (8u * sizeof(uint32_t) - 1u));
     static const uint32_t CapacityMask = ~OwnerBit;
 
-    protected:
+  protected:
     SmallVectorImpl(T *begin, T *end, const uint32_t capacity, const Allocator &alloc)
         : Allocator(alloc), begin_(begin), size_(uint32_t(end - begin)), capacity_(capacity) {}
 
@@ -47,7 +47,7 @@ template <typename T, typename Allocator = aligned_allocator<T, alignof(T)>> cla
         reserve(new_capacity);
     }
 
-    public:
+  public:
     using iterator = T *;
     using const_iterator = const T *;
 
@@ -68,16 +68,11 @@ template <typename T, typename Allocator = aligned_allocator<T, alignof(T)>> cla
             capacity_ = 0;
         }
 
-        reserve(rhs.capacity_ & CapacityMask);
+        reserve(rhs.size_);
 
-        size_ = rhs.size_;
-
-        if (rhs.size_) {
-            T *src = rhs.begin_ + rhs.size_ - 1;
-            T *dst = begin_ + size_ - 1;
-            do {
-                new (dst--) T(*src--);
-            } while (src >= rhs.begin_);
+        while (size_ < rhs.size_) {
+            new (begin_ + size_) T(*(rhs.begin_ + size_));
+            ++size_;
         }
 
         return (*this);
@@ -102,14 +97,12 @@ template <typename T, typename Allocator = aligned_allocator<T, alignof(T)>> cla
             size_ = std::exchange(rhs.size_, 0);
             capacity_ = std::exchange(rhs.capacity_, 0);
         } else {
-            reserve(rhs.capacity_ & CapacityMask);
-
-            size_ = rhs.size_;
+            reserve(rhs.size_);
 
-            T *dst = begin_ + size_ - 1;
             while (rhs.size_) {
-                new (dst--) T(std::move(*(rhs.begin_ + --rhs.size_)));
-                (rhs.begin_ + rhs.size_)->~T();
+                new (begin_ + size_) T(std::move(*(rhs.begin_ + size_)));
+                ++size_;
+                --rhs.size_;
             }
         }
 
@@ -378,7 +371,7 @@ template <typename T, int N, int AlignmentOfT = alignof(T), typename Allocator =
 class SmallVector : public SmallVectorImpl<T, Allocator> {
     alignas(AlignmentOfT) char buffer_[sizeof(T) * N];
 
-    public:
+  public:
     SmallVector(const Allocator &alloc = Allocator()) // NOLINT
         : SmallVectorImpl<T, Allocator>((T *)buffer_, (T *)buffer_, N, alloc) {}
     explicit SmallVector(const uint32_t size, const T &val = T(), const Allocator &alloc = Allocator()) // NOLINT
 
@@ -110,6 +110,14 @@
 
 namespace Ray {
 namespace NS {
+template <typename T> struct same_size_uint {
+    using type =
+        std::conditional_t<sizeof(T) == 1, uint8_t,
+                           std::conditional_t<sizeof(T) == 2, uint16_t,
+                                              std::conditional_t<sizeof(T) == 4, uint32_t,
+                                                                 std::conditional_t<sizeof(T) == 8, uint64_t,
+                                                                                    void>>>>; // void as "not found"
+};
 
 enum vector_aligned_tag { vector_aligned };
 
@@ -162,19 +170,20 @@ template <typename T, int S> class fixed_size_simd {
     }
 
     fixed_size_simd<T, S> &operator|=(const fixed_size_simd<T, S> &rhs) {
-        const auto *src2 = reinterpret_cast<const uint8_t *>(&rhs.comp_[0]);
-
-        auto *dst = reinterpret_cast<uint8_t *>(&comp_[0]);
-
-        for (int i = 0; i < S * sizeof(T); i++) {
+        const auto *src2 = reinterpret_cast<const typename same_size_uint<T>::type *>(&rhs.comp_[0]);
+        auto *dst = reinterpret_cast<typename same_size_uint<T>::type *>(&comp_[0]);
+        for (int i = 0; i < S; i++) {
             dst[i] |= src2[i];
         }
-
         return *this;
     }
 
     fixed_size_simd<T, S> &operator^=(const fixed_size_simd<T, S> &rhs) {
-        UNROLLED_FOR_S(i, S, { comp_[i] ^= rhs.comp_[i]; })
+        const auto *src2 = reinterpret_cast<const typename same_size_uint<T>::type *>(&rhs.comp_[0]);
+        auto *dst = reinterpret_cast<typename same_size_uint<T>::type *>(&comp_[0]);
+        for (int i = 0; i < S; i++) {
+            dst[i] ^= src2[i];
+        }
         return *this;
     }
 
@@ -257,15 +266,17 @@ template <typename T, int S> class fixed_size_simd {
     }
 
     fixed_size_simd<T, S> &operator&=(const fixed_size_simd<T, S> &rhs) {
-        UNROLLED_FOR_S(i, S,
-                       { reinterpret_cast<uint32_t &>(comp_[i]) &= reinterpret_cast<const uint32_t &>(rhs.comp_[i]); })
+        UNROLLED_FOR_S(i, S, {
+            reinterpret_cast<typename same_size_uint<T>::type &>(comp_[i]) &=
+                reinterpret_cast<const typename same_size_uint<T>::type &>(rhs.comp_[i]);
+        })
         return *this;
     }
 
     fixed_size_simd<T, S> operator~() const {
         fixed_size_simd<T, S> ret;
         UNROLLED_FOR_S(i, S, {
-            const uint32_t temp = ~reinterpret_cast<const uint32_t &>(comp_[i]);
+            const auto temp = ~reinterpret_cast<const typename same_size_uint<T>::type &>(comp_[i]);
             ret.comp_[i] = reinterpret_cast<const T &>(temp);
         })
         return ret;
@@ -336,15 +347,13 @@ template <typename T, int S> class fixed_size_simd {
     }
 
     bool all_zeros(const fixed_size_simd<int, S> &mask) const {
-        const auto *src1 = reinterpret_cast<const uint8_t *>(&comp_[0]);
-        const auto *src2 = reinterpret_cast<const uint8_t *>(&mask.comp_[0]);
-
-        for (int i = 0; i < S * sizeof(T); i++) {
+        const auto *src1 = reinterpret_cast<const typename same_size_uint<T>::type *>(&comp_[0]);
+        const auto *src2 = reinterpret_cast<const typename same_size_uint<T>::type *>(&mask.comp_[0]);
+        for (int i = 0; i < S; i++) {
             if ((src1[i] & src2[i]) != 0) {
                 return false;
             }
         }
-
         return true;
     }
 
@@ -397,14 +406,14 @@ template <typename T, int S> class fixed_size_simd {
     }
 
     static fixed_size_simd<T, S> and_not(const fixed_size_simd<T, S> &v1, const fixed_size_simd<T, S> &v2) {
-        const auto *src1 = reinterpret_cast<const uint8_t *>(&v1.comp_[0]);
-        const auto *src2 = reinterpret_cast<const uint8_t *>(&v2.comp_[0]);
+        const auto *src1 = reinterpret_cast<const typename same_size_uint<T>::type *>(&v1.comp_[0]);
+        const auto *src2 = reinterpret_cast<const typename same_size_uint<T>::type *>(&v2.comp_[0]);
 
         fixed_size_simd<T, S> ret;
 
-        auto *dst = reinterpret_cast<uint8_t *>(&ret.comp_[0]);
+        auto *dst = reinterpret_cast<typename same_size_uint<T>::type *>(&ret.comp_[0]);
 
-        for (int i = 0; i < S * sizeof(T); i++) {
+        for (int i = 0; i < S; i++) {
             dst[i] = (~src1[i]) & src2[i];
         }
 
@@ -413,26 +422,23 @@ template <typename T, int S> class fixed_size_simd {
 
     static fixed_size_simd<float, S> floor(const fixed_size_simd<float, S> &v1) {
         fixed_size_simd<float, S> temp;
-        UNROLLED_FOR_S(i, S, { temp.comp_[i] = float(int(v1.comp_[i]) - (v1.comp_[i] < 0.0f)); })
+        UNROLLED_FOR_S(i, S, { temp.comp_[i] = std::floor(v1.comp_[i]); })
         return temp;
     }
 
     static fixed_size_simd<float, S> ceil(const fixed_size_simd<float, S> &v1) {
         fixed_size_simd<float, S> temp;
-        UNROLLED_FOR_S(i, S, {
-            int _v = int(v1.comp_[i]);
-            temp.comp_[i] = float(_v + (v1.comp_[i] != _v));
-        })
+        UNROLLED_FOR_S(i, S, { temp.comp_[i] = std::ceil(v1.comp_[i]); })
         return temp;
     }
 
 #define DEFINE_BITS_OPERATOR(OP)                                                                                       \
     friend fixed_size_simd<T, S> operator OP(const fixed_size_simd<T, S> &v1, const fixed_size_simd<T, S> &v2) {       \
-        const auto *src1 = reinterpret_cast<const uint8_t *>(&v1.comp_[0]);                                            \
-        const auto *src2 = reinterpret_cast<const uint8_t *>(&v2.comp_[0]);                                            \
+        const auto *src1 = reinterpret_cast<const typename same_size_uint<T>::type *>(&v1.comp_[0]);                   \
+        const auto *src2 = reinterpret_cast<const typename same_size_uint<T>::type *>(&v2.comp_[0]);                   \
         fixed_size_simd<T, S> ret;                                                                                     \
-        auto *dst = reinterpret_cast<uint8_t *>(&ret.comp_[0]);                                                        \
-        for (int i = 0; i < S * sizeof(T); i++) {                                                                      \
+        auto *dst = reinterpret_cast<typename same_size_uint<T>::type *>(&ret.comp_[0]);                               \
+        for (int i = 0; i < S; i++) {                                                                                  \
             dst[i] = src1[i] OP src2[i];                                                                               \
         }                                                                                                              \
         return ret;                                                                                                    \
 
@@ -30,8 +30,8 @@
 namespace Ray {
 namespace NS {
 
-template <> force_inline __m256 _mm_cast(__m256i x) { return _mm256_castsi256_ps(x); }
-template <> force_inline __m256i _mm_cast(__m256 x) { return _mm256_castps_si256(x); }
+template <> force_inline __m256 _mm_cast(const __m256i x) { return _mm256_castsi256_ps(x); }
+template <> force_inline __m256i _mm_cast(const __m256 x) { return _mm256_castps_si256(x); }
 
 template <> class fixed_size_simd<int, 8>;
 template <> class fixed_size_simd<unsigned, 8>;
@@ -417,14 +417,22 @@ template <> class fixed_size_simd<int, 8> {
 
     force_inline void vectorcall blend_to(const fixed_size_simd<int, 8> mask, const fixed_size_simd<int, 8> v1) {
         validate_mask(mask);
+#if defined(USE_AVX2) || defined(USE_AVX512)
+        vec_ = _mm256_blendv_epi8(vec_, v1.vec_, mask.vec_);
+#else
         vec_ = _mm256_castps_si256(
             _mm256_blendv_ps(_mm256_castsi256_ps(vec_), _mm256_castsi256_ps(v1.vec_), _mm256_castsi256_ps(mask.vec_)));
+#endif
     }
 
     force_inline void vectorcall blend_inv_to(const fixed_size_simd<int, 8> mask, const fixed_size_simd<int, 8> v1) {
         validate_mask(mask);
+#if defined(USE_AVX2) || defined(USE_AVX512)
+        vec_ = _mm256_blendv_epi8(v1.vec_, vec_, mask.vec_);
+#else
         vec_ = _mm256_castps_si256(
             _mm256_blendv_ps(_mm256_castsi256_ps(v1.vec_), _mm256_castsi256_ps(vec_), _mm256_castsi256_ps(mask.vec_)));
+#endif
     }
 
     force_inline int movemask() const { return _mm256_movemask_ps(_mm256_castsi256_ps(vec_)); }
@@ -469,22 +477,38 @@ template <> class fixed_size_simd<int, 8> {
 
     force_inline static fixed_size_simd<int, 8> vectorcall and_not(const fixed_size_simd<int, 8> v1,
                                                                    const fixed_size_simd<int, 8> v2) {
+#if defined(USE_AVX2) || defined(USE_AVX512)
+        return _mm256_andnot_si256(v1.vec_, v2.vec_);
+#else
         return _mm256_castps_si256(_mm256_andnot_ps(_mm256_castsi256_ps(v1.vec_), _mm256_castsi256_ps(v2.vec_)));
+#endif
     }
 
     friend force_inline fixed_size_simd<int, 8> vectorcall operator&(const fixed_size_simd<int, 8> v1,
                                                                      const fixed_size_simd<int, 8> v2) {
+#if defined(USE_AVX2) || defined(USE_AVX512)
+        return _mm256_and_si256(v1.vec_, v2.vec_);
+#else
         return _mm256_castps_si256(_mm256_and_ps(_mm256_castsi256_ps(v1.vec_), _mm256_castsi256_ps(v2.vec_)));
+#endif
     }
 
     friend force_inline fixed_size_simd<int, 8> vectorcall operator|(const fixed_size_simd<int, 8> v1,
                                                                      const fixed_size_simd<int, 8> v2) {
+#if defined(USE_AVX2) || defined(USE_AVX512)
+        return _mm256_or_si256(v1.vec_, v2.vec_);
+#else
         return _mm256_castps_si256(_mm256_or_ps(_mm256_castsi256_ps(v1.vec_), _mm256_castsi256_ps(v2.vec_)));
+#endif
     }
 
     friend force_inline fixed_size_simd<int, 8> vectorcall operator^(const fixed_size_simd<int, 8> v1,
                                                                      const fixed_size_simd<int, 8> v2) {
+#if defined(USE_AVX2) || defined(USE_AVX512)
+        return _mm256_xor_si256(v1.vec_, v2.vec_);
+#else
         return _mm256_castps_si256(_mm256_xor_ps(_mm256_castsi256_ps(v1.vec_), _mm256_castsi256_ps(v2.vec_)));
+#endif
     }
 
     friend avx2_inline fixed_size_simd<int, 8> vectorcall operator+(const fixed_size_simd<int, 8> v1,
@@ -760,8 +784,12 @@ template <> class fixed_size_simd<unsigned, 8> {
         return operator-=(fixed_size_simd<unsigned, 8>{rhs});
     }
 
-    fixed_size_simd<unsigned, 8> &vectorcall operator*=(const fixed_size_simd<unsigned, 8> rhs) {
+    avx2_inline fixed_size_simd<unsigned, 8> &vectorcall operator*=(const fixed_size_simd<unsigned, 8> rhs) {
+#if defined(USE_AVX2) || defined(USE_AVX512)
+        vec_ = _mm256_mullo_epi32(vec_, rhs.vec_);
+#else
         UNROLLED_FOR(i, 8, { comp_[i] *= rhs.comp_[i]; })
+#endif
         return *this;
     }
 
@@ -855,15 +883,23 @@ template <> class fixed_size_simd<unsigned, 8> {
     force_inline void vectorcall blend_to(const fixed_size_simd<unsigned, 8> mask,
                                           const fixed_size_simd<unsigned, 8> v1) {
         validate_mask(mask);
+#if defined(USE_AVX2) || defined(USE_AVX512)
+        vec_ = _mm256_blendv_epi8(vec_, v1.vec_, mask.vec_);
+#else
         vec_ = _mm256_castps_si256(
             _mm256_blendv_ps(_mm256_castsi256_ps(vec_), _mm256_castsi256_ps(v1.vec_), _mm256_castsi256_ps(mask.vec_)));
+#endif
     }
 
     force_inline void vectorcall blend_inv_to(const fixed_size_simd<unsigned, 8> mask,
                                               const fixed_size_simd<unsigned, 8> v1) {
         validate_mask(mask);
+#if defined(USE_AVX2) || defined(USE_AVX512)
+        vec_ = _mm256_blendv_epi8(v1.vec_, vec_, mask.vec_);
+#else
         vec_ = _mm256_castps_si256(
             _mm256_blendv_ps(_mm256_castsi256_ps(v1.vec_), _mm256_castsi256_ps(vec_), _mm256_castsi256_ps(mask.vec_)));
+#endif
     }
 
     force_inline int movemask() const { return _mm256_movemask_ps(_mm256_castsi256_ps(vec_)); }
@@ -908,22 +944,38 @@ template <> class fixed_size_simd<unsigned, 8> {
 
     force_inline static fixed_size_simd<unsigned, 8> vectorcall and_not(const fixed_size_simd<unsigned, 8> v1,
                                                                         const fixed_size_simd<unsigned, 8> v2) {
+#if defined(USE_AVX2) || defined(USE_AVX512)
+        return _mm256_andnot_si256(v1.vec_, v2.vec_);
+#else
         return _mm256_castps_si256(_mm256_andnot_ps(_mm256_castsi256_ps(v1.vec_), _mm256_castsi256_ps(v2.vec_)));
+#endif
     }
 
     friend force_inline fixed_size_simd<unsigned, 8> vectorcall operator&(const fixed_size_simd<unsigned, 8> v1,
                                                                           const fixed_size_simd<unsigned, 8> v2) {
+#if defined(USE_AVX2) || defined(USE_AVX512)
+        return _mm256_and_si256(v1.vec_, v2.vec_);
+#else
         return _mm256_castps_si256(_mm256_and_ps(_mm256_castsi256_ps(v1.vec_), _mm256_castsi256_ps(v2.vec_)));
+#endif
     }
 
     friend force_inline fixed_size_simd<unsigned, 8> vectorcall operator|(const fixed_size_simd<unsigned, 8> v1,
                                                                           const fixed_size_simd<unsigned, 8> v2) {
+#if defined(USE_AVX2) || defined(USE_AVX512)
+        return _mm256_or_si256(v1.vec_, v2.vec_);
+#else
         return _mm256_castps_si256(_mm256_or_ps(_mm256_castsi256_ps(v1.vec_), _mm256_castsi256_ps(v2.vec_)));
+#endif
     }
 
     friend force_inline fixed_size_simd<unsigned, 8> vectorcall operator^(const fixed_size_simd<unsigned, 8> v1,
                                                                           const fixed_size_simd<unsigned, 8> v2) {
+#if defined(USE_AVX2) || defined(USE_AVX512)
+        return _mm256_xor_si256(v1.vec_, v2.vec_);
+#else
         return _mm256_castps_si256(_mm256_xor_ps(_mm256_castsi256_ps(v1.vec_), _mm256_castsi256_ps(v2.vec_)));
+#endif
     }
 
     friend avx2_inline fixed_size_simd<unsigned, 8> vectorcall operator+(const fixed_size_simd<unsigned, 8> v1,
@@ -1328,17 +1380,25 @@ force_inline fixed_size_simd<int, 8> vectorcall select(const fixed_size_simd<U,
                                                        const fixed_size_simd<int, 8> vec1,
                                                        const fixed_size_simd<int, 8> vec2) {
     validate_mask(mask);
+#if defined(USE_AVX2) || defined(USE_AVX512)
+    return _mm256_blendv_epi8(vec2.vec_, vec1.vec_, mask.vec_);
+#else
     return _mm256_castps_si256(
         _mm256_blendv_ps(_mm256_castsi256_ps(vec2.vec_), _mm256_castsi256_ps(vec1.vec_), _mm_cast<__m256>(mask.vec_)));
+#endif
 }
 
 template <typename U>
 force_inline fixed_size_simd<unsigned, 8> vectorcall select(const fixed_size_simd<U, 8> mask,
                                                             const fixed_size_simd<unsigned, 8> vec1,
                                                             const fixed_size_simd<unsigned, 8> vec2) {
     validate_mask(mask);
+#if defined(USE_AVX2) || defined(USE_AVX512)
+    return _mm256_blendv_epi8(vec2.vec_, vec1.vec_, mask.vec_);
+#else
     return _mm256_castps_si256(
         _mm256_blendv_ps(_mm256_castsi256_ps(vec2.vec_), _mm256_castsi256_ps(vec1.vec_), _mm_cast<__m256>(mask.vec_)));
+#endif
 }
 
 } // namespace NS