xtensor-stack
diff --git a/‎include/xsimd/arch/common/xsimd_common_memory.hpp‎
Lines changed: 68 additions & 68 deletions b/‎include/xsimd/arch/common/xsimd_common_memory.hpp‎
Lines changed: 68 additions & 68 deletions
diff --git a/‎include/xsimd/arch/xsimd_avx.hpp‎
Lines changed: 22 additions & 18 deletions b/‎include/xsimd/arch/xsimd_avx.hpp‎
Lines changed: 22 additions & 18 deletions
diff --git a/‎include/xsimd/arch/xsimd_avx2.hpp‎
Lines changed: 14 additions & 11 deletions b/‎include/xsimd/arch/xsimd_avx2.hpp‎
Lines changed: 14 additions & 11 deletions
@@ -13,6 +13,7 @@
 #define XSIMD_COMMON_MEMORY_HPP
 
 #include "../../types/xsimd_batch_constant.hpp"
+#include "../../utils/xsimd_type_traits.hpp"
 #include "./xsimd_common_details.hpp"
 
 #include <algorithm>
@@ -360,88 +361,87 @@ namespace xsimd
             return load_unaligned<A>(mem, convert<T> {}, A {});
         }
 
-        template <class A, class T_in, class T_out, bool... Values, class alignment>
-        XSIMD_INLINE batch<T_out, A>
-        load_masked(T_in const* mem, batch_bool_constant<T_out, A, Values...>, convert<T_out>, alignment, requires_arch<common>) noexcept
-        {
-            constexpr std::size_t size = batch<T_out, A>::size;
-            alignas(A::alignment()) std::array<T_out, size> buffer {};
-            constexpr bool mask[size] = { Values... };
-
-            for (std::size_t i = 0; i < size; ++i)
-                buffer[i] = mask[i] ? static_cast<T_out>(mem[i]) : T_out(0);
-
-            return batch<T_out, A>::load(buffer.data(), aligned_mode {});
-        }
-
-        template <class A, class T_in, class T_out, bool... Values, class alignment>
-        XSIMD_INLINE void
-        store_masked(T_out* mem, batch<T_in, A> const& src, batch_bool_constant<T_in, A, Values...>, alignment, requires_arch<common>) noexcept
+        // Masked-memory dispatch idiom. To give an arch a native masked path, add a
+        // `requires_arch<that-arch>` overload in its arch file; conversion ranking makes
+        // it beat the inherited one. Keep this base layer arch-agnostic:
+        //  (a) specialize via a concrete `requires_arch<arch>` overload -- no register
+        //      tag, no `enable_if` on `A`;
+        //  (b) base overloads use the `requires_arch<common>` tag only; a generic
+        //      `requires_arch<A>` here ties with an arch's own overload (gcc-10 ambiguity);
+        //  (c) capability decisions go through arch-agnostic traits (see below).
+        namespace detail
         {
-            constexpr std::size_t size = batch<T_in, A>::size;
-            constexpr bool mask[size] = { Values... };
+            // True when an integer access can borrow the same-width float `vmaskmov*` path
+            // (integral type, same-size float exists, arch has that float register);
+            // otherwise the scalar-buffer fallback is used. Names no architecture.
+            template <class A, class T_in, class T_out>
+            using masked_memory_uses_fp_bitcast = std::integral_constant<bool,
+                                                                         std::is_same<T_in, T_out>::value
+                                                                             && std::is_integral<T_out>::value
+                                                                             && !std::is_void<sized_fp_t<sizeof(T_out)>>::value
+                                                                             && types::has_simd_register<sized_fp_t<sizeof(T_out)>, A>::value>;
 
-            for (std::size_t i = 0; i < size; ++i)
-                if (mask[i])
-                {
-                    mem[i] = static_cast<T_out>(src.get(i));
-                }
-        }
+            // Scalar-buffer fallback: materialize masked-off lanes as zero, then load.
+            template <class A, class T_in, class T_out, bool... Values, class alignment>
+            XSIMD_INLINE batch<T_out, A>
+            load_masked_common(T_in const* mem, batch_bool_constant<T_out, A, Values...>, convert<T_out>, alignment, std::false_type /* uses_fp_bitcast */) noexcept
+            {
+                constexpr std::size_t size = batch<T_out, A>::size;
+                alignas(A::alignment()) std::array<T_out, size> buffer {};
+                constexpr bool mask[size] = { Values... };
 
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE batch<int32_t, A> load_masked(int32_t const* mem, batch_bool_constant<int32_t, A, Values...>, convert<int32_t>, Mode, requires_arch<A>) noexcept
-        {
-            const auto f = load_masked<A>(reinterpret_cast<const float*>(mem), batch_bool_constant<float, A, Values...> {}, convert<float> {}, Mode {}, A {});
-            return bitwise_cast<int32_t>(f);
-        }
+                for (std::size_t i = 0; i < size; ++i)
+                    buffer[i] = mask[i] ? static_cast<T_out>(mem[i]) : T_out(0);
 
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE batch<uint32_t, A> load_masked(uint32_t const* mem, batch_bool_constant<uint32_t, A, Values...>, convert<uint32_t>, Mode, requires_arch<A>) noexcept
-        {
-            const auto f = load_masked<A>(reinterpret_cast<const float*>(mem), batch_bool_constant<float, A, Values...> {}, convert<float> {}, Mode {}, A {});
-            return bitwise_cast<uint32_t>(f);
-        }
+                return batch<T_out, A>::load(buffer.data(), aligned_mode {});
+            }
 
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE std::enable_if_t<types::has_simd_register<double, A>::value, batch<int64_t, A>>
-        load_masked(int64_t const* mem, batch_bool_constant<int64_t, A, Values...>, convert<int64_t>, Mode, requires_arch<A>) noexcept
-        {
-            const auto d = load_masked<A>(reinterpret_cast<const double*>(mem), batch_bool_constant<double, A, Values...> {}, convert<double> {}, Mode {}, A {});
-            return bitwise_cast<int64_t>(d);
-        }
+            // Integer-via-float path: reinterpret to the same-width float type, reuse the
+            // floating-point masked load (e.g. `vmaskmovps`), then bitcast the result back.
+            template <class A, class T, bool... Values, class Mode>
+            XSIMD_INLINE batch<T, A>
+            load_masked_common(T const* mem, batch_bool_constant<T, A, Values...>, convert<T>, Mode, std::true_type /* uses_fp_bitcast */) noexcept
+            {
+                using fp_t = sized_fp_t<sizeof(T)>;
+                const auto f = ::xsimd::kernel::load_masked<A>(reinterpret_cast<const fp_t*>(mem), batch_bool_constant<fp_t, A, Values...> {}, convert<fp_t> {}, Mode {}, A {});
+                return bitwise_cast<T>(f);
+            }
 
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE std::enable_if_t<types::has_simd_register<double, A>::value, batch<uint64_t, A>>
-        load_masked(uint64_t const* mem, batch_bool_constant<uint64_t, A, Values...>, convert<uint64_t>, Mode, requires_arch<A>) noexcept
-        {
-            const auto d = load_masked<A>(reinterpret_cast<const double*>(mem), batch_bool_constant<double, A, Values...> {}, convert<double> {}, Mode {}, A {});
-            return bitwise_cast<uint64_t>(d);
-        }
+            template <class A, class T_in, class T_out, bool... Values, class alignment>
+            XSIMD_INLINE void
+            store_masked_common(T_out* mem, batch<T_in, A> const& src, batch_bool_constant<T_in, A, Values...>, alignment, std::false_type /* uses_fp_bitcast */) noexcept
+            {
+                constexpr std::size_t size = batch<T_in, A>::size;
+                constexpr bool mask[size] = { Values... };
 
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(int32_t* mem, batch<int32_t, A> const& src, batch_bool_constant<int32_t, A, Values...>, Mode, requires_arch<A>) noexcept
-        {
-            store_masked<A>(reinterpret_cast<float*>(mem), bitwise_cast<float>(src), batch_bool_constant<float, A, Values...> {}, Mode {}, A {});
-        }
+                for (std::size_t i = 0; i < size; ++i)
+                    if (mask[i])
+                    {
+                        mem[i] = static_cast<T_out>(src.get(i));
+                    }
+            }
 
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(uint32_t* mem, batch<uint32_t, A> const& src, batch_bool_constant<uint32_t, A, Values...>, Mode, requires_arch<A>) noexcept
-        {
-            store_masked<A>(reinterpret_cast<float*>(mem), bitwise_cast<float>(src), batch_bool_constant<float, A, Values...> {}, Mode {}, A {});
+            template <class A, class T, bool... Values, class Mode>
+            XSIMD_INLINE void
+            store_masked_common(T* mem, batch<T, A> const& src, batch_bool_constant<T, A, Values...>, Mode, std::true_type /* uses_fp_bitcast */) noexcept
+            {
+                using fp_t = sized_fp_t<sizeof(T)>;
+                ::xsimd::kernel::store_masked<A>(reinterpret_cast<fp_t*>(mem), bitwise_cast<fp_t>(src), batch_bool_constant<fp_t, A, Values...> {}, Mode {}, A {});
+            }
         }
 
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE std::enable_if_t<types::has_simd_register<double, A>::value>
-        store_masked(int64_t* mem, batch<int64_t, A> const& src, batch_bool_constant<int64_t, A, Values...>, Mode, requires_arch<A>) noexcept
+        template <class A, class T_in, class T_out, bool... Values, class alignment>
+        XSIMD_INLINE batch<T_out, A>
+        load_masked(T_in const* mem, batch_bool_constant<T_out, A, Values...> mask, convert<T_out> cvt, alignment mode, requires_arch<common>) noexcept
         {
-            store_masked<A>(reinterpret_cast<double*>(mem), bitwise_cast<double>(src), batch_bool_constant<double, A, Values...> {}, Mode {}, A {});
+            return detail::load_masked_common(mem, mask, cvt, mode, detail::masked_memory_uses_fp_bitcast<A, T_in, T_out> {});
         }
 
-        template <class A, bool... Values, class Mode>
-        XSIMD_INLINE std::enable_if_t<types::has_simd_register<double, A>::value>
-        store_masked(uint64_t* mem, batch<uint64_t, A> const& src, batch_bool_constant<uint64_t, A, Values...>, Mode, requires_arch<A>) noexcept
+        template <class A, class T_in, class T_out, bool... Values, class alignment>
+        XSIMD_INLINE void
+        store_masked(T_out* mem, batch<T_in, A> const& src, batch_bool_constant<T_in, A, Values...> mask, alignment mode, requires_arch<common>) noexcept
         {
-            store_masked<A>(reinterpret_cast<double*>(mem), bitwise_cast<double>(src), batch_bool_constant<double, A, Values...> {}, Mode {}, A {});
+            detail::store_masked_common(mem, src, mask, mode, detail::masked_memory_uses_fp_bitcast<A, T_in, T_out> {});
         }
 
         template <class A, class T_in, class T_out>
 
@@ -993,19 +993,20 @@ namespace xsimd
         {
             using int_t = as_integer_t<T>;
             constexpr size_t half_size = batch<T, A>::size / 2;
+            using half_arch = typename ::xsimd::make_sized_batch_t<T, half_size>::arch_type;
 
-            // confined to lower 128-bit half → forward to 128 bit
+            // lower 128-bit half
             XSIMD_IF_CONSTEXPR(mask.countl_zero() >= half_size)
             {
-                constexpr auto mlo = ::xsimd::detail::lower_half<sse4_2>(batch_bool_constant<int_t, A, Values...> {});
-                const auto lo = load_masked(reinterpret_cast<int_t const*>(mem), mlo, convert<int_t> {}, Mode {}, avx_128 {});
+                constexpr auto mlo = ::xsimd::detail::lower_half<half_arch>(batch_bool_constant<int_t, A, Values...> {});
+                const auto lo = load_masked(reinterpret_cast<int_t const*>(mem), mlo, convert<int_t> {}, Mode {}, half_arch {});
                 return bitwise_cast<T>(batch<int_t, A>(_mm256_zextsi128_si256(lo)));
             }
-            // confined to upper 128-bit half → forward to 128 bit
+            // upper 128-bit half
             else XSIMD_IF_CONSTEXPR(mask.countr_zero() >= half_size)
             {
-                constexpr auto mhi = ::xsimd::detail::upper_half<sse4_2>(mask);
-                const auto hi = load_masked(mem + half_size, mhi, convert<T> {}, Mode {}, avx_128 {});
+                constexpr auto mhi = ::xsimd::detail::upper_half<half_arch>(mask);
+                const auto hi = load_masked(mem + half_size, mhi, convert<T> {}, Mode {}, half_arch {});
                 return detail::zero_extend<A>(hi);
             }
             else
@@ -1021,38 +1022,41 @@ namespace xsimd
             template <class A>
             XSIMD_INLINE void maskstore(float* mem, batch_bool<float, A> const& mask, batch<float, A> const& src) noexcept
             {
-                _mm256_maskstore_ps(mem, mask, src);
+                _mm256_maskstore_ps(mem, _mm256_castps_si256(mask), src);
             }
 
             template <class A>
             XSIMD_INLINE void maskstore(double* mem, batch_bool<double, A> const& mask, batch<double, A> const& src) noexcept
             {
-                _mm256_maskstore_pd(mem, mask, src);
+                _mm256_maskstore_pd(mem, _mm256_castpd_si256(mask), src);
             }
         }
 
-        template <class A, class T, bool... Values, class Mode>
+        template <class A, class T, bool... Values, class Mode,
+                  typename = std::enable_if_t<std::is_floating_point<T>::value>>
         XSIMD_INLINE void store_masked(T* mem, batch<T, A> const& src, batch_bool_constant<T, A, Values...> mask, Mode, requires_arch<avx>) noexcept
         {
             constexpr size_t half_size = batch<T, A>::size / 2;
+            using half_batch = ::xsimd::make_sized_batch_t<T, half_size>;
+            using half_arch = typename half_batch::arch_type;
 
-            // confined to lower 128-bit half → forward to 128 bit
+            // lower 128-bit half
             XSIMD_IF_CONSTEXPR(mask.countl_zero() >= half_size)
             {
-                constexpr auto mlo = ::xsimd::detail::lower_half<sse4_2>(mask);
-                const auto lo = detail::lower_half(src);
-                store_masked<avx_128>(mem, lo, mlo, Mode {}, sse4_2 {});
+                constexpr auto mlo = ::xsimd::detail::lower_half<half_arch>(mask);
+                const half_batch lo = detail::lower_half(src);
+                store_masked<half_arch>(mem, lo, mlo, Mode {}, half_arch {});
             }
-            // confined to upper 128-bit half → forward to 128 bit
+            // upper 128-bit half
             else XSIMD_IF_CONSTEXPR(mask.countr_zero() >= half_size)
             {
-                constexpr auto mhi = ::xsimd::detail::upper_half<sse4_2>(mask);
-                const auto hi = detail::upper_half(src);
-                store_masked<avx_128>(mem + half_size, hi, mhi, Mode {}, sse4_2 {});
+                constexpr auto mhi = ::xsimd::detail::upper_half<half_arch>(mask);
+                const half_batch hi = detail::upper_half(src);
+                store_masked<half_arch>(mem + half_size, hi, mhi, Mode {}, half_arch {});
             }
             else
             {
-                detail::maskstore(mem, mask.as_batch(), src);
+                detail::maskstore(mem, mask.as_batch_bool(), src);
             }
         }
 
 
@@ -190,24 +190,27 @@ namespace xsimd
             }
         }
 
-        template <class A, class T, bool... Values, class Mode>
+        template <class A, class T, bool... Values, class Mode,
+                  typename = std::enable_if_t<std::is_integral<T>::value && (sizeof(T) >= 4)>>
         XSIMD_INLINE void store_masked(T* mem, batch<T, A> const& src, batch_bool_constant<T, A, Values...> mask, Mode, requires_arch<avx2>) noexcept
         {
             constexpr size_t lanes_per_half = batch<T, A>::size / 2;
+            using half_batch = ::xsimd::make_sized_batch_t<T, lanes_per_half>;
+            using half_arch = typename half_batch::arch_type;
 
-            // confined to lower 128-bit half → forward to SSE
+            // lower 128-bit half
             XSIMD_IF_CONSTEXPR(mask.countl_zero() >= lanes_per_half)
             {
-                constexpr auto mlo = ::xsimd::detail::lower_half<sse4_2>(mask);
-                const auto lo = detail::lower_half(src);
-                store_masked<sse4_2>(mem, lo, mlo, Mode {}, sse4_2 {});
+                constexpr auto mlo = ::xsimd::detail::lower_half<half_arch>(mask);
+                const half_batch lo = detail::lower_half(src);
+                store_masked<half_arch>(mem, lo, mlo, Mode {}, half_arch {});
             }
-            // confined to upper 128-bit half → forward to SSE
+            // upper 128-bit half
             else XSIMD_IF_CONSTEXPR(mask.countr_zero() >= lanes_per_half)
             {
-                constexpr auto mhi = ::xsimd::detail::upper_half<sse4_2>(mask);
-                const auto hi = detail::upper_half(src);
-                store_masked<sse4_2>(mem + lanes_per_half, hi, mhi, Mode {}, sse4_2 {});
+                constexpr auto mhi = ::xsimd::detail::upper_half<half_arch>(mask);
+                const half_batch hi = detail::upper_half(src);
+                store_masked<half_arch>(mem + lanes_per_half, hi, mhi, Mode {}, half_arch {});
             }
             else
             {
@@ -216,10 +219,10 @@ namespace xsimd
         }
 
         template <class A, bool... Values, class Mode>
-        XSIMD_INLINE void store_masked(uint32_t* mem, batch<uint32_t, A> const& src, batch_bool_constant<uint32_t, A, Values...> mask, Mode, requires_arch<avx2>) noexcept
+        XSIMD_INLINE void store_masked(uint32_t* mem, batch<uint32_t, A> const& src, batch_bool_constant<uint32_t, A, Values...>, Mode, requires_arch<avx2>) noexcept
         {
             const auto s32 = bitwise_cast<int32_t>(src);
-            store_masked<A>(reinterpret_cast<int32_t*>(mem), s32, mask, Mode {}, avx2 {});
+            store_masked<A>(reinterpret_cast<int32_t*>(mem), s32, batch_bool_constant<int32_t, A, Values...> {}, Mode {}, avx2 {});
         }
 
         template <class A, bool... Values, class Mode>
Original file line number	Diff line number	Diff line change
`@@ -993,19 +993,20 @@ namespace xsimd`
`993`	`993`	`{`
`994`	`994`	`using int_t = as_integer_t<T>;`
`995`	`995`	`constexpr size_t half_size = batch<T, A>::size / 2;`
	`996`	`+ using half_arch = typename ::xsimd::make_sized_batch_t<T, half_size>::arch_type;`
`996`	`997`
`997`		`- // confined to lower 128-bit half → forward to 128 bit`
	`998`	`+ // lower 128-bit half`
`998`	`999`	`XSIMD_IF_CONSTEXPR(mask.countl_zero() >= half_size)`
`999`	`1000`	`{`
`1000`		`- constexpr auto mlo = ::xsimd::detail::lower_half<sse4_2>(batch_bool_constant<int_t, A, Values...> {});`
`1001`		`- const auto lo = load_masked(reinterpret_cast<int_t const*>(mem), mlo, convert<int_t> {}, Mode {}, avx_128 {});`
	`1001`	`+ constexpr auto mlo = ::xsimd::detail::lower_half<half_arch>(batch_bool_constant<int_t, A, Values...> {});`
	`1002`	`+ const auto lo = load_masked(reinterpret_cast<int_t const*>(mem), mlo, convert<int_t> {}, Mode {}, half_arch {});`
`1002`	`1003`	`return bitwise_cast<T>(batch<int_t, A>(_mm256_zextsi128_si256(lo)));`
`1003`	`1004`	`}`
`1004`		`- // confined to upper 128-bit half → forward to 128 bit`
	`1005`	`+ // upper 128-bit half`
`1005`	`1006`	`else XSIMD_IF_CONSTEXPR(mask.countr_zero() >= half_size)`
`1006`	`1007`	`{`
`1007`		`- constexpr auto mhi = ::xsimd::detail::upper_half<sse4_2>(mask);`
`1008`		`- const auto hi = load_masked(mem + half_size, mhi, convert<T> {}, Mode {}, avx_128 {});`
	`1008`	`+ constexpr auto mhi = ::xsimd::detail::upper_half<half_arch>(mask);`
	`1009`	`+ const auto hi = load_masked(mem + half_size, mhi, convert<T> {}, Mode {}, half_arch {});`
`1009`	`1010`	`return detail::zero_extend<A>(hi);`
`1010`	`1011`	`}`
`1011`	`1012`	`else`
`@@ -1021,38 +1022,41 @@ namespace xsimd`
`1021`	`1022`	`template <class A>`
`1022`	`1023`	`XSIMD_INLINE void maskstore(float* mem, batch_bool<float, A> const& mask, batch<float, A> const& src) noexcept`
`1023`	`1024`	`{`
`1024`		`- _mm256_maskstore_ps(mem, mask, src);`
	`1025`	`+ _mm256_maskstore_ps(mem, _mm256_castps_si256(mask), src);`
`1025`	`1026`	`}`
`1026`	`1027`
`1027`	`1028`	`template <class A>`
`1028`	`1029`	`XSIMD_INLINE void maskstore(double* mem, batch_bool<double, A> const& mask, batch<double, A> const& src) noexcept`
`1029`	`1030`	`{`
`1030`		`- _mm256_maskstore_pd(mem, mask, src);`
	`1031`	`+ _mm256_maskstore_pd(mem, _mm256_castpd_si256(mask), src);`
`1031`	`1032`	`}`
`1032`	`1033`	`}`
`1033`	`1034`
`1034`		`- template <class A, class T, bool... Values, class Mode>`
	`1035`	`+ template <class A, class T, bool... Values, class Mode,`
	`1036`	`+ typename = std::enable_if_t<std::is_floating_point<T>::value>>`
`1035`	`1037`	`XSIMD_INLINE void store_masked(T* mem, batch<T, A> const& src, batch_bool_constant<T, A, Values...> mask, Mode, requires_arch<avx>) noexcept`
`1036`	`1038`	`{`
`1037`	`1039`	`constexpr size_t half_size = batch<T, A>::size / 2;`
	`1040`	`+ using half_batch = ::xsimd::make_sized_batch_t<T, half_size>;`
	`1041`	`+ using half_arch = typename half_batch::arch_type;`
`1038`	`1042`
`1039`		`- // confined to lower 128-bit half → forward to 128 bit`
	`1043`	`+ // lower 128-bit half`
`1040`	`1044`	`XSIMD_IF_CONSTEXPR(mask.countl_zero() >= half_size)`
`1041`	`1045`	`{`
`1042`		`- constexpr auto mlo = ::xsimd::detail::lower_half<sse4_2>(mask);`
`1043`		`- const auto lo = detail::lower_half(src);`
`1044`		`- store_masked<avx_128>(mem, lo, mlo, Mode {}, sse4_2 {});`
	`1046`	`+ constexpr auto mlo = ::xsimd::detail::lower_half<half_arch>(mask);`
	`1047`	`+ const half_batch lo = detail::lower_half(src);`
	`1048`	`+ store_masked<half_arch>(mem, lo, mlo, Mode {}, half_arch {});`
`1045`	`1049`	`}`
`1046`		`- // confined to upper 128-bit half → forward to 128 bit`
	`1050`	`+ // upper 128-bit half`
`1047`	`1051`	`else XSIMD_IF_CONSTEXPR(mask.countr_zero() >= half_size)`
`1048`	`1052`	`{`
`1049`		`- constexpr auto mhi = ::xsimd::detail::upper_half<sse4_2>(mask);`
`1050`		`- const auto hi = detail::upper_half(src);`
`1051`		`- store_masked<avx_128>(mem + half_size, hi, mhi, Mode {}, sse4_2 {});`
	`1053`	`+ constexpr auto mhi = ::xsimd::detail::upper_half<half_arch>(mask);`
	`1054`	`+ const half_batch hi = detail::upper_half(src);`
	`1055`	`+ store_masked<half_arch>(mem + half_size, hi, mhi, Mode {}, half_arch {});`
`1052`	`1056`	`}`
`1053`	`1057`	`else`
`1054`	`1058`	`{`
`1055`		`- detail::maskstore(mem, mask.as_batch(), src);`
	`1059`	`+ detail::maskstore(mem, mask.as_batch_bool(), src);`
`1056`	`1060`	`}`
`1057`	`1061`	`}`
`1058`	`1062`
Original file line number	Diff line number	Diff line change
`@@ -190,24 +190,27 @@ namespace xsimd`
`190`	`190`	`}`
`191`	`191`	`}`
`192`	`192`
`193`		`- template <class A, class T, bool... Values, class Mode>`
	`193`	`+ template <class A, class T, bool... Values, class Mode,`
	`194`	`+ typename = std::enable_if_t<std::is_integral<T>::value && (sizeof(T) >= 4)>>`
`194`	`195`	`XSIMD_INLINE void store_masked(T* mem, batch<T, A> const& src, batch_bool_constant<T, A, Values...> mask, Mode, requires_arch<avx2>) noexcept`
`195`	`196`	`{`
`196`	`197`	`constexpr size_t lanes_per_half = batch<T, A>::size / 2;`
	`198`	`+ using half_batch = ::xsimd::make_sized_batch_t<T, lanes_per_half>;`
	`199`	`+ using half_arch = typename half_batch::arch_type;`
`197`	`200`
`198`		`- // confined to lower 128-bit half → forward to SSE`
	`201`	`+ // lower 128-bit half`
`199`	`202`	`XSIMD_IF_CONSTEXPR(mask.countl_zero() >= lanes_per_half)`
`200`	`203`	`{`
`201`		`- constexpr auto mlo = ::xsimd::detail::lower_half<sse4_2>(mask);`
`202`		`- const auto lo = detail::lower_half(src);`
`203`		`- store_masked<sse4_2>(mem, lo, mlo, Mode {}, sse4_2 {});`
	`204`	`+ constexpr auto mlo = ::xsimd::detail::lower_half<half_arch>(mask);`
	`205`	`+ const half_batch lo = detail::lower_half(src);`
	`206`	`+ store_masked<half_arch>(mem, lo, mlo, Mode {}, half_arch {});`
`204`	`207`	`}`
`205`		`- // confined to upper 128-bit half → forward to SSE`
	`208`	`+ // upper 128-bit half`
`206`	`209`	`else XSIMD_IF_CONSTEXPR(mask.countr_zero() >= lanes_per_half)`
`207`	`210`	`{`
`208`		`- constexpr auto mhi = ::xsimd::detail::upper_half<sse4_2>(mask);`
`209`		`- const auto hi = detail::upper_half(src);`
`210`		`- store_masked<sse4_2>(mem + lanes_per_half, hi, mhi, Mode {}, sse4_2 {});`
	`211`	`+ constexpr auto mhi = ::xsimd::detail::upper_half<half_arch>(mask);`
	`212`	`+ const half_batch hi = detail::upper_half(src);`
	`213`	`+ store_masked<half_arch>(mem + lanes_per_half, hi, mhi, Mode {}, half_arch {});`
`211`	`214`	`}`
`212`	`215`	`else`
`213`	`216`	`{`
`@@ -216,10 +219,10 @@ namespace xsimd`
`216`	`219`	`}`
`217`	`220`
`218`	`221`	`template <class A, bool... Values, class Mode>`
`219`		`- XSIMD_INLINE void store_masked(uint32_t* mem, batch<uint32_t, A> const& src, batch_bool_constant<uint32_t, A, Values...> mask, Mode, requires_arch<avx2>) noexcept`
	`222`	`+ XSIMD_INLINE void store_masked(uint32_t* mem, batch<uint32_t, A> const& src, batch_bool_constant<uint32_t, A, Values...>, Mode, requires_arch<avx2>) noexcept`
`220`	`223`	`{`
`221`	`224`	`const auto s32 = bitwise_cast<int32_t>(src);`
`222`		`- store_masked<A>(reinterpret_cast<int32_t*>(mem), s32, mask, Mode {}, avx2 {});`
	`225`	`+ store_masked<A>(reinterpret_cast<int32_t*>(mem), s32, batch_bool_constant<int32_t, A, Values...> {}, Mode {}, avx2 {});`
`223`	`226`	`}`
`224`	`227`
`225`	`228`	`template <class A, bool... Values, class Mode>`