WIP sparse resampling

Ivo · Ivo · commit a9e8ee4ad4fa · 2026-05-11T10:17:47.000+01:00
diff --git a/cpp/arcticdb/processing/clause_resample.cpp b/cpp/arcticdb/processing/clause_resample.cpp
@@ -366,7 +366,7 @@ std::vector<EntityId> ResampleClause<closed_boundary>::process(std::vector<Entit
             );
         }
         std::optional<Column> aggregated =
-                aggregator.aggregate(input_index_columns, input_agg_columns, mapping, string_pool);
+                aggregator.aggregate(input_agg_columns, mapping, string_pool);
         if (aggregated) {
             seg.add_column(
                     scalar_field(aggregated->type().data_type(), aggregator.get_output_column_name().value),
diff --git a/cpp/arcticdb/processing/sorted_aggregation.cpp b/cpp/arcticdb/processing/sorted_aggregation.cpp
@@ -67,6 +67,9 @@ SortedAggregatorOutputColumnInfo SortedAggregator<aggregation_operator, closed_b
             auto input_data_type = opt_input_agg_column->column_->type().data_type();
             check_aggregator_supported_with_data_type(input_data_type);
             add_data_type_impl(input_data_type, output_column_info.data_type_);
+            if (opt_input_agg_column->column_->is_sparse()) {
+                output_column_info.maybe_sparse_ = true;
+            }
         } else {
             output_column_info.maybe_sparse_ = true;
         }
@@ -214,6 +217,16 @@ std::optional<Column> SortedAggregator<aggregation_operator, closed_boundary>::g
         );
     }
 
+    // Build rs index for each sparse input column once, for fast range presence checks below.
+    std::vector<std::unique_ptr<util::BitIndex>> rs_indices(input_agg_columns.size());
+    for (size_t col_idx = 0; col_idx < input_agg_columns.size(); ++col_idx) {
+        const auto& opt_col = input_agg_columns[col_idx];
+        if (opt_col.has_value() && opt_col->column_->is_sparse()) {
+            rs_indices[col_idx] = std::make_unique<util::BitIndex>();
+            opt_col->column_->sparse_map().build_rs_index(rs_indices[col_idx].get());
+        }
+    }
+
     util::BitSet sparse_map(output_row_count);
     for (int64_t out_row = 0; out_row < output_row_count; ++out_row) {
         const auto& start = mapping[out_row];
@@ -222,7 +235,25 @@ std::optional<Column> SortedAggregator<aggregation_operator, closed_boundary>::g
         for (size_t col_idx = start.input_column_idx;
              col_idx < last_contributing_exclusive && col_idx < input_agg_columns.size();
              ++col_idx) {
-            if (input_agg_columns[col_idx].has_value()) {
+            const auto& opt_col = input_agg_columns[col_idx];
+            if (!opt_col.has_value()) {
+                continue;
+            }
+            const auto& col = *opt_col->column_;
+            if (!col.is_sparse()) {
+                sparse_map.set(out_row);
+                break;
+            }
+            const size_t range_start = (col_idx == start.input_column_idx) ? start.offset : 0;
+            const size_t range_end_exclusive =
+                    (col_idx == end.input_column_idx) ? end.offset : static_cast<size_t>(col.last_row()) + 1;
+            if (range_start >= range_end_exclusive) {
+                continue;
+            }
+            const auto cnt = col.sparse_map().count_range(
+                    bv_size(range_start), bv_size(range_end_exclusive - 1), *rs_indices[col_idx]
+            );
+            if (cnt > 0) {
                 sparse_map.set(out_row);
                 break;
             }
@@ -245,7 +276,6 @@ std::optional<Column> SortedAggregator<aggregation_operator, closed_boundary>::g
 
 template<AggregationOperator aggregation_operator, ResampleBoundary closed_boundary>
 std::optional<Column> SortedAggregator<aggregation_operator, closed_boundary>::aggregate(
-        const std::vector<std::shared_ptr<Column>>& input_index_columns,
         const std::vector<std::optional<ColumnWithStrings>>& input_agg_columns, const ResampleMapping& mapping,
         StringPool& string_pool
 ) const {
@@ -304,47 +334,50 @@ std::optional<Column> SortedAggregator<aggregation_operator, closed_boundary>::a
                         continue;
                     }
                     const auto& agg_column = *opt_input_agg_column;
-                    const auto& input_index_column = input_index_columns[col_idx];
                     details::visit_type(
                             agg_column.column_->type().data_type(),
                             [&, &agg_column = agg_column](auto input_type_desc_tag) {
                                 using input_type_info = ScalarTypeInfo<decltype(input_type_desc_tag)>;
                                 if constexpr (is_aggregation_allowed<input_type_info, output_type_info>(
                                                       aggregation_operator
                                               )) {
-                                    schema::check<ErrorCode::E_UNSUPPORTED_COLUMN_TYPE>(
-                                            !agg_column.column_->is_sparse() &&
-                                                    agg_column.column_->row_count() == input_index_column->row_count(),
-                                            "Not implemented yet: Cannot aggregate sparse column '{}' during "
-                                            "resampling.",
-                                            get_input_column_name().value
-                                    );
                                     auto agg_data = agg_column.column_->data();
-                                    auto col_it = agg_data.template cbegin<
-                                            typename input_type_info::TDT,
-                                            IteratorType::ENUMERATED,
-                                            IteratorDensity::DENSE>();
-                                    const auto col_end = agg_data.template cend<
-                                            typename input_type_info::TDT,
-                                            IteratorType::ENUMERATED,
-                                            IteratorDensity::DENSE>();
-                                    for (; col_it != col_end && output_it != output_end; ++col_it) {
-                                        const auto idx = static_cast<size_t>(col_it->idx());
-                                        // After advance_output, the next bucket may not include this column.
-                                        if (col_idx < start_col_idx) {
-                                            break;
-                                        }
-                                        // Skip rows before the bucket's start (e.g., right-closed bucket excluding
-                                        // its leftmost edge, or date_range trimming).
-                                        if (col_idx == start_col_idx && idx < start_col_offset) {
-                                            continue;
-                                        }
-                                        push_to_aggregator<input_type_info::data_type>(
-                                                bucket_aggregator, col_it->value(), agg_column
-                                        );
-                                        if (col_idx == end_col_idx && idx + 1 == end_col_offset) {
-                                            advance_output();
+                                    const auto run_iter = [&]<IteratorDensity input_density>() {
+                                        auto col_it = agg_data.template cbegin<
+                                                typename input_type_info::TDT,
+                                                IteratorType::ENUMERATED,
+                                                input_density>();
+                                        const auto col_end = agg_data.template cend<
+                                                typename input_type_info::TDT,
+                                                IteratorType::ENUMERATED,
+                                                input_density>();
+                                        for (; col_it != col_end && output_it != output_end; ++col_it) {
+                                            const auto idx = static_cast<size_t>(col_it->idx());
+                                            // Finalise any buckets whose exclusive end falls at or before this row.
+                                            // Driven by logical idx so it works the same for sparse columns where the
+                                            // last present row before end_col_offset may be < end_col_offset - 1.
+                                            while (output_it != output_end &&
+                                                   (col_idx > end_col_idx ||
+                                                    (col_idx == end_col_idx && idx >= end_col_offset))) {
+                                                advance_output();
+                                            }
+                                            if (output_it == output_end || col_idx < start_col_idx) {
+                                                break;
+                                            }
+                                            // Skip rows before the bucket's start (e.g., right-closed bucket excluding
+                                            // its leftmost edge, or date_range trimming).
+                                            if (col_idx == start_col_idx && idx < start_col_offset) {
+                                                continue;
+                                            }
+                                            push_to_aggregator<input_type_info::data_type>(
+                                                    bucket_aggregator, col_it->value(), agg_column
+                                            );
                                         }
+                                    };
+                                    if (agg_column.column_->is_sparse()) {
+                                        run_iter.template operator()<IteratorDensity::SPARSE>();
+                                    } else {
+                                        run_iter.template operator()<IteratorDensity::DENSE>();
                                     }
                                 }
                             }
diff --git a/cpp/arcticdb/processing/sorted_aggregation.hpp b/cpp/arcticdb/processing/sorted_aggregation.hpp
@@ -41,11 +41,10 @@ struct ISortedAggregator {
         [[nodiscard]] ColumnName get_input_column_name() const { return folly::poly_call<0>(*this); };
         [[nodiscard]] ColumnName get_output_column_name() const { return folly::poly_call<1>(*this); };
         [[nodiscard]] std::optional<Column> aggregate(
-                const std::vector<std::shared_ptr<Column>>& input_index_columns,
                 const std::vector<std::optional<ColumnWithStrings>>& input_agg_columns, const ResampleMapping& mapping,
                 StringPool& string_pool
         ) const {
-            return folly::poly_call<2>(*this, input_index_columns, input_agg_columns, mapping, string_pool);
+            return folly::poly_call<2>(*this, input_agg_columns, mapping, string_pool);
         }
         void check_aggregator_supported_with_data_type(DataType data_type) const {
             folly::poly_call<3>(*this, data_type);
@@ -398,7 +397,6 @@ class SortedAggregator {
     [[nodiscard]] ColumnName get_output_column_name() const { return output_column_name_; }
 
     [[nodiscard]] std::optional<Column> aggregate(
-            const std::vector<std::shared_ptr<Column>>& input_index_columns,
             const std::vector<std::optional<ColumnWithStrings>>& input_agg_columns, const ResampleMapping& mapping,
             StringPool& string_pool
     ) const;
diff --git a/python/tests/unit/arcticdb/version_store/test_arrow_sparse.py b/python/tests/unit/arcticdb/version_store/test_arrow_sparse.py
@@ -754,10 +754,6 @@ def test_named_aggs(self, group_col):
         _check_query_result(self.lib, self.sym, q, expected, count_columns=count_columns, check_row_order=False)
 
 
-@pytest.mark.xfail(
-    reason="Resample rejects sparse columns. (monday ref: 11679866800)",
-    raises=Exception,
-)
 class TestSparseArrowResample:
     sym = "test_sparse_resample"
 
@@ -920,10 +916,6 @@ def test_concat_with_index(self):
         expected = pl.concat([pl.from_arrow(t1), pl.from_arrow(t2)])
         polars_assert_frame_equal(received, expected)
 
-    @pytest.mark.xfail(
-        reason="Resample rejects sparse columns: sorted_aggregation.cpp 'Cannot aggregate column as it is sparse'",
-        raises=Exception,
-    )
     def test_concat_with_resample(self):
         dates1 = pd.date_range("2025-01-01", periods=6, freq="h")
         dates2 = pd.date_range("2025-01-01T06:00:00", periods=6, freq="h")

Original file line number	Diff line number	Diff line change
`@@ -366,7 +366,7 @@ std::vector<EntityId> ResampleClause<closed_boundary>::process(std::vector<Entit`
`366`	`366`	`);`
`367`	`367`	`}`
`368`	`368`	`std::optional<Column> aggregated =`
`369`		`- aggregator.aggregate(input_index_columns, input_agg_columns, mapping, string_pool);`
	`369`	`+ aggregator.aggregate(input_agg_columns, mapping, string_pool);`
`370`	`370`	`if (aggregated) {`
`371`	`371`	`seg.add_column(`
`372`	`372`	`scalar_field(aggregated->type().data_type(), aggregator.get_output_column_name().value),`