BucketAggretationParser should handle more non-composite bucket types (opensearch-project#4706)

LantaoJin · web-flow · commit 373b394c9fdc · 2025-10-31T13:42:45.000+08:00
* BucketAggretationParser should handle more non-composite bucket types

Signed-off-by: Lantao Jin &lt;ltjin@amazon.com&gt;

* support multi-terms parser

Signed-off-by: Lantao Jin &lt;ltjin@amazon.com&gt;

* fix IT

Signed-off-by: Lantao Jin &lt;ltjin@amazon.com&gt;

* fix typo

Signed-off-by: Lantao Jin &lt;ltjin@amazon.com&gt;

* Update javadoc

Signed-off-by: Lantao Jin &lt;ltjin@amazon.com&gt;

---------

Signed-off-by: Lantao Jin &lt;ltjin@amazon.com&gt;
diff --git a/integ-test/src/test/resources/expectedOutput/calcite/explain_agg_sort_on_metrics_multi_terms.yaml b/integ-test/src/test/resources/expectedOutput/calcite/explain_agg_sort_on_metrics_multi_terms.yaml
@@ -8,4 +8,4 @@ calcite:
               LogicalFilter(condition=[AND(IS NOT NULL($4), IS NOT NULL($7))])
                 CalciteLogicalIndexScan(table=[[OpenSearch, opensearch-sql_test_index_account]])
   physical: |
-    CalciteEnumerableIndexScan(table=[[OpenSearch, opensearch-sql_test_index_account]], PushDownContext=[[AGGREGATION->rel#:LogicalAggregate.NONE.[](input=RelSubset#,group={0, 1},count()=COUNT()), SORT_AGG_METRICS->[2 ASC FIRST], PROJECT->[count(), gender, state], LIMIT->10000], OpenSearchRequestBuilder(sourceBuilder={"from":0,"size":0,"timeout":"1m","aggregations":{"multi_terms_buckets":{"multi_terms":{"terms":[{"field":"gender.keyword"},{"field":"state.keyword"}],"size":1000,"min_doc_count":1,"shard_min_doc_count":0,"show_term_doc_count_error":false,"order":[{"_count":"desc"},{"_key":"asc"}]},"aggregations":{"count()":{"value_count":{"field":"_index"}}}}}}, requestedTotalSize=2147483647, pageSize=null, startFrom=0)])
+    CalciteEnumerableIndexScan(table=[[OpenSearch, opensearch-sql_test_index_account]], PushDownContext=[[AGGREGATION->rel#:LogicalAggregate.NONE.[](input=RelSubset#,group={0, 1},count()=COUNT()), SORT_AGG_METRICS->[2 ASC FIRST], PROJECT->[count(), gender, state], LIMIT->10000], OpenSearchRequestBuilder(sourceBuilder={"from":0,"size":0,"timeout":"1m","aggregations":{"gender|state":{"multi_terms":{"terms":[{"field":"gender.keyword"},{"field":"state.keyword"}],"size":1000,"min_doc_count":1,"shard_min_doc_count":0,"show_term_doc_count_error":false,"order":[{"_count":"desc"},{"_key":"asc"}]},"aggregations":{"count()":{"value_count":{"field":"_index"}}}}}}, requestedTotalSize=2147483647, pageSize=null, startFrom=0)])
diff --git a/integ-test/src/test/resources/expectedOutput/calcite/multi_terms_keyword.yaml b/integ-test/src/test/resources/expectedOutput/calcite/multi_terms_keyword.yaml
@@ -9,4 +9,4 @@ calcite:
                 LogicalFilter(condition=[AND(>=($17, TIMESTAMP('2023-01-05 00:00:00':VARCHAR)), <($17, TIMESTAMP('2023-01-05 05:00:00':VARCHAR)))])
                   CalciteLogicalIndexScan(table=[[OpenSearch, big5]])
   physical: |
-    CalciteEnumerableIndexScan(table=[[OpenSearch, big5]], PushDownContext=[[PROJECT->[process.name, cloud.region, @timestamp], FILTER->SEARCH($2, Sarg[['2023-01-05 00:00:00':VARCHAR..'2023-01-05 05:00:00':VARCHAR)]:VARCHAR), AGGREGATION->rel#:LogicalAggregate.NONE.[](input=RelSubset#,group={0, 1},count()=COUNT()), SORT_AGG_METRICS->[2 DESC LAST], PROJECT->[count(), process.name, cloud.region], LIMIT->10, LIMIT->10000], OpenSearchRequestBuilder(sourceBuilder={"from":0,"size":0,"timeout":"1m","query":{"range":{"@timestamp":{"from":"2023-01-05T00:00:00.000Z","to":"2023-01-05T05:00:00.000Z","include_lower":true,"include_upper":false,"format":"date_time","boost":1.0}}},"_source":{"includes":["process.name","cloud.region","@timestamp"],"excludes":[]},"aggregations":{"multi_terms_buckets":{"multi_terms":{"terms":[{"field":"process.name"},{"field":"cloud.region"}],"size":10,"min_doc_count":1,"shard_min_doc_count":0,"show_term_doc_count_error":false,"order":[{"_count":"desc"},{"_key":"asc"}]},"aggregations":{"count()":{"value_count":{"field":"_index"}}}}}}, requestedTotalSize=2147483647, pageSize=null, startFrom=0)])
+    CalciteEnumerableIndexScan(table=[[OpenSearch, big5]], PushDownContext=[[PROJECT->[process.name, cloud.region, @timestamp], FILTER->SEARCH($2, Sarg[['2023-01-05 00:00:00':VARCHAR..'2023-01-05 05:00:00':VARCHAR)]:VARCHAR), AGGREGATION->rel#:LogicalAggregate.NONE.[](input=RelSubset#,group={0, 1},count()=COUNT()), SORT_AGG_METRICS->[2 DESC LAST], PROJECT->[count(), process.name, cloud.region], LIMIT->10, LIMIT->10000], OpenSearchRequestBuilder(sourceBuilder={"from":0,"size":0,"timeout":"1m","query":{"range":{"@timestamp":{"from":"2023-01-05T00:00:00.000Z","to":"2023-01-05T05:00:00.000Z","include_lower":true,"include_upper":false,"format":"date_time","boost":1.0}}},"_source":{"includes":["process.name","cloud.region","@timestamp"],"excludes":[]},"aggregations":{"process.name|cloud.region":{"multi_terms":{"terms":[{"field":"process.name"},{"field":"cloud.region"}],"size":10,"min_doc_count":1,"shard_min_doc_count":0,"show_term_doc_count_error":false,"order":[{"_count":"desc"},{"_key":"asc"}]},"aggregations":{"count()":{"value_count":{"field":"_index"}}}}}}, requestedTotalSize=2147483647, pageSize=null, startFrom=0)])
diff --git a/integ-test/src/yamlRestTest/resources/rest-api-spec/test/issues/4705.yml b/integ-test/src/yamlRestTest/resources/rest-api-spec/test/issues/4705.yml
@@ -0,0 +1,139 @@
+setup:
+  - do:
+      indices.create:
+        index: test
+        body:
+          mappings:
+            properties:
+              "dateV":
+                type: date
+              "intV":
+                type: integer
+              "boolV":
+                type: boolean
+              "stringV":
+                type: keyword
+  - do:
+      bulk:
+        index: test
+        refresh: true
+        body:
+          - '{"index":{}}'
+          - '{"dateV":"2023-10-08T10:00:00.000Z","intV":10,"boolV":true,"stringV":"hello"}'
+  - do:
+      query.settings:
+        body:
+          transient:
+            plugins.calcite.enabled : true
+---
+teardown:
+  - do:
+      query.settings:
+        body:
+          transient:
+            plugins.calcite.enabled : false
+
+---
+"String bucket parser should work in non-composite aggregate":
+  - skip:
+      features:
+        - headers
+  - do:
+      headers:
+        Content-Type: 'application/json'
+      ppl:
+        body:
+          query: source=test | stats bucket_nullable=false count() by stringV
+
+  - match: { total: 1 }
+  - match: { datarows: [[1, "hello"]] }
+
+---
+"Boolean bucket parser should work in non-composite aggregate":
+  - skip:
+      features:
+        - headers
+  - do:
+      headers:
+        Content-Type: 'application/json'
+      ppl:
+        body:
+          query: source=test | stats bucket_nullable=false count() by boolV
+
+  - match: { total: 1 }
+  - match: { datarows: [[1, true]] }
+
+---
+"Integer bucket parser should work in non-composite aggregate":
+  - skip:
+      features:
+        - headers
+  - do:
+      headers:
+        Content-Type: 'application/json'
+      ppl:
+        body:
+          query: source=test | stats bucket_nullable=false count() by intV
+
+  - match: { total: 1 }
+  - match: { datarows: [[1, 10]] }
+
+---
+"Date bucket parser should work in non-composite aggregate":
+  - skip:
+      features:
+        - headers
+  - do:
+      headers:
+        Content-Type: 'application/json'
+      ppl:
+        body:
+          query: source=test | stats bucket_nullable=false count() by dateV
+
+  - match: { total: 1 }
+  - match: { datarows: [[1, "2023-10-08 10:00:00"]] }
+
+---
+"Data histogram bucket parser should work in non-composite aggregate":
+  - skip:
+      features:
+        - headers
+  - do:
+      headers:
+        Content-Type: 'application/json'
+      ppl:
+        body:
+          query: source=test | stats bucket_nullable=false count() by span(dateV, 1d)
+
+  - match: { total: 1 }
+  - match: { datarows: [[1, "2023-10-08 00:00:00"]] }
+
+---
+"Histogram bucket parser should work in non-composite aggregate":
+  - skip:
+      features:
+        - headers
+  - do:
+      headers:
+        Content-Type: 'application/json'
+      ppl:
+        body:
+          query: source=test | stats bucket_nullable=false count() by span(intV, 1)
+
+  - match: { total: 1 }
+  - match: { datarows: [[1, 10]] }
+
+---
+"Multi-terms bucket parser should work in non-composite aggregate":
+  - skip:
+      features:
+        - headers
+  - do:
+      headers:
+        Content-Type: 'application/json'
+      ppl:
+        body:
+          query: source=test | stats bucket_nullable=false count() by stringV, intV
+
+  - match: { total: 1 }
+  - match: { datarows: [[1, "hello", 10]] }
diff --git a/opensearch/src/main/java/org/opensearch/sql/opensearch/response/agg/BucketAggregationParser.java b/opensearch/src/main/java/org/opensearch/sql/opensearch/response/agg/BucketAggregationParser.java
@@ -10,6 +10,8 @@
 import java.util.Map;
 import java.util.Objects;
 import java.util.Optional;
+import java.util.stream.Collectors;
+import java.util.stream.IntStream;
 import lombok.EqualsAndHashCode;
 import lombok.Getter;
 import org.opensearch.search.SearchHits;
@@ -19,11 +21,11 @@
 import org.opensearch.search.aggregations.bucket.composite.CompositeAggregation;
 import org.opensearch.search.aggregations.bucket.histogram.InternalAutoDateHistogram;
 import org.opensearch.search.aggregations.bucket.range.Range;
-import org.opensearch.search.aggregations.bucket.terms.ParsedStringTerms;
+import org.opensearch.search.aggregations.bucket.terms.InternalMultiTerms;
 
 /**
- * Use BucketAggregationParser only when there is a single group-by key, it returns multiple
- * buckets. {@link CompositeAggregationParser} is used for multiple group by keys
+ * Use BucketAggregationParser for {@link MultiBucketsAggregation}, where it returns multiple
+ * buckets.
  */
 @EqualsAndHashCode
 public class BucketAggregationParser implements OpenSearchAggregationResponseParser {
@@ -118,21 +120,22 @@ public List<Map<String, Object>> parse(SearchHits hits) {
    * bucket's key.
    *
    * @param bucket the aggregation bucket to extract data from
-   * @param name the field name to use for range buckets (ignored for composite buckets)
-   * @return an Optional containing the extracted key-value pairs, or empty if bucket type is
-   *     unsupported
+   * @param name the aggregation name
+   * @return an Optional containing the extracted key-value pairs
    */
   protected Optional<Map<String, Object>> extract(
       MultiBucketsAggregation.Bucket bucket, String name) {
     Map<String, Object> extracted;
     if (bucket instanceof CompositeAggregation.Bucket compositeBucket) {
       extracted = compositeBucket.getKey();
-    } else if (bucket instanceof Range.Bucket
-        || bucket instanceof InternalAutoDateHistogram.Bucket
-        || bucket instanceof ParsedStringTerms.ParsedBucket) {
-      extracted = Map.of(name, bucket.getKey());
+    } else if (bucket instanceof InternalMultiTerms.Bucket) {
+      List<String> keys = Arrays.asList(name.split("\\|"));
+      extracted =
+          IntStream.range(0, keys.size())
+              .boxed()
+              .collect(Collectors.toMap(keys::get, ((List<Object>) bucket.getKey())::get));
     } else {
-      extracted = null;
+      extracted = Map.of(name, bucket.getKey());
     }
     return Optional.ofNullable(extracted);
   }
diff --git a/opensearch/src/main/java/org/opensearch/sql/opensearch/storage/scan/context/AggPushDownAction.java b/opensearch/src/main/java/org/opensearch/sql/opensearch/storage/scan/context/AggPushDownAction.java
@@ -10,6 +10,7 @@
 import java.util.Collections;
 import java.util.List;
 import java.util.Map;
+import java.util.stream.Collectors;
 import lombok.EqualsAndHashCode;
 import lombok.Getter;
 import org.apache.calcite.rel.RelFieldCollation;
@@ -84,6 +85,13 @@ private BucketAggregationParser convertTo(OpenSearchAggregationResponseParser pa
     }
   }
 
+  private String multiTermsBucketNameAsString(CompositeAggregationBuilder composite) {
+    return composite.sources().stream()
+        .map(TermsValuesSourceBuilder.class::cast)
+        .map(TermsValuesSourceBuilder::name)
+        .collect(Collectors.joining("|")); // PIPE cannot be used in identifier
+  }
+
   public void pushDownSortAggMetrics(List<RelFieldCollation> collations, List<String> fieldNames) {
     if (aggregationBuilder.getLeft().isEmpty()) return;
     AggregationBuilder builder = aggregationBuilder.getLeft().getFirst();
@@ -152,7 +160,7 @@ public void pushDownSortAggMetrics(List<RelFieldCollation> collations, List<Stri
                 src -> src instanceof TermsValuesSourceBuilder terms && !terms.missingBucket())) {
           // multi-term agg
           MultiTermsAggregationBuilder multiTermsBuilder =
-              new MultiTermsAggregationBuilder("multi_terms_buckets");
+              new MultiTermsAggregationBuilder(multiTermsBucketNameAsString(composite));
           multiTermsBuilder.size(composite.size());
           multiTermsBuilder.terms(
               composite.sources().stream()