more

robert3005 · robert3005 · commit 4b0c14b9b0e4 · 2026-04-01T14:48:46.000+01:00
Signed-off-by: Robert Kruszewski &lt;github@robertk.io&gt;
diff --git a/java/vortex-spark/src/main/java/dev/vortex/spark/VortexDataSourceV2.java b/java/vortex-spark/src/main/java/dev/vortex/spark/VortexDataSourceV2.java
@@ -11,15 +11,20 @@
 import dev.vortex.api.Files;
 import dev.vortex.jni.NativeFileMethods;
 import dev.vortex.spark.config.HadoopUtils;
+import dev.vortex.spark.read.PartitionPathUtils;
 import java.util.Map;
 import java.util.Objects;
 import java.util.Optional;
+import java.util.Set;
+import java.util.stream.Collectors;
+import java.util.stream.Stream;
 import org.apache.spark.sql.SparkSession;
 import org.apache.spark.sql.connector.catalog.CatalogV2Util;
 import org.apache.spark.sql.connector.catalog.Table;
 import org.apache.spark.sql.connector.catalog.TableProvider;
 import org.apache.spark.sql.connector.expressions.Transform;
 import org.apache.spark.sql.sources.DataSourceRegister;
+import org.apache.spark.sql.types.DataType;
 import org.apache.spark.sql.types.StructType;
 import org.apache.spark.sql.util.CaseInsensitiveStringMap;
 import scala.Option;
@@ -81,18 +86,31 @@ public StructType inferSchema(CaseInsensitiveStringMap options) {
                     .findFirst();
 
             if (firstFile.isEmpty()) {
-                // Return empty struct if no files found
-                // TODO(aduffy): how does Parquet handle this?
                 return new StructType();
             } else {
                 pathToInfer = firstFile.get();
             }
         }
 
+        StructType dataSchema;
         try (File file = Files.open(pathToInfer, formatOptions)) {
             var columns = SparkTypes.toColumns(file.getDType());
-            return CatalogV2Util.v2ColumnsToStructType(columns);
+            dataSchema = CatalogV2Util.v2ColumnsToStructType(columns);
         }
+
+        // Discover partition columns from Hive-style directory paths and append them.
+        Map<String, String> partitionValues = PartitionPathUtils.parsePartitionValues(pathToInfer);
+        if (!partitionValues.isEmpty()) {
+            Set<String> dataColumnNames = Stream.of(dataSchema.fieldNames()).collect(Collectors.toSet());
+            for (Map.Entry<String, String> entry : partitionValues.entrySet()) {
+                if (!dataColumnNames.contains(entry.getKey())) {
+                    DataType type = PartitionPathUtils.inferPartitionColumnType(entry.getValue());
+                    dataSchema = dataSchema.add(entry.getKey(), type, true);
+                }
+            }
+        }
+
+        return dataSchema;
     }
 
     /**
diff --git a/java/vortex-spark/src/main/java/dev/vortex/spark/VortexFilePartition.java b/java/vortex-spark/src/main/java/dev/vortex/spark/VortexFilePartition.java
@@ -21,17 +21,25 @@ public final class VortexFilePartition implements InputPartition, Serializable {
     private final String path;
     private final ImmutableList<Column> columns;
     private final ImmutableMap<String, String> formatOptions;
+    private final ImmutableMap<String, String> partitionValues;
 
     /**
      * Creates a new Vortex file partition.
      *
      * @param path the file system path to the Vortex file
      * @param columns the list of columns to read from the file
+     * @param formatOptions options for accessing the file (S3/Azure credentials, etc.)
+     * @param partitionValues Hive-style partition column values extracted from the file path
      */
-    public VortexFilePartition(String path, ImmutableList<Column> columns, ImmutableMap<String, String> formatOptions) {
+    public VortexFilePartition(
+            String path,
+            ImmutableList<Column> columns,
+            ImmutableMap<String, String> formatOptions,
+            ImmutableMap<String, String> partitionValues) {
         this.path = path;
         this.columns = columns;
         this.formatOptions = formatOptions;
+        this.partitionValues = partitionValues;
     }
 
     /**
@@ -55,4 +63,14 @@ public ImmutableList<Column> getColumns() {
     public Map<String, String> getFormatOptions() {
         return formatOptions;
     }
+
+    /**
+     * Returns the partition column values parsed from this file's Hive-style directory path.
+     * Keys are column names, values are the string-encoded partition values.
+     *
+     * @return the partition values, empty if the file is not in a partitioned directory
+     */
+    public ImmutableMap<String, String> getPartitionValues() {
+        return partitionValues;
+    }
 }
diff --git a/java/vortex-spark/src/main/java/dev/vortex/spark/read/PartitionPathUtils.java b/java/vortex-spark/src/main/java/dev/vortex/spark/read/PartitionPathUtils.java
@@ -0,0 +1,102 @@
+// SPDX-License-Identifier: Apache-2.0
+// SPDX-FileCopyrightText: Copyright the Vortex contributors
+
+package dev.vortex.spark.read;
+
+import java.net.URLDecoder;
+import java.nio.charset.StandardCharsets;
+import java.util.LinkedHashMap;
+import java.util.Map;
+import org.apache.spark.sql.execution.vectorized.ConstantColumnVector;
+import org.apache.spark.sql.types.*;
+import org.apache.spark.unsafe.types.UTF8String;
+
+/**
+ * Utilities for discovering and materializing Hive-style partition columns from file paths.
+ */
+public final class PartitionPathUtils {
+    private static final String HIVE_DEFAULT_PARTITION = "__HIVE_DEFAULT_PARTITION__";
+
+    private PartitionPathUtils() {}
+
+    /**
+     * Parses Hive-style {@code key=value} segments from a file path.
+     *
+     * @return an ordered map of partition column names to their string values
+     */
+    public static Map<String, String> parsePartitionValues(String filePath) {
+        LinkedHashMap<String, String> values = new LinkedHashMap<>();
+        String[] segments = filePath.split("/");
+        for (String segment : segments) {
+            int eqIdx = segment.indexOf('=');
+            if (eqIdx > 0 && eqIdx < segment.length() - 1) {
+                String key = URLDecoder.decode(segment.substring(0, eqIdx), StandardCharsets.UTF_8);
+                String val = URLDecoder.decode(segment.substring(eqIdx + 1), StandardCharsets.UTF_8);
+                values.put(key, val);
+            }
+        }
+        return values;
+    }
+
+    /**
+     * Infers a Spark {@link DataType} from a partition value string.
+     * Tries integer, long, double, boolean, and falls back to string.
+     */
+    public static DataType inferPartitionColumnType(String value) {
+        if (value == null || HIVE_DEFAULT_PARTITION.equals(value)) {
+            return DataTypes.StringType;
+        }
+        try {
+            Integer.parseInt(value);
+            return DataTypes.IntegerType;
+        } catch (NumberFormatException ignored) {
+        }
+        try {
+            Long.parseLong(value);
+            return DataTypes.LongType;
+        } catch (NumberFormatException ignored) {
+        }
+        try {
+            Double.parseDouble(value);
+            return DataTypes.DoubleType;
+        } catch (NumberFormatException ignored) {
+        }
+        if ("true".equalsIgnoreCase(value) || "false".equalsIgnoreCase(value)) {
+            return DataTypes.BooleanType;
+        }
+        return DataTypes.StringType;
+    }
+
+    /**
+     * Creates a Spark {@link ConstantColumnVector} populated with the given partition value,
+     * parsed according to the target {@link DataType}.
+     */
+    public static ConstantColumnVector createConstantVector(int numRows, DataType type, String value) {
+        ConstantColumnVector vec = new ConstantColumnVector(numRows, type);
+        if (value == null || HIVE_DEFAULT_PARTITION.equals(value)) {
+            vec.setNull();
+            return vec;
+        }
+        vec.setNotNull();
+        if (type instanceof StringType) {
+            vec.setUtf8String(UTF8String.fromString(value));
+        } else if (type instanceof IntegerType || type instanceof DateType) {
+            vec.setInt(Integer.parseInt(value));
+        } else if (type instanceof LongType || type instanceof TimestampType || type instanceof TimestampNTZType) {
+            vec.setLong(Long.parseLong(value));
+        } else if (type instanceof ShortType) {
+            vec.setShort(Short.parseShort(value));
+        } else if (type instanceof ByteType) {
+            vec.setByte(Byte.parseByte(value));
+        } else if (type instanceof BooleanType) {
+            vec.setBoolean(Boolean.parseBoolean(value));
+        } else if (type instanceof FloatType) {
+            vec.setFloat(Float.parseFloat(value));
+        } else if (type instanceof DoubleType) {
+            vec.setDouble(Double.parseDouble(value));
+        } else {
+            vec.setUtf8String(UTF8String.fromString(value));
+        }
+        return vec;
+    }
+}
diff --git a/java/vortex-spark/src/main/java/dev/vortex/spark/read/VortexBatchExec.java b/java/vortex-spark/src/main/java/dev/vortex/spark/read/VortexBatchExec.java
@@ -7,6 +7,7 @@
 import com.google.common.collect.ImmutableMap;
 import dev.vortex.jni.NativeFileMethods;
 import dev.vortex.spark.VortexFilePartition;
+import java.util.Map;
 import java.util.stream.Stream;
 import org.apache.spark.sql.connector.catalog.Column;
 import org.apache.spark.sql.connector.read.Batch;
@@ -44,17 +45,20 @@ public VortexBatchExec(
      */
     @Override
     public InputPartition[] planInputPartitions() {
-        // Scan all paths and assign each file its own partition
+        // Scan all paths and assign each file its own partition.
+        // For each discovered file, parse Hive-style partition values from the path.
         return paths.stream()
                 .flatMap(path -> {
                     if (path.endsWith(".vortex")) {
                         return Stream.of(path);
                     } else {
-                        // Scan and return the paths
                         return NativeFileMethods.listVortexFiles(path, formatOptions).stream();
                     }
                 })
-                .map(path -> new VortexFilePartition(path, columns, formatOptions))
+                .map(path -> {
+                    Map<String, String> partVals = PartitionPathUtils.parsePartitionValues(path);
+                    return new VortexFilePartition(path, columns, formatOptions, ImmutableMap.copyOf(partVals));
+                })
                 .toArray(InputPartition[]::new);
     }
 
diff --git a/java/vortex-spark/src/main/java/dev/vortex/spark/read/VortexPartitionReader.java b/java/vortex-spark/src/main/java/dev/vortex/spark/read/VortexPartitionReader.java
@@ -9,22 +9,33 @@
 import dev.vortex.api.Files;
 import dev.vortex.api.ScanOptions;
 import dev.vortex.spark.VortexFilePartition;
-import java.util.List;
-import java.util.stream.Collectors;
+import java.util.*;
 import org.apache.spark.sql.connector.catalog.Column;
 import org.apache.spark.sql.connector.read.PartitionReader;
+import org.apache.spark.sql.vectorized.ColumnVector;
 import org.apache.spark.sql.vectorized.ColumnarBatch;
 
 /**
  * A {@link PartitionReader} that reads columnar batches out of a Vortex file into
  * Vortex memory format.
+ * <p>
+ * When reading from partitioned directories, partition column values are extracted from the
+ * Hive-style file path and materialized as Spark
+ * {@link org.apache.spark.sql.execution.vectorized.ConstantColumnVector} instances that are
+ * spliced into each output batch.
  */
 final class VortexPartitionReader implements PartitionReader<ColumnarBatch> {
     private final VortexFilePartition partition;
 
     private File file;
     private VortexColumnarBatchIterator batches;
 
+    /** Names of columns whose values come from the partition path rather than the data file. */
+    private Set<String> partitionColumnNames;
+
+    /** Tracks the last data batch so its native memory can be freed properly. */
+    private ColumnarBatch lastDataBatch;
+
     VortexPartitionReader(VortexFilePartition partition) {
         this.partition = partition;
         initNativeResources();
@@ -33,29 +44,86 @@ final class VortexPartitionReader implements PartitionReader<ColumnarBatch> {
     @Override
     public boolean next() {
         checkNotNull(batches, "batches");
-
         return batches.hasNext();
     }
 
     @Override
     public ColumnarBatch get() {
         checkNotNull(batches, "closed ArrayStream");
-        return batches.next();
+
+        // Free previous data batch native memory
+        if (lastDataBatch != null) {
+            lastDataBatch.close();
+            lastDataBatch = null;
+        }
+
+        ColumnarBatch dataBatch = batches.next();
+
+        if (partitionColumnNames.isEmpty()) {
+            return dataBatch;
+        }
+
+        // Track the data batch for lifecycle management
+        lastDataBatch = dataBatch;
+        return buildCombinedBatch(dataBatch);
+    }
+
+    /**
+     * Builds a combined batch with data columns from the file and constant partition columns
+     * in the order expected by the full table schema.
+     */
+    private ColumnarBatch buildCombinedBatch(ColumnarBatch dataBatch) {
+        int rowCount = dataBatch.numRows();
+        Map<String, String> partVals = partition.getPartitionValues();
+        List<Column> allColumns = partition.getColumns();
+        ColumnVector[] combined = new ColumnVector[allColumns.size()];
+
+        int dataIdx = 0;
+        for (int i = 0; i < allColumns.size(); i++) {
+            Column col = allColumns.get(i);
+            String partValue = partVals.get(col.name());
+            if (partValue != null) {
+                combined[i] = PartitionPathUtils.createConstantVector(rowCount, col.dataType(), partValue);
+            } else {
+                combined[i] = dataBatch.column(dataIdx++);
+            }
+        }
+
+        return new CombinedColumnarBatch(combined, rowCount);
     }
 
     /**
      * Initialize the Vortex File and ArrayStream resources.
+     * <p>
+     * Partition columns are identified by matching requested column names against the
+     * partition values from the file path. Only non-partition columns are pushed down
+     * to the Vortex scan.
      */
     void initNativeResources() {
+        Map<String, String> partVals = partition.getPartitionValues();
+        this.partitionColumnNames = new HashSet<>();
+
+        List<String> dataColumnNames = new ArrayList<>();
+        for (Column col : partition.getColumns()) {
+            if (partVals.containsKey(col.name())) {
+                partitionColumnNames.add(col.name());
+            } else {
+                dataColumnNames.add(col.name());
+            }
+        }
+
         file = Files.open(partition.getPath(), partition.getFormatOptions());
-        List<String> pushdownColumns =
-                partition.getColumns().stream().map(Column::name).collect(Collectors.toList());
         batches = new VortexColumnarBatchIterator(
-                file.newScan(ScanOptions.builder().columns(pushdownColumns).build()));
+                file.newScan(ScanOptions.builder().columns(dataColumnNames).build()));
     }
 
     @Override
     public void close() {
+        if (lastDataBatch != null) {
+            lastDataBatch.close();
+            lastDataBatch = null;
+        }
+
         checkNotNull(file, "File was closed");
         checkNotNull(batches, "ArrayStream was closed");
 
@@ -65,4 +133,27 @@ public void close() {
         file.close();
         file = null;
     }
+
+    /**
+     * A ColumnarBatch that does not close its column vectors on {@link #close()}.
+     * <p>
+     * The data column vectors are owned by the underlying {@link VortexColumnarBatch}
+     * (tracked via {@link #lastDataBatch}), and the constant partition vectors have trivial
+     * lifecycle. Neither should be closed by this wrapper.
+     */
+    private static final class CombinedColumnarBatch extends ColumnarBatch {
+        CombinedColumnarBatch(ColumnVector[] columns, int numRows) {
+            super(columns, numRows);
+        }
+
+        @Override
+        public void close() {
+            // Intentionally empty: lifecycle is managed by VortexPartitionReader
+        }
+
+        @Override
+        public void closeIfFreeable() {
+            // Intentionally empty
+        }
+    }
 }
diff --git a/java/vortex-spark/src/main/java/dev/vortex/spark/write/PartitionedVortexDataWriter.java b/java/vortex-spark/src/main/java/dev/vortex/spark/write/PartitionedVortexDataWriter.java