address review comments, remove unused Json code and fix unit test to avoid iceberg optimization

parthchandra · parthchandra · commit 831947031f28 · 2026-01-22T18:37:10.000-08:00
diff --git a/native/core/src/execution/planner.rs b/native/core/src/execution/planner.rs
@@ -2652,8 +2652,6 @@ fn convert_spark_types_to_arrow_schema(
 
 /// Converts a protobuf PartitionValue to an iceberg Literal.
 ///
-/// This replaces JSON parsing with direct protobuf deserialization with a more compact
-/// representation (e.g., timestamps as integers vs strings).
 fn partition_value_to_literal(
     proto_value: &spark_operator::PartitionValue,
 ) -> Result<Option<iceberg::spec::Literal>, ExecutionError> {
@@ -2696,8 +2694,8 @@ fn partition_value_to_literal(
             // Handle sign extension for negative numbers
             let value = if !bytes.is_empty() && (bytes[0] & 0x80) != 0 {
                 // Negative number - sign extend
-                for i in 0..offset {
-                    buf[i] = 0xFF;
+                for byte in buf.iter_mut().take(offset) {
+                    *byte = 0xFF;
                 }
                 i128::from_be_bytes(buf)
             } else {
diff --git a/spark/src/main/scala/org/apache/comet/serde/operator/CometIcebergNativeScan.scala b/spark/src/main/scala/org/apache/comet/serde/operator/CometIcebergNativeScan.scala
@@ -200,78 +200,6 @@ object CometIcebergNativeScan extends CometOperatorSerde[CometBatchScanExec] wit
     builder.build()
   }
 
-  /**
-   * Legacy JSON serialization function - removed in favor of protobuf. Kept as reference for
-   * conversion logic.
-   */
-  private def partitionValueToJson(fieldTypeStr: String, value: Any): JValue = {
-    fieldTypeStr match {
-      case t if t.startsWith("timestamp") =>
-        val micros = value match {
-          case l: java.lang.Long => l.longValue()
-          case i: java.lang.Integer => i.longValue()
-          case _ => value.toString.toLong
-        }
-        val instant = java.time.Instant.ofEpochSecond(micros / 1000000, (micros % 1000000) * 1000)
-        val formatted = java.time.format.DateTimeFormatter
-          .ofPattern("yyyy-MM-dd'T'HH:mm:ss.SSSSSS")
-          .withZone(java.time.ZoneOffset.UTC)
-          .format(instant)
-        JString(formatted)
-
-      case "date" =>
-        val days = value.asInstanceOf[java.lang.Integer].intValue()
-        val localDate = java.time.LocalDate.ofEpochDay(days.toLong)
-        JString(localDate.toString)
-
-      case d if d.startsWith("decimal(") =>
-        JString(value.toString)
-
-      case "string" =>
-        JString(value.toString)
-
-      case "int" | "long" =>
-        value match {
-          case i: java.lang.Integer => JInt(BigInt(i.intValue()))
-          case l: java.lang.Long => JInt(BigInt(l.longValue()))
-          case _ => JDecimal(BigDecimal(value.toString))
-        }
-
-      case "float" | "double" =>
-        value match {
-          // NaN/Infinity are not valid JSON numbers - serialize as strings
-          case f: java.lang.Float if f.isNaN || f.isInfinite =>
-            JString(f.toString)
-          case d: java.lang.Double if d.isNaN || d.isInfinite =>
-            JString(d.toString)
-          case f: java.lang.Float => JDouble(f.doubleValue())
-          case d: java.lang.Double => JDouble(d.doubleValue())
-          case _ => JDecimal(BigDecimal(value.toString))
-        }
-
-      case "boolean" =>
-        value match {
-          case b: java.lang.Boolean => JBool(b.booleanValue())
-          case _ => JBool(value.toString.toBoolean)
-        }
-
-      case "uuid" =>
-        JString(value.toString)
-
-      // Fallback: infer JSON type from Java type
-      case _ =>
-        value match {
-          case s: String => JString(s)
-          case i: java.lang.Integer => JInt(BigInt(i.intValue()))
-          case l: java.lang.Long => JInt(BigInt(l.longValue()))
-          case d: java.lang.Double => JDouble(d.doubleValue())
-          case f: java.lang.Float => JDouble(f.doubleValue())
-          case b: java.lang.Boolean => JBool(b.booleanValue())
-          case other => JString(other.toString)
-        }
-    }
-  }
-
   /**
    * Helper to extract a literal from an Iceberg expression and build a binary predicate.
    */
@@ -852,104 +780,6 @@ object CometIcebergNativeScan extends CometOperatorSerde[CometBatchScanExec] wit
                         throw new RuntimeException(msg)
                     }
 
-                    // Extract partition values for Hive-style partitioning
-                    var partitionJsonOpt: Option[String] = None
-                    try {
-                      val partitionMethod = contentFileClass.getMethod("partition")
-                      val partitionStruct = partitionMethod.invoke(dataFile)
-
-                      if (partitionStruct != null) {
-                        // scalastyle:off classforname
-                        val structLikeClass =
-                          Class.forName(IcebergReflection.ClassNames.STRUCT_LIKE)
-                        // scalastyle:on classforname
-                        val sizeMethod = structLikeClass.getMethod("size")
-                        val getMethod =
-                          structLikeClass.getMethod("get", classOf[Int], classOf[Class[_]])
-
-                        val partitionSize =
-                          sizeMethod.invoke(partitionStruct).asInstanceOf[Int]
-
-                        if (partitionSize > 0) {
-                          // Get the partition spec directly from the task
-                          // scalastyle:off classforname
-                          val partitionScanTaskClass =
-                            Class.forName(IcebergReflection.ClassNames.PARTITION_SCAN_TASK)
-                          // scalastyle:on classforname
-                          val specMethod = partitionScanTaskClass.getMethod("spec")
-                          val partitionSpec = specMethod.invoke(task)
-
-                          // Build JSON representation of partition values using json4s
-
-                          val partitionMap = scala.collection.mutable.Map[String, JValue]()
-
-                          if (partitionSpec != null) {
-                            // Get the list of partition fields from the spec
-                            val fieldsMethod = partitionSpec.getClass.getMethod("fields")
-                            val fields = fieldsMethod
-                              .invoke(partitionSpec)
-                              .asInstanceOf[java.util.List[_]]
-
-                            for (i <- 0 until partitionSize) {
-                              val value =
-                                getMethod.invoke(partitionStruct, Int.box(i), classOf[Object])
-
-                              // Get the partition field and check its transform type
-                              val partitionField = fields.get(i)
-
-                              // Only inject partition values for IDENTITY transforms
-                              val transformMethod =
-                                partitionField.getClass.getMethod("transform")
-                              val transform = transformMethod.invoke(partitionField)
-                              val isIdentity =
-                                transform.toString == IcebergReflection.Transforms.IDENTITY
-
-                              if (isIdentity) {
-                                // Get the source field ID
-                                val sourceIdMethod =
-                                  partitionField.getClass.getMethod("sourceId")
-                                val sourceFieldId =
-                                  sourceIdMethod.invoke(partitionField).asInstanceOf[Int]
-
-                                val jsonValue = if (value == null) {
-                                  JNull
-                                } else {
-                                  // Get field type from schema to serialize correctly
-                                  val fieldTypeStr =
-                                    try {
-                                      val findFieldMethod =
-                                        metadata.tableSchema.getClass
-                                          .getMethod("findField", classOf[Int])
-                                      val field = findFieldMethod.invoke(
-                                        metadata.tableSchema,
-                                        sourceFieldId.asInstanceOf[Object])
-                                      if (field != null) {
-                                        val typeMethod = field.getClass.getMethod("type")
-                                        typeMethod.invoke(field).toString
-                                      } else {
-                                        "unknown"
-                                      }
-                                    } catch {
-                                      case _: Exception => "unknown"
-                                    }
-
-                                  partitionValueToJson(fieldTypeStr, value)
-                                }
-                                partitionMap(sourceFieldId.toString) = jsonValue
-                              }
-                            }
-                          }
-
-                          val partitionJson = compact(render(JObject(partitionMap.toList)))
-                          partitionJsonOpt = Some(partitionJson)
-                        }
-                      }
-                    } catch {
-                      case e: Exception =>
-                        logWarning(
-                          s"Failed to extract partition values from DataFile: ${e.getMessage}")
-                    }
-
                     val startMethod = contentScanTaskClass.getMethod("start")
                     val start = startMethod.invoke(task).asInstanceOf[Long]
                     taskBuilder.setStart(start)
diff --git a/spark/src/test/scala/org/apache/comet/IcebergReadFromS3Suite.scala b/spark/src/test/scala/org/apache/comet/IcebergReadFromS3Suite.scala
@@ -166,7 +166,9 @@ class IcebergReadFromS3Suite extends CometS3TestBase {
   test("large scale partitioned table - 100 partitions with many files") {
     assume(icebergAvailable, "Iceberg not available in classpath")
 
-    withSQLConf("spark.sql.files.maxRecordsPerFile" -> "50") {
+    withSQLConf(
+      "spark.sql.files.maxRecordsPerFile" -> "50",
+      "spark.sql.adaptive.enabled" -> "false") {
       spark.sql("""
         CREATE TABLE s3_catalog.db.large_partitioned_test (
           id INT,
@@ -190,11 +192,11 @@ class IcebergReadFromS3Suite extends CometS3TestBase {
       checkIcebergNativeScan(
         "SELECT * FROM s3_catalog.db.large_partitioned_test WHERE id < 10 ORDER BY id")
       checkIcebergNativeScan(
-        "SELECT COUNT(*) FROM s3_catalog.db.large_partitioned_test WHERE partition_id = 0")
+        "SELECT SUM(id) FROM s3_catalog.db.large_partitioned_test WHERE partition_id = 0")
       checkIcebergNativeScan(
-        "SELECT COUNT(*) FROM s3_catalog.db.large_partitioned_test WHERE partition_id IN (0, 50, 99)")
+        "SELECT SUM(id) FROM s3_catalog.db.large_partitioned_test WHERE partition_id IN (0, 50, 99)")
 
-      spark.sql("DROP TABLE s3_catalog.db.large_partitioned_test")
+      spark.sql("DROP TABLE s3_catalog.db.large_partitioned_test PURGE")
     }
   }