Add: Spark writes multiple parquet files after repartition

github-actions[bot] · web-flow · commit 2730aefea33d · 2026-04-08T09:50:21.000+03:00
Closes #237
diff --git a/_questions/data-engineering-zoomcamp/module-6/064_a71d2105aa_spark-write-multiple-parquet-per-partition.md b/_questions/data-engineering-zoomcamp/module-6/064_a71d2105aa_spark-write-multiple-parquet-per-partition.md
@@ -0,0 +1,13 @@
+---
+id: a71d2105aa
+question: Why does Spark write multiple parquet files after repartitioning a DataFrame?
+sort_order: 64
+---
+
+Spark processes data in partitions. When you write a DataFrame to disk, Spark writes each partition as a separate output file. For example:
+
+```python
+trips.repartition(4).write.parquet("output/")
+```
+
+This creates four parquet files because the DataFrame now has four partitions. This behavior enables Spark to write data in parallel and can improve performance on large datasets.