style(cli): align dataset builder with plaid conventions

fbordeu · fbordeu · commit 73ed25fd2847 · 2026-04-08T10:21:22.000+09:30
diff --git a/src/plaid/cli/build_dataset.py b/src/plaid/cli/build_dataset.py
@@ -6,7 +6,6 @@
 import csv
 import shutil
 from pathlib import Path
-from typing import Optional
 
 import numpy as np
 
@@ -112,7 +111,7 @@ def _validate_raw_layout(
     input_scalars_dir_name: str,
     output_scalars_dir_name: str,
     file_glob: str,
-    field_dirs: Optional[list[str]],
+    field_dirs: list[str] | None,
 ) -> tuple[FileMap, FileMap, FieldMaps]:
     """Validate raw layout and return discovered file maps."""
     in_scalars_dir = input_dir / input_scalars_dir_name
@@ -191,11 +190,23 @@ def _initialize_sample_geometry(
         )
         raise ValueError(msg)
 
-    first_field = next(iter(fields.values()))
+    first_field_name, first_field = next(iter(fields.items()))
     n_nodes = first_field.shape[0] if first_field.ndim > 1 else first_field.size
     if n_nodes <= 0:
         raise ValueError("Field size must be positive.")
 
+    for field_name, field_array in fields.items():
+        local_n_nodes = (
+            field_array.shape[0] if field_array.ndim > 1 else field_array.size
+        )
+        if local_n_nodes != n_nodes:
+            msg = (
+                "All fields must share the same number of support points. "
+                f"Reference field '{first_field_name}' has {n_nodes}, "
+                f"field '{field_name}' has {local_n_nodes}."
+            )
+            raise ValueError(msg)
+
     if sample.features is None:
         raise ValueError("Sample features are not initialized.")
     features = sample.features
@@ -220,7 +231,7 @@ def build_dataset_from_raw(
     output_dir: Path,
     input_scalars_dir_name: str = "input_scalars",
     output_scalars_dir_name: str = "output_scalars",
-    field_dirs: Optional[list[str]] = None,
+    field_dirs: list[str] | None = None,
     field_location: str = "Vertex",
     base_name: str = "Base_1_1",
     zone_name: str = "Zone",
@@ -312,11 +323,33 @@ def build_parser() -> argparse.ArgumentParser:
             "in a single command."
         )
     )
-    parser.add_argument("--input-dir", type=Path, required=True)
-    parser.add_argument("--output-dir", type=Path, required=True)
-    parser.add_argument("--overwrite", action="store_true")
-    parser.add_argument("--input-scalars-dir", default="input_scalars")
-    parser.add_argument("--output-scalars-dir", default="output_scalars")
+    parser.add_argument(
+        "--input-dir",
+        type=Path,
+        required=True,
+        help="Path to the raw input directory.",
+    )
+    parser.add_argument(
+        "--output-dir",
+        type=Path,
+        required=True,
+        help="Path where the PLAID dataset will be written.",
+    )
+    parser.add_argument(
+        "--overwrite",
+        action="store_true",
+        help="Overwrite output directory if it already exists.",
+    )
+    parser.add_argument(
+        "--input-scalars-dir",
+        default="input_scalars",
+        help="Subdirectory name that contains input scalar CSV files.",
+    )
+    parser.add_argument(
+        "--output-scalars-dir",
+        default="output_scalars",
+        help="Subdirectory name that contains output scalar CSV files.",
+    )
     parser.add_argument(
         "--field-dirs",
         nargs="*",
@@ -326,11 +359,32 @@ def build_parser() -> argparse.ArgumentParser:
             "all non-scalar subdirs are used."
         ),
     )
-    parser.add_argument("--field-location", default="Vertex")
-    parser.add_argument("--base-name", default="Base_1_1")
-    parser.add_argument("--zone-name", default="Zone")
-    parser.add_argument("--file-glob", default="scalars_*.csv")
-    parser.add_argument("--verbose", action="store_true")
+    parser.add_argument(
+        "--field-location",
+        default="Vertex",
+        choices=["Vertex"],
+        help="Field location in PLAID samples (currently only 'Vertex').",
+    )
+    parser.add_argument(
+        "--base-name",
+        default="Base_1_1",
+        help="Base name used when initializing sample features.",
+    )
+    parser.add_argument(
+        "--zone-name",
+        default="Zone",
+        help="Zone name used when initializing sample features.",
+    )
+    parser.add_argument(
+        "--file-glob",
+        default="scalars_*.csv",
+        help="Glob pattern used to discover CSV files in each subdirectory.",
+    )
+    parser.add_argument(
+        "--verbose",
+        action="store_true",
+        help="Print a completion message with the generated output path.",
+    )
     return parser
 
 
diff --git a/tests/cli/test_build_dataset.py b/tests/cli/test_build_dataset.py
@@ -153,6 +153,27 @@ def test_build_dataset_from_raw_invalid_location(tmp_path: Path) -> None:
         )
 
 
+def test_build_dataset_from_raw_field_size_mismatch(tmp_path: Path) -> None:
+    raw = tmp_path / "raw"
+    out = tmp_path / "out"
+
+    _write_csv(
+        raw / "input_scalars" / "scalars_00000.csv",
+        "in_a",
+        "1.0",
+    )
+    _write_csv(
+        raw / "output_scalars" / "scalars_00000.csv",
+        "out_y",
+        "2.0",
+    )
+    _write_field(raw / "field_1" / "scalars_00000.csv", [1.0, 2.0, 3.0])
+    _write_field(raw / "field_2" / "scalars_00000.csv", [4.0, 5.0])
+
+    with pytest.raises(ValueError, match="share the same number"):
+        build_dataset_from_raw(input_dir=raw, output_dir=out)
+
+
 def test_build_dataset_from_raw_overwrite(tmp_path: Path) -> None:
     raw = tmp_path / "raw"
     out = tmp_path / "out"