LibriBrain100: drop subjects='new' alias; 'broad' is the only multi-subject token

gereonelvers · gereonelvers · commit f74795a7aa58 · 2026-05-06T02:02:23.000+02:00
Matches the paper's deep/broad component naming and removes the
redundant 'new' alias. No backwards-compat shim since LibriBrain100
hasn't shipped yet.
diff --git a/pnpl/datasets/libribrain100/dataset.py b/pnpl/datasets/libribrain100/dataset.py
@@ -37,9 +37,10 @@ class LibriBrain100(LibriBrain100Base):
             ``"val"``/``"valid"`` accepted. ``None`` means "no
             partition filter — apply only the explicit selectors".
         subjects: Subject selector. Accepts ``"all"`` (default),
-            ``"new"`` / ``"broad"`` (sub-1..32), ``"deep"``
-            (sub-0), an int, a string id (``"0"`` or ``"sub-0"``), or a
-            list / range of ids.
+            ``"deep"`` (sub-0, the deep single-subject component),
+            ``"broad"`` (sub-1..32, the broad multi-subject
+            component), an int, a string id (``"0"`` or ``"sub-0"``),
+            or a list / range of ids.
         corpus: Corpus selector. Accepts ``"all"`` (default),
             ``"sherlock"``, ``"timit"``, ``"mocha"``,
             ``"podcasts"`` (aliases like ``"mocha-timit"``,
@@ -62,13 +63,13 @@ class LibriBrain100(LibriBrain100Base):
 
     Notes:
         - The multi-subject (broad) data has no train partition by
-          design; ``subjects="new" + partition="train"`` raises
+          design; ``subjects="broad" + partition="train"`` raises
           :class:`ValueError`. For SFT workflows on broad subjects, use
           ``partition="validation"`` as your fine-tuning training set
           and ``partition="test"`` for evaluation.
-        - Multi-subject data lives only in the Sherlock corpus;
-          ``subjects="new" + corpus="timit"`` (or any non-Sherlock)
-          raises :class:`ValueError`.
+        - Multi-subject data was only collected with the Sherlock
+          stimuli; ``subjects="broad" + corpus="timit"`` (or any
+          non-Sherlock corpus) raises :class:`ValueError`.
 
     Example:
         >>> from pnpl.datasets import LibriBrain100
diff --git a/pnpl/datasets/libribrain100/selectors.py b/pnpl/datasets/libribrain100/selectors.py
@@ -56,9 +56,8 @@ def normalize_subjects(subjects: SubjectsArg) -> set[str]:
 
     Accepted forms:
       - ``"all"`` — every subject (sub-0 + sub-1..32)
-      - ``"new"`` — sub-1..32 only (no sub-0)
-      - ``"deep"`` — alias for sub-0
-      - ``"broad"`` — alias for sub-1..32
+      - ``"deep"`` — sub-0 (the deep single-subject component)
+      - ``"broad"`` — sub-1..32 (the broad multi-subject component)
       - ``0`` / ``"0"`` / ``"sub-0"`` — single subject
       - any iterable / range of ints or string ids
     """
@@ -68,7 +67,7 @@ def normalize_subjects(subjects: SubjectsArg) -> set[str]:
         token = subjects.strip().lower()
         if token == "all":
             return set(SUBJECTS)
-        if token == "new" or token == "broad":
+        if token == "broad":
             return set(NEW_SUBJECTS)
         if token == "deep":
             return {DEEP_SUBJECT}
@@ -167,7 +166,7 @@ def validate_selector_combination(
 
     if only_new and partition == PARTITION_TRAIN:
         raise ValueError(
-            "subjects='new' (or any selection without subject 0) has no "
+            "subjects='broad' (or any selection without subject 0) has no "
             "train partition by design — sub-1..32 contribute Sherlock1 "
             "ses-11 (validation) and ses-12 (test) only. For a "
             "supervised-fine-tuning workflow on the broad subjects, "
diff --git a/tests/test_libribrain100.py b/tests/test_libribrain100.py
@@ -55,7 +55,6 @@ def test_libribrain100_mro():
 def test_normalize_subjects_aliases():
     from pnpl.datasets.libribrain100 import normalize_subjects
     assert normalize_subjects("all") == {str(i) for i in range(33)}
-    assert normalize_subjects("new") == {str(i) for i in range(1, 33)}
     assert normalize_subjects("broad") == {str(i) for i in range(1, 33)}
     assert normalize_subjects("deep") == {"0"}
     assert normalize_subjects(0) == {"0"}
@@ -70,6 +69,8 @@ def test_normalize_subjects_rejects_unknown():
     from pnpl.datasets.libribrain100 import normalize_subjects
     with pytest.raises(ValueError):
         normalize_subjects("not-a-subject")
+    with pytest.raises(ValueError):
+        normalize_subjects("new")  # was an alias in the first pass; intentionally dropped
     with pytest.raises(ValueError):
         normalize_subjects(-1)
     with pytest.raises(ValueError):
@@ -116,29 +117,29 @@ def test_normalize_partition_aliases():
 # Selector validation
 # ---------------------------------------------------------------------------
 
-def test_validate_rejects_new_with_train():
+def test_validate_rejects_broad_with_train():
     from pnpl.datasets.libribrain100 import (
         normalize_corpus,
         normalize_subjects,
         validate_selector_combination,
     )
     with pytest.raises(ValueError, match="train partition"):
         validate_selector_combination(
-            subjects=normalize_subjects("new"),
+            subjects=normalize_subjects("broad"),
             corpus=normalize_corpus("sherlock"),
             partition="train",
         )
 
 
-def test_validate_rejects_new_with_non_sherlock():
+def test_validate_rejects_broad_with_non_sherlock():
     from pnpl.datasets.libribrain100 import (
         normalize_corpus,
         normalize_subjects,
         validate_selector_combination,
     )
     with pytest.raises(ValueError, match="non-deep"):
         validate_selector_combination(
-            subjects=normalize_subjects("new"),
+            subjects=normalize_subjects("broad"),
             corpus=normalize_corpus("timit"),
             partition=None,
         )