Fix missing value handling in Radon dataset.

The TensorFlow Datasets Authors · The TensorFlow Datasets Authors · commit 8fa2446db0b9 · 2026-05-07T06:47:43.000-07:00
PiperOrigin-RevId: 911935462
diff --git a/tensorflow_datasets/datasets/radon/radon_dataset_builder.py b/tensorflow_datasets/datasets/radon/radon_dataset_builder.py
@@ -98,12 +98,12 @@ def _split_generators(self, dl_manager):
         'file_path_srrs2': urllib.parse.urljoin(BASE_URL, 'srrs2.dat'),
         'file_path_cty': urllib.parse.urljoin(BASE_URL, 'cty.dat'),
     })
-    return [
-        tfds.core.SplitGenerator(
-            name=tfds.Split.TRAIN,
-            gen_kwargs=paths,
+    return {
+        'train': self._generate_examples(
+            file_path_srrs2=paths['file_path_srrs2'],
+            file_path_cty=paths['file_path_cty'],
         ),
-    ]
+    }
 
   def _generate_examples(self, file_path_srrs2, file_path_cty):
     """Yields examples."""
@@ -127,9 +127,13 @@ def _generate_examples(self, file_path_srrs2, file_path_cty):
     df = df.drop_duplicates(subset='idnum')
     df.drop('fips', axis=1, inplace=True)
 
-    df['wave'].replace({'  .': '-1'}, inplace=True)
-    df['rep'].replace({' .': '-1'}, inplace=True)
-    df['zip'].replace({'     ': '-1'}, inplace=True)
+    # The raw data uses whitespace padding for missing values (e.g., "  ." or
+    # "     "). We cast to string, strip whitespace, and explicitly assign the
+    # result back to avoid pandas silent mutation failures with inplace dict
+    # replacements on object columns.
+    df['wave'] = df['wave'].astype(str).str.strip().replace('.', '-1')
+    df['rep'] = df['rep'].astype(str).str.strip().replace('.', '-1')
+    df['zip'] = df['zip'].astype(str).str.strip().replace('', '-1')
 
     for i, (_, row) in enumerate(df.iterrows()):
       radon_val = row.pop('activity')