Add name-based seeding, state-specific Medicaid, SSI and WIC variables

baogorek · claude · baogorek · commit 83cdc3f821c7 · 2026-02-05T17:21:52.000-05:00
Replace shared RNG (seed=100) with per-variable name-based seeding using
_stable_string_hash for order-independent reproducibility. Add state-specific
Medicaid takeup rates (53%-99%), SSI resource test pass rate, and WIC
takeup/nutritional risk draw variables.

Co-Authored-By: Claude Opus 4.6 &lt;noreply@anthropic.com&gt;
diff --git a/changelog_entry.yaml b/changelog_entry.yaml
@@ -1,4 +1,11 @@
 - bump: minor
   changes:
     added:
-      - Move all randomness to data package for deterministic country package. Take-up decisions for SNAP, Medicaid, ACA, EITC, DC PTC, Head Start, and Early Head Start are now generated stochastically during dataset creation using take-up rates from YAML parameter files.
+      - Name-based seeding (seeded_rng) for order-independent reproducibility
+      - State-specific Medicaid takeup rates (53%-99% range, 51 jurisdictions)
+      - SSI resource test pass rate parameter (0.4)
+      - WIC takeup and nutritional risk draw variables (float)
+      - meets_ssi_resource_test boolean generation
+    changed:
+      - Replaced shared RNG (seed=100) with per-variable name-based seeding
+      - Medicaid takeup now uses state-specific rates instead of uniform 93%
diff --git a/policyengine_us_data/datasets/cps/cps.py b/policyengine_us_data/datasets/cps/cps.py
@@ -15,7 +15,7 @@
 from microimpute.models.qrf import QRF
 import logging
 from policyengine_us_data.parameters import load_take_up_rate
-
+from policyengine_us_data.utils.randomness import seeded_rng
 
 test_lite = os.environ.get("TEST_LITE") == "true"
 print(f"TEST_LITE == {test_lite}")
@@ -205,24 +205,25 @@ def add_rent(self, cps: h5py.File, person: DataFrame, household: DataFrame):
 def add_takeup(self):
     data = self.load_dataset()
 
-    from policyengine_us import system, Microsimulation
+    from policyengine_us import Microsimulation
 
     baseline = Microsimulation(dataset=self)
 
-    # Generate all stochastic take-up decisions using take-up rates from parameter files
-    # This keeps the country package purely deterministic
-    generator = np.random.default_rng(seed=100)
+    n_persons = len(data["person_id"])
+    n_tax_units = len(data["tax_unit_id"])
+    n_spm_units = len(data["spm_unit_id"])
 
-    # Load take-up rates from parameter files
+    # Load take-up rates
     eitc_rates_by_children = load_take_up_rate("eitc", self.time_period)
     dc_ptc_rate = load_take_up_rate("dc_ptc", self.time_period)
     snap_rate = load_take_up_rate("snap", self.time_period)
     aca_rate = load_take_up_rate("aca", self.time_period)
-    medicaid_rate = load_take_up_rate("medicaid", self.time_period)
+    medicaid_rates_by_state = load_take_up_rate("medicaid", self.time_period)
     head_start_rate = load_take_up_rate("head_start", self.time_period)
     early_head_start_rate = load_take_up_rate(
         "early_head_start", self.time_period
     )
+    ssi_pass_rate = load_take_up_rate("ssi_pass_rate", self.time_period)
 
     # EITC: varies by number of children
     eitc_child_count = baseline.calculate("eitc_child_count").values
@@ -232,38 +233,60 @@ def add_takeup(self):
             for c in eitc_child_count
         ]
     )
-    data["takes_up_eitc"] = (
-        generator.random(len(data["tax_unit_id"])) < eitc_takeup_rate
-    )
+    rng = seeded_rng("takes_up_eitc")
+    data["takes_up_eitc"] = rng.random(n_tax_units) < eitc_takeup_rate
 
     # DC Property Tax Credit
-    data["takes_up_dc_ptc"] = (
-        generator.random(len(data["tax_unit_id"])) < dc_ptc_rate
-    )
+    rng = seeded_rng("takes_up_dc_ptc")
+    data["takes_up_dc_ptc"] = rng.random(n_tax_units) < dc_ptc_rate
 
     # SNAP
-    data["takes_up_snap_if_eligible"] = (
-        generator.random(len(data["spm_unit_id"])) < snap_rate
-    )
+    rng = seeded_rng("takes_up_snap_if_eligible")
+    data["takes_up_snap_if_eligible"] = rng.random(n_spm_units) < snap_rate
 
     # ACA
-    data["takes_up_aca_if_eligible"] = (
-        generator.random(len(data["tax_unit_id"])) < aca_rate
-    )
+    rng = seeded_rng("takes_up_aca_if_eligible")
+    data["takes_up_aca_if_eligible"] = rng.random(n_tax_units) < aca_rate
 
-    # Medicaid
+    # Medicaid: state-specific rates
+    state_codes = baseline.calculate("state_code_str").values
+    hh_ids = data["household_id"]
+    person_hh_ids = data["person_household_id"]
+    hh_to_state = dict(zip(hh_ids, state_codes))
+    person_states = np.array(
+        [hh_to_state.get(hh_id, "CA") for hh_id in person_hh_ids]
+    )
+    medicaid_rate_by_person = np.array(
+        [medicaid_rates_by_state.get(s, 0.93) for s in person_states]
+    )
+    rng = seeded_rng("takes_up_medicaid_if_eligible")
     data["takes_up_medicaid_if_eligible"] = (
-        generator.random(len(data["person_id"])) < medicaid_rate
+        rng.random(n_persons) < medicaid_rate_by_person
     )
 
     # Head Start
+    rng = seeded_rng("takes_up_head_start_if_eligible")
     data["takes_up_head_start_if_eligible"] = (
-        generator.random(len(data["person_id"])) < head_start_rate
+        rng.random(n_persons) < head_start_rate
     )
 
     # Early Head Start
+    rng = seeded_rng("takes_up_early_head_start_if_eligible")
     data["takes_up_early_head_start_if_eligible"] = (
-        generator.random(len(data["person_id"])) < early_head_start_rate
+        rng.random(n_persons) < early_head_start_rate
+    )
+
+    # SSI resource test
+    rng = seeded_rng("meets_ssi_resource_test")
+    data["meets_ssi_resource_test"] = rng.random(n_persons) < ssi_pass_rate
+
+    # WIC draws (country package compares against category-specific rates)
+    rng = seeded_rng("wic_takeup_draw")
+    data["wic_takeup_draw"] = rng.random(n_persons).astype(np.float32)
+
+    rng = seeded_rng("wic_nutritional_risk_draw")
+    data["wic_nutritional_risk_draw"] = rng.random(n_persons).astype(
+        np.float32
     )
 
     self.save_dataset(data)
diff --git a/policyengine_us_data/parameters/__init__.py b/policyengine_us_data/parameters/__init__.py
@@ -11,36 +11,38 @@
 PARAMETERS_DIR = Path(__file__).parent
 
 
-def load_take_up_rate(variable_name: str, year: int = 2018) -> float:
+def load_take_up_rate(variable_name: str, year: int = 2018):
     """Load take-up rate from YAML parameter files.
 
     Args:
         variable_name: Name of the take-up parameter file (without .yaml)
         year: Year for which to get the rate
 
     Returns:
-        Take-up rate as a float between 0 and 1
+        float, dict (EITC rates_by_children), or dict (Medicaid
+        rates_by_state)
     """
     yaml_path = PARAMETERS_DIR / "take_up" / f"{variable_name}.yaml"
 
     with open(yaml_path) as f:
         data = yaml.safe_load(f)
 
-    # Handle EITC special case (has rates_by_children instead of values)
+    # EITC: rates by number of children
     if "rates_by_children" in data:
-        return data["rates_by_children"]  # Return the dict
+        return data["rates_by_children"]
 
-    # Find the applicable value for the year
+    # Medicaid: state-specific rates
+    if "rates_by_state" in data:
+        return data["rates_by_state"]
+
+    # Standard time-series values
     values = data["values"]
     applicable_value = None
 
     for date_key, value in sorted(values.items()):
-        # Handle both string and datetime.date objects from YAML
         if hasattr(date_key, "year"):
-            # It's a datetime.date object
             date_year = date_key.year
         else:
-            # It's a string
             date_year = int(date_key.split("-")[0])
 
         if date_year <= year:
diff --git a/policyengine_us_data/parameters/take_up/medicaid.yaml b/policyengine_us_data/parameters/take_up/medicaid.yaml
@@ -3,8 +3,62 @@ metadata:
   label: Medicaid takeup rate
   unit: /1
   period: year
+  breakdown:
+    - state_code
   reference:
     - title: KFF "A Closer Look at the Remaining Uninsured Population Eligible for Medicaid and CHIP"
-      href: https://www.kff.org/uninsured/issue-brief/a-closer-look-at-the-remaining-uninsured-population-eligible-for-medicaid-and-chip/#:~:text=the%20uninsured%20rate%20dropped%20to,States%20began%20the
-values:
-  2018-01-01: 0.93
+      href: https://www.kff.org/uninsured/issue-brief/a-closer-look-at-the-remaining-uninsured-population-eligible-for-medicaid-and-chip/
+    - title: State-specific rates derived from MACPAC enrollment targets vs modeled eligibility
+      href: https://www.medicaid.gov/medicaid/program-information/medicaid-and-chip-enrollment-data/report-highlights/index.html
+rates_by_state:
+  AK: 0.88
+  AL: 0.92
+  AR: 0.79
+  AZ: 0.95
+  CA: 0.78
+  CO: 0.99
+  CT: 0.89
+  DC: 0.99
+  DE: 0.86
+  FL: 0.98
+  GA: 0.73
+  HI: 0.88
+  IA: 0.84
+  ID: 0.78
+  IL: 0.85
+  IN: 0.99
+  KS: 0.92
+  KY: 0.87
+  LA: 0.79
+  MA: 0.94
+  MD: 0.95
+  ME: 0.92
+  MI: 0.91
+  MN: 0.89
+  MO: 0.89
+  MS: 0.75
+  MT: 0.83
+  NC: 0.94
+  ND: 0.91
+  NE: 0.79
+  NH: 0.84
+  NJ: 0.74
+  NM: 0.84
+  NV: 0.93
+  NY: 0.86
+  OH: 0.82
+  OK: 0.77
+  OR: 0.92
+  PA: 0.64
+  RI: 0.94
+  SC: 0.93
+  SD: 0.88
+  TN: 0.92
+  TX: 0.76
+  UT: 0.53
+  VA: 0.82
+  VT: 0.93
+  WA: 0.98
+  WI: 0.91
+  WV: 0.83
+  WY: 0.70
diff --git a/policyengine_us_data/parameters/take_up/ssi_pass_rate.yaml b/policyengine_us_data/parameters/take_up/ssi_pass_rate.yaml
@@ -0,0 +1,10 @@
+description: Proportion of SSI-aged-blind-disabled recipients who meet the asset test.
+metadata:
+  label: SSI resource test pass rate
+  unit: /1
+  period: year
+  reference:
+    - title: SSI resource test pass rate from policyengine-us
+      href: https://github.com/PolicyEngine/policyengine-us
+values:
+  2018-01-01: 0.4
diff --git a/policyengine_us_data/tests/test_stochastic_variables.py b/policyengine_us_data/tests/test_stochastic_variables.py
diff --git a/policyengine_us_data/utils/randomness.py b/policyengine_us_data/utils/randomness.py