Use tipped occupation status in SIPP tip imputation

MaxGhenis · MaxGhenis · commit 32671b2516fb · 2026-04-08T23:20:46.000-04:00
diff --git a/policyengine_us_data/calibration/source_impute.py b/policyengine_us_data/calibration/source_impute.py
@@ -28,6 +28,10 @@
 
 import numpy as np
 import pandas as pd
+from policyengine_us_data.datasets.cps.tipped_occupation import (
+    derive_any_treasury_tipped_occupation_code,
+    derive_is_tipped_occupation,
+)
 
 from policyengine_us_data.datasets.org import (
     ORG_BOOL_VARIABLES,
@@ -80,6 +84,7 @@
     "age",
     "count_under_18",
     "count_under_6",
+    "is_tipped_occupation",
 ]
 
 SIPP_ASSETS_PREDICTORS = [
@@ -112,6 +117,8 @@
     "NONE": 0,
 }
 
+SIPP_JOB_OCCUPATION_COLUMNS = [f"TJB{i}_OCC" for i in range(1, 8)]
+
 
 def _encode_tenure_type(df: pd.DataFrame) -> pd.DataFrame:
     """Convert tenure_type enum strings to numeric codes."""
@@ -384,6 +391,14 @@ def _impute_sipp(
     sipp_df["age"] = sipp_df.TAGE
     sipp_df["household_weight"] = sipp_df.WPFINWGT
     sipp_df["household_id"] = sipp_df.SSUID
+    sipp_df["treasury_tipped_occupation_code"] = (
+        derive_any_treasury_tipped_occupation_code(
+            sipp_df[SIPP_JOB_OCCUPATION_COLUMNS]
+        )
+    )
+    sipp_df["is_tipped_occupation"] = derive_is_tipped_occupation(
+        sipp_df["treasury_tipped_occupation_code"]
+    )
 
     sipp_df["is_under_18"] = sipp_df.TAGE < 18
     sipp_df["is_under_6"] = sipp_df.TAGE < 6
@@ -401,6 +416,7 @@ def _impute_sipp(
         "count_under_18",
         "count_under_6",
         "age",
+        "is_tipped_occupation",
         "household_weight",
     ]
     tip_train = sipp_df[tip_cols].dropna()
@@ -431,6 +447,12 @@ def _impute_sipp(
     else:
         cps_tip_df["count_under_18"] = 0.0
         cps_tip_df["count_under_6"] = 0.0
+    if "treasury_tipped_occupation_code" in data:
+        cps_tip_df["is_tipped_occupation"] = derive_is_tipped_occupation(
+            data["treasury_tipped_occupation_code"][time_period]
+        ).astype(np.float32)
+    else:
+        cps_tip_df["is_tipped_occupation"] = 0.0
 
     qrf = QRF()
     logger.info(
diff --git a/policyengine_us_data/datasets/cps/cps.py b/policyengine_us_data/datasets/cps/cps.py
@@ -28,6 +28,7 @@
 from policyengine_us_data.utils.randomness import seeded_rng
 from policyengine_us_data.datasets.cps.tipped_occupation import (
     derive_treasury_tipped_occupation_code,
+    derive_is_tipped_occupation,
 )
 
 
@@ -1790,6 +1791,9 @@ def add_tips(self, cps: h5py.File):
         .values
     )
     cps = pd.DataFrame(cps)
+    cps["is_tipped_occupation"] = derive_is_tipped_occupation(
+        cps["treasury_tipped_occupation_code"]
+    )
 
     # Impute tips
 
diff --git a/policyengine_us_data/datasets/cps/tipped_occupation.py b/policyengine_us_data/datasets/cps/tipped_occupation.py
@@ -79,3 +79,32 @@ def derive_treasury_tipped_occupation_code(
     return (
         values.map(CENSUS_OCCUPATION_CODE_TO_TTOC).fillna(0).astype(np.int16).to_numpy()
     )
+
+
+def derive_any_treasury_tipped_occupation_code(
+    occupation_columns: pd.DataFrame,
+) -> np.ndarray:
+    """Collapse multiple job occupation columns to one person-level tipped code."""
+
+    if occupation_columns.shape[1] == 0:
+        return np.zeros(len(occupation_columns), dtype=np.int16)
+
+    mapped_columns = [
+        derive_treasury_tipped_occupation_code(occupation_columns[column])
+        for column in occupation_columns.columns
+    ]
+    return np.column_stack(mapped_columns).max(axis=1).astype(np.int16)
+
+
+def derive_is_tipped_occupation(
+    treasury_tipped_occupation_codes: pd.Series | np.ndarray,
+) -> np.ndarray:
+    """Return a boolean indicator for whether any Treasury tipped code is present."""
+
+    return (
+        pd.Series(treasury_tipped_occupation_codes, copy=False)
+        .fillna(0)
+        .astype(np.int16)
+        .gt(0)
+        .to_numpy()
+    )
diff --git a/policyengine_us_data/datasets/sipp/sipp.py b/policyengine_us_data/datasets/sipp/sipp.py
@@ -4,6 +4,20 @@
 from policyengine_us_data.storage import STORAGE_FOLDER
 import pickle
 from huggingface_hub import hf_hub_download
+from policyengine_us_data.datasets.cps.tipped_occupation import (
+    derive_any_treasury_tipped_occupation_code,
+    derive_is_tipped_occupation,
+)
+
+
+SIPP_JOB_OCCUPATION_COLUMNS = [f"TJB{i}_OCC" for i in range(1, 8)]
+TIP_MODEL_PREDICTORS = [
+    "employment_income",
+    "age",
+    "count_under_18",
+    "count_under_6",
+    "is_tipped_occupation",
+]
 
 
 def train_tip_model():
@@ -79,6 +93,12 @@ def train_tip_model():
     df["household_weight"] = df.WPFINWGT
     df["household_id"] = df.SSUID
     df["age"] = df.TAGE
+    df["treasury_tipped_occupation_code"] = derive_any_treasury_tipped_occupation_code(
+        df[SIPP_JOB_OCCUPATION_COLUMNS]
+    )
+    df["is_tipped_occupation"] = derive_is_tipped_occupation(
+        df["treasury_tipped_occupation_code"]
+    )
 
     sipp = df[
         [
@@ -88,6 +108,7 @@ def train_tip_model():
             "count_under_18",
             "count_under_6",
             "age",
+            "is_tipped_occupation",
             "household_weight",
         ]
     ]
@@ -107,20 +128,15 @@ def train_tip_model():
 
     model = model.fit(
         X_train=sipp,
-        predictors=[
-            "employment_income",
-            "age",
-            "count_under_18",
-            "count_under_6",
-        ],
+        predictors=TIP_MODEL_PREDICTORS,
         imputed_variables=["tip_income"],
     )
 
     return model
 
 
 def get_tip_model() -> QRF:
-    model_path = STORAGE_FOLDER / "tips.pkl"
+    model_path = STORAGE_FOLDER / "tips_tipped_occ_v2.pkl"
 
     if not model_path.exists():
         model = train_tip_model()
diff --git a/tests/unit/calibration/test_source_impute.py b/tests/unit/calibration/test_source_impute.py
@@ -4,6 +4,7 @@
 """
 
 import numpy as np
+import pandas as pd
 
 from policyengine_us_data.calibration.source_impute import (
     ACS_IMPUTED_VARIABLES,
@@ -21,6 +22,10 @@
     _person_state_fips,
     impute_source_variables,
 )
+from policyengine_us_data.datasets.cps.tipped_occupation import (
+    derive_any_treasury_tipped_occupation_code,
+    derive_is_tipped_occupation,
+)
 from policyengine_us_data.datasets.org import ORG_IMPUTED_VARIABLES
 
 
@@ -43,6 +48,9 @@ def _make_data_dict(n_persons=20, time_period=2024):
         "employment_income": {
             time_period: rng.uniform(0, 100000, n_persons).astype(np.float32),
         },
+        "treasury_tipped_occupation_code": {
+            time_period: np.zeros(n_persons, dtype=np.int16),
+        },
         "rent": {time_period: np.zeros(n_persons)},
         "real_estate_taxes": {time_period: np.zeros(n_persons)},
         "tip_income": {time_period: np.zeros(n_persons)},
@@ -100,6 +108,9 @@ def test_acs_uses_state(self):
     def test_sipp_tips_has_income(self):
         assert "employment_income" in SIPP_TIPS_PREDICTORS
 
+    def test_sipp_tips_uses_tipped_occupation_status(self):
+        assert "is_tipped_occupation" in SIPP_TIPS_PREDICTORS
+
     def test_sipp_assets_has_income(self):
         assert "employment_income" in SIPP_ASSETS_PREDICTORS
 
@@ -228,3 +239,19 @@ def test_impute_org_exists(self):
 
     def test_impute_scf_exists(self):
         assert callable(_impute_scf)
+
+
+class TestTippedOccupationHelpers:
+    def test_derive_any_treasury_tipped_occupation_code(self):
+        occupations = pd.DataFrame(
+            {
+                "TJB1_OCC": [4040, 1021, np.nan],
+                "TJB2_OCC": [np.nan, 4110, 9620],
+            }
+        )
+        derived = derive_any_treasury_tipped_occupation_code(occupations)
+        np.testing.assert_array_equal(derived, np.array([101, 102, 809]))
+
+    def test_derive_is_tipped_occupation(self):
+        derived = derive_is_tipped_occupation(np.array([0, 101, 809]))
+        np.testing.assert_array_equal(derived, np.array([False, True, True]))

Original file line number	Diff line number	Diff line change
`@@ -28,6 +28,7 @@`
`28`	`28`	`from policyengine_us_data.utils.randomness import seeded_rng`
`29`	`29`	`from policyengine_us_data.datasets.cps.tipped_occupation import (`
`30`	`30`	`derive_treasury_tipped_occupation_code,`
	`31`	`+ derive_is_tipped_occupation,`
`31`	`32`	`)`
`32`	`33`
`33`	`34`
`@@ -1790,6 +1791,9 @@ def add_tips(self, cps: h5py.File):`
`1790`	`1791`	`.values`
`1791`	`1792`	`)`
`1792`	`1793`	`cps = pd.DataFrame(cps)`
	`1794`	`+ cps["is_tipped_occupation"] = derive_is_tipped_occupation(`
	`1795`	`+ cps["treasury_tipped_occupation_code"]`
	`1796`	`+ )`
`1793`	`1797`
`1794`	`1798`	`# Impute tips`
`1795`	`1799`