Speed up empirical estimation (#33)

TomeHirata · web-flow · commit d081138c8119 · 2025-06-22T20:16:52.000+09:00
* speed up empirical estimation

* bump version
diff --git a/Pipfile b/Pipfile
@@ -21,3 +21,4 @@ format = "ruff format"
 lint = "ruff check"
 lint-fix = "ruff check --fix"
 unittest = "python -m unittest"
+typos = "typos -w dte_adj docs tests"
diff --git a/README.md b/README.md
@@ -9,7 +9,7 @@
     pip install dte_adj
     ```
 
-2. **Install from Source**
+2. **Install from source**
 
     ```sh
     git clone https://github.com/CyberAgentAILab/python-dte-adjustment
diff --git a/dte_adj/__init__.py b/dte_adj/__init__.py
@@ -417,7 +417,7 @@ def _compute_cumulative_distribution(
         covariates: np.ndarray,
         treatment_arms: np.ndarray,
         outcomes: np.array,
-    ) -> np.ndarray:
+    ) -> Tuple[np.ndarray, np.ndarray, np.ndarray]:
         """
         Compute the cumulative distribution values.
 
@@ -429,47 +429,37 @@ def _compute_cumulative_distribution(
             outcomes (np.ndarray): An array of outcomes in the observed data
 
         Returns:
-            np.ndarray: Estimated cumulative distribution values.
+            Tuple of numpy arrays:
+                - np.ndarray: Unconditional cumulative distribution values.
+                - np.ndarray: Adjusted cumulative distribution for each observation.
+                - np.ndarray: Conditional cumulative distribution for each observation.
         """
         n_records = outcomes.shape[0]
         n_loc = locations.shape[0]
-        superset_prediction = np.zeros((n_records, n_loc))
         prediction = np.zeros((n_records, n_loc))
         treatment_mask = treatment_arms == target_treatment_arm
 
         strata = self.strata
         s_list = np.unique(strata)
-        s_dict = {}
+        w_s = {}
         for s in s_list:
             s_mask = strata == s
-            s_dict[s] = (s_mask & treatment_mask).sum() / s_mask.sum()
+            w_s[s] = (s_mask & treatment_mask).sum() / s_mask.sum()
         n_obs = outcomes.shape[0]
         n_loc = locations.shape[0]
         for i, outcome in enumerate(locations):
             for j in range(n_obs):
                 s = strata[j]
-                prediction[j, i] = (
-                    (outcomes[j] <= outcome) / s_dict[s] * treatment_mask[j]
-                )
+                prediction[j, i] = (outcomes[j] <= outcome) / w_s[s] * treatment_mask[j]
 
-        pred = {}
-        for j in range(n_obs):
-            s = strata[j]
-            s_mask = s == strata
-            if s in pred:
-                superset_prediction[j] = pred[s]
-            else:
-                superset_prediction[j] = prediction[s_mask].mean(axis=0)
-                pred[s] = superset_prediction[j]
-
-        for i, outcome in enumerate(locations):
-            for j in range(n_obs):
-                s = strata[j]
-                prediction[j, i] = (
-                    (outcomes[j] <= outcome) - superset_prediction[j, i]
-                ) / s_dict[s] * treatment_mask[j] + superset_prediction[j, i]
+        unconditional_pred = {s: prediction[s == strata].mean(axis=0) for s in s_list}
+        conditional_prediction = np.array([unconditional_pred[s] for s in strata])
+        weights = np.array([w_s[s] for s in strata])[:, np.newaxis]
+        prediction = (
+            (outcomes[:, np.newaxis] <= locations) - conditional_prediction
+        ) / weights * treatment_mask[:, np.newaxis] + conditional_prediction
 
-        return prediction.mean(axis=0), prediction, superset_prediction
+        return prediction.mean(axis=0), prediction, conditional_prediction
 
     def _compute_interval_probability(
         self,
@@ -478,57 +468,52 @@ def _compute_interval_probability(
         covariates: np.ndarray,
         treatment_arms: np.ndarray,
         outcomes: np.array,
-    ) -> np.ndarray:
-        """Compute the cumulative distribution values.
+    ) -> Tuple[np.ndarray, np.ndarray, np.ndarray]:
+        """Compute the interval probabilities.
 
         Args:
             target_treatment_arm (int): The index of the treatment arm.
-            locations (np.ndarray): Scalar values to be used for computing the cumulative distribution.
+            locations (np.ndarray): Scalar values to be used for computing the interval probabilities.
             covariates: (np.ndarray): An array of covariates variables in the observed data.
             treatment_arm (np.ndarray): An array of treatment arms in the observed data.
             outcomes (np.ndarray): An array of outcomes in the observed data
 
         Returns:
-            np.ndarray: Estimated cumulative distribution values.
+            Tuple of numpy arrays:
+                - np.ndarray: Estimated unconditional interval probabilities.
+                - np.ndarray: Adjusted for each observation.
+                - np.ndarray: Conditional for each observation.
         """
         n_records = outcomes.shape[0]
         n_loc = locations.shape[0]
-        superset_prediction = np.zeros((n_records, n_loc))
         prediction = np.zeros((n_records, n_loc))
         treatment_mask = treatment_arms == target_treatment_arm
 
         strata = self.strata
         s_list = np.unique(strata)
-        s_dict = {}
+        w_s = {}
         for s in s_list:
             s_mask = strata == s
-            s_dict[s] = (s_mask & treatment_mask).sum() / s_mask.sum()
+            w_s[s] = (s_mask & treatment_mask).sum() / s_mask.sum()
         n_obs = outcomes.shape[0]
         n_loc = locations.shape[0]
         for i, outcome in enumerate(locations):
             for j in range(n_obs):
                 s = strata[j]
-                prediction[j, i] = (
-                    (outcomes[j] <= outcome) / s_dict[s] * treatment_mask[j]
-                )
+                prediction[j, i] = (outcomes[j] <= outcome) / w_s[s] * treatment_mask[j]
 
-        for j in range(n_obs):
-            s = strata[j]
-            s_mask = s == strata
-            superset_prediction[j] = prediction[s_mask].mean(axis=0)
+        unconditional_pred = {s: prediction[s == strata].mean(axis=0) for s in s_list}
+        conditional_prediction = np.array([unconditional_pred[s] for s in strata])
+        weights = np.array([w_s[s] for s in strata])[:, np.newaxis]
+        prediction = (
+            (outcomes[:, np.newaxis] <= locations) - conditional_prediction
+        ) / weights * treatment_mask[:, np.newaxis] + conditional_prediction
 
-        for i, outcome in enumerate(locations):
-            for j in range(n_obs):
-                s = strata[j]
-                prediction[j, i] = (
-                    (outcomes[j] <= outcome) - superset_prediction[j, i]
-                ) / s_dict[s] * treatment_mask[j] + superset_prediction[j, i]
-        return prediction.mean(axis=0), superset_prediction
         cdf = prediction.mean(axis=0)
         return (
             cdf[1:] - cdf[:-1],
             prediction[:, 1:] - prediction[:, :-1],
-            superset_prediction[:, 1:] - superset_prediction[:, :-1],
+            conditional_prediction[:, 1:] - conditional_prediction[:, :-1],
         )
 
 
@@ -596,7 +581,7 @@ def _compute_cumulative_distribution(
         covariates: np.ndarray,
         treatment_arms: np.ndarray,
         outcomes: np.array,
-    ) -> np.ndarray:
+    ) -> Tuple[np.ndarray, np.ndarray, np.ndarray]:
         """
         Compute the cumulative distribution values.
 
@@ -608,7 +593,10 @@ def _compute_cumulative_distribution(
             outcomes (np.ndarray): An array of outcomes in the observed data
 
         Returns:
-            Tuple[np.ndarray, np.ndarray, np.ndarray]: Estimated cumulative distribution values, prediction for each observation, and superset prediction for each observation.
+            Tuple of numpy arrays:
+                - np.ndarray: Unconditional cumulative distribution values.
+                - np.ndarray: Adjusted cumulative distribution for each observation.
+                - np.ndarray: Conditional cumulative distribution for each observation.
         """
         n_records = outcomes.shape[0]
         n_loc = locations.shape[0]
@@ -619,7 +607,7 @@ def _compute_cumulative_distribution(
         strata = self.strata
         s_list = np.unique(strata)
         if self.is_multi_task:
-            binominal = (outcomes.reshape(-1, 1) <= locations) * 1  # (n_records, n_loc)
+            binomial = (outcomes.reshape(-1, 1) <= locations) * 1  # (n_records, n_loc)
             for fold in range(self.folds):
                 fold_mask = (folds != fold) & treatment_mask
                 for s in s_list:
@@ -628,51 +616,51 @@ def _compute_cumulative_distribution(
                     superset_mask = (folds == fold) & s_mask
                     subset_train_mask = (folds != fold) & s_mask & treatment_mask
                     covariates_train = covariates[subset_train_mask]
-                    binominal_train = binominal[subset_train_mask]
-                    if len(np.unique(binominal_train)) > 1:
+                    binomial_train = binomial[subset_train_mask]
+                    if len(np.unique(binomial_train)) > 1:
                         self.model = deepcopy(self.base_model)
-                        self.model.fit(covariates_train, binominal_train)
+                        self.model.fit(covariates_train, binomial_train)
 
                     pred = self._compute_model_prediction(
                         self.model, covariates[superset_mask]
                     )
                     prediction[superset_mask] = (
                         pred
                         + treatment_mask[superset_mask].reshape(-1, 1)
-                        * (binominal[superset_mask] - pred)
+                        * (binomial[superset_mask] - pred)
                         / weight
                     )
                     superset_prediction[superset_mask] = pred
         else:
             for i, location in enumerate(locations):
-                binominal = (outcomes <= location) * 1  # (n_records)
+                binomial = (outcomes <= location) * 1  # (n_records)
                 for fold in range(self.folds):
                     fold_mask = (folds != fold) & treatment_mask
                     covariates_train = covariates[fold_mask]
-                    binominal_train = binominal[fold_mask]
+                    binomial_train = binomial[fold_mask]
                     # Pool the records across strata and train the model
-                    if len(np.unique(binominal_train)) > 1:
+                    if len(np.unique(binomial_train)) > 1:
                         self.model = deepcopy(self.base_model)
-                        self.model.fit(covariates_train, binominal_train)
+                        self.model.fit(covariates_train, binomial_train)
                     for s in s_list:
                         s_mask = strata == s
                         weight = (s_mask & treatment_mask).sum() / s_mask.sum()
                         superset_mask = (folds == fold) & s_mask
                         subset_train_mask = (folds != fold) & s_mask & treatment_mask
                         covariates_train = covariates[subset_train_mask]
-                        binominal_train = binominal[subset_train_mask]
+                        binomial_train = binomial[subset_train_mask]
                         # TODO: revisit the logic here
-                        if len(np.unique(binominal_train)) > 1:
+                        if len(np.unique(binomial_train)) > 1:
                             # self.model = deepcopy(self.base_model)
-                            # self.model.fit(covariates_train, binominal_train)
+                            # self.model.fit(covariates_train, binomial_train)
                             pass
                         else:
-                            pred = binominal_train[0]
+                            pred = binomial_train[0]
                             superset_prediction[superset_mask, i] = pred
                             prediction[superset_mask, i] = (
                                 pred
                                 + treatment_mask[superset_mask]
-                                * (binominal[superset_mask] - pred)
+                                * (binomial[superset_mask] - pred)
                                 / weight
                             )
                             continue
@@ -682,7 +670,7 @@ def _compute_cumulative_distribution(
                         prediction[superset_mask, i] = (
                             pred
                             + treatment_mask[superset_mask]
-                            * (binominal[superset_mask] - pred)
+                            * (binomial[superset_mask] - pred)
                             / weight
                         )
                         superset_prediction[superset_mask, i] = pred
@@ -696,9 +684,9 @@ def _compute_interval_probability(
         covariates: np.ndarray,
         treatment_arms: np.ndarray,
         outcomes: np.array,
-    ) -> np.ndarray:
+    ) -> Tuple[np.ndarray, np.ndarray, np.ndarray]:
         """
-        Compute the cumulative distribution values.
+        Compute the interval probabilities.
 
         Args:
             target_treatment_arm (int): The index of the treatment arm.
@@ -708,7 +696,10 @@ def _compute_interval_probability(
             outcomes (np.ndarray): An array of outcomes in the observed data
 
         Returns:
-            np.ndarray: Estimated cumulative distribution values.
+            Tuple of numpy arrays:
+                - np.ndarray: Unconditional interval probabilities.
+                - np.ndarray: Adjusted interval probabilities for each observation.
+                - np.ndarray: Conditional interval probabilities for each observation.
         """
         n_records = outcomes.shape[0]
         n_loc = locations.shape[0]
@@ -720,28 +711,28 @@ def _compute_interval_probability(
         s_list = np.unique(strata)
         binominals = (outcomes[:, np.newaxis] <= locations) * 1  # (n_records, n_loc)
         for i in range(len(locations) - 1):
-            binominal = binominals[:, i + 1] - binominals[:, i]
+            binomial = binominals[:, i + 1] - binominals[:, i]
             for fold in range(self.folds):
                 fold_mask = (folds != fold) & treatment_mask
                 covariates_train = covariates[fold_mask]
-                binominal_train = binominal[fold_mask]
-                if len(np.unique(binominal_train)) > 1:
+                binomial_train = binomial[fold_mask]
+                if len(np.unique(binomial_train)) > 1:
                     self.model = deepcopy(self.base_model)
-                    self.model.fit(covariates_train, binominal_train)
+                    self.model.fit(covariates_train, binomial_train)
                 for s in s_list:
                     s_mask = strata == s
                     wight = (s_mask & treatment_mask).sum() / s_mask.sum()
                     superset_mask = (folds == fold) & s_mask
                     subset_train_mask = (folds != fold) & s_mask & treatment_mask
                     covariates_train = covariates[subset_train_mask]
-                    binominal_train = binominal[subset_train_mask]
-                    if len(np.unique(binominal_train)) == 1:
-                        pred = binominal_train[0]
+                    binomial_train = binomial[subset_train_mask]
+                    if len(np.unique(binomial_train)) == 1:
+                        pred = binomial_train[0]
                         superset_prediction[superset_mask, i] = pred
                         prediction[superset_mask, i] = (
                             pred
                             + treatment_mask[superset_mask]
-                            * (binominal[superset_mask] - pred)
+                            * (binomial[superset_mask] - pred)
                             / wight
                         )
                         continue
@@ -751,7 +742,7 @@ def _compute_interval_probability(
                     prediction[superset_mask, i] = (
                         pred
                         + treatment_mask[superset_mask]
-                        * (binominal[superset_mask] - pred)
+                        * (binomial[superset_mask] - pred)
                         / wight
                     )
                     superset_prediction[superset_mask, i] = pred
diff --git a/dte_adj/util.py b/dte_adj/util.py
@@ -106,4 +106,4 @@ def compute_confidence_intervals(
 
         return vec_dte_lower_simple, vec_dte_upper_simple
     else:
-        raise ValueError(f"Invalid variance type was speficied: {variance_type}")
+        raise ValueError(f"Invalid variance type was specified: {variance_type}")
diff --git a/pyproject.toml b/pyproject.toml
@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "dte_adj"
-version = "0.1.5"
+version = "0.1.6"
 description = "This is a Python library for estimating distributional treatment effects"
 readme = "README.md"
 requires-python = ">=3.10"