Merge pull request #147 from PythonPredictions/137-automatically-search-for-categorical-variables

patrickleonardy · web-flow · commit 2447c86a2551 · 2023-01-30T11:18:52.000+01:00
137 automatically search for categorical variables - typo fix
diff --git a/cobra/preprocessing/preprocessor.py b/cobra/preprocessing/preprocessor.py
@@ -223,20 +223,17 @@ def from_pipeline(cls, pipeline: dict):
             target_encoder,
             is_fitted=pipeline["_is_fitted"],
         )
-    
-    def get_continous_and_discreate_columns(
-        self, 
-        df : pd.DataFrame, 
-        id_col_name : str, 
-        target_column_name :str
-        ) -> tuple:
-        """Filters out the continious and discreate varaibles out of a dataframe and returns a tuple containing lists of column names 
-        It assumes that numerical comumns with less than or equal to 10 different values are categorical
+
+    def get_continuous_and_discrete_columns(
+        self, df: pd.DataFrame, id_col_name: str, target_column_name: str
+    ) -> tuple:
+        """Filters out the continuous and discrete  variables out of a dataframe and returns a tuple containing lists of column names
+        It assumes that numerical columns with less than or equal to 10 different values are categorical
 
         Parameters
         ----------
         df : pd.DataFrame
-            DataFrame that you want to divide in discreate and continous variables
+            DataFrame that you want to divide in discrete and continuous variables
         id_col_name : str
             column name of the id column, can be None
         target_column_name : str
@@ -246,30 +243,43 @@ def get_continous_and_discreate_columns(
         -------
         tuple
             tuple containing 2 lists of column names. (continuous_vars, discrete_vars)
-        """        
+        """
         if id_col_name == None:
-            log.warning("id_col_name is equal to None. If there is no id column ignore this warning")
-        
+            log.warning(
+                "id_col_name is equal to None. If there is no id column ignore this warning"
+            )
+
         # find continuous_vars and discrete_vars in the dateframe
         col_dtypes = df.dtypes
-        discrete_vars = [col for col in col_dtypes[col_dtypes==object].index.tolist() if col not in [id_col_name, target_column_name]]
-        
+        discrete_vars = [
+            col
+            for col in col_dtypes[col_dtypes == object].index.tolist()
+            if col not in [id_col_name, target_column_name]
+        ]
 
         for col in df.columns:
-            if col not in discrete_vars and col not in [id_col_name, target_column_name]: # omit discrete because a string, and target
+            if col not in discrete_vars and col not in [
+                id_col_name,
+                target_column_name,
+            ]:  # omit discrete because a string, and target
                 val_counts = df[col].nunique()
-                if val_counts > 1 and val_counts <= 10: # the column contains less than 10 different values
+                if (
+                    val_counts > 1 and val_counts <= 10
+                ):  # the column contains less than 10 different values
                     discrete_vars.append(col)
 
-        continuous_vars = list(set(df.columns)
-                            - set(discrete_vars) 
-                            - set([id_col_name, target_column_name]))
+        continuous_vars = list(
+            set(df.columns)
+            - set(discrete_vars)
+            - set([id_col_name, target_column_name])
+        )
         log.warning(
             f"""Cobra automaticaly assumes that following variables are 
             discrete: {discrete_vars}
             continuous: {continuous_vars}
-            If you want to change this behaviour you can specify the discrete/continuous variables yourself with the continuous_vars and discrete_vars keywords. \nIt assumes that numerical comumns with less than or equal to 10 different values are categorical"""
-            )
+            If you want to change this behaviour you can specify the discrete/continuous variables yourself with the continuous_vars and discrete_vars keywords.
+            It assumes that numerical columns with less than or equal to 10 different values are categorical"""
+        )
         return continuous_vars, discrete_vars
 
     def fit(
@@ -278,10 +288,10 @@ def fit(
         continuous_vars: list,
         discrete_vars: list,
         target_column_name: str,
-        id_col_name: str = None
+        id_col_name: str = None,
     ):
         """Fit the data to the preprocessing pipeline.
-        If you put continious_vars and target_vars equal to `None` and give the id_col_name Cobra will guess which varaibles are continious and which are not 
+        If you put continuous_vars and target_vars equal to `None` and give the id_col_name Cobra will guess which variables are continuous and which are not.
 
         Parameters
         ----------
@@ -297,13 +307,12 @@ def fit(
             _description_, by default None
         """
         if not (continuous_vars and discrete_vars):
-            continuous_vars, discrete_vars = self.get_continous_and_discreate_columns(
+            continuous_vars, discrete_vars = self.get_continuous_and_discrete_columns(
                 df=train_data,
                 id_col_name=id_col_name,
-                target_column_name=target_column_name
-
+                target_column_name=target_column_name,
             )
-        
+
         # get list of all variables
         preprocessed_variable_names = PreProcessor._get_variable_list(
             continuous_vars, discrete_vars
@@ -418,11 +427,11 @@ def fit_transform(
         continuous_vars: list,
         discrete_vars: list,
         target_column_name: str,
-        id_col_name: str = None
+        id_col_name: str = None,
     ) -> pd.DataFrame:
 
         """Fit preprocessing pipeline and transform the data.
-        If you put continious_vars and target_vars equal to `None` and give the id_col_name Cobra will guess which varaibles are continious and which are not          
+        If you put continuous_vars and target_vars equal to `None` and give the id_col_name Cobra will guess which variables are continuous and which are not.
 
         Parameters
         ----------
@@ -443,13 +452,14 @@ def fit_transform(
             Transformed (preprocessed) data.
         """
         if not (continuous_vars and discrete_vars) and id_col_name:
-            continuous_vars, discrete_vars = self.get_continous_and_discreate_columns(
+            continuous_vars, discrete_vars = self.get_continuous_and_discrete_columns(
                 df=train_data,
                 id_col_name=id_col_name,
-                target_column_name=target_column_name
-
+                target_column_name=target_column_name,
             )
-        self.fit(train_data, continuous_vars, discrete_vars, target_column_name, id_col_name)
+        self.fit(
+            train_data, continuous_vars, discrete_vars, target_column_name, id_col_name
+        )
 
         return self.transform(train_data, continuous_vars, discrete_vars)
 
diff --git a/tests/preprocessing/test_preprocessor.py b/tests/preprocessing/test_preprocessor.py
@@ -194,7 +194,7 @@ def test_fit_transform_without_id_col_name(self, input, expected):
         
         preprocessor = PreProcessor.from_params(model_type="classification")
         
-        continuous_vars, discrete_vars = preprocessor.get_continous_and_discreate_columns(input, "ID","Target")
+        continuous_vars, discrete_vars = preprocessor.get_continuous_and_discrete_columns(input, "ID","Target")
 
         calculated = preprocessor.fit_transform(
             input,