Merge pull request #60 from PythonPredictions/fix/progress-indication-#41

Sam Borms · web-flow · commit 2b5a1074d073 · 2021-04-12T14:55:50.000+02:00
Progress indication for forward selection & preprocessing (fixes #41).
diff --git a/cobra/model_building/forward_selection.py b/cobra/model_building/forward_selection.py
@@ -1,10 +1,12 @@
 import logging
-log = logging.getLogger(__name__)
 
 import pandas as pd
+from tqdm.auto import tqdm
 
 from cobra.model_building import LogisticRegressionModel as MLModel
 
+log = logging.getLogger(__name__)
+
 
 class ForwardFeatureSelection:
 
@@ -159,7 +161,7 @@ def fit(self, train_data: pd.DataFrame, target_column_name: str,
     def _forward_selection(self, train_data: pd.DataFrame,
                            target_column_name: str, predictors: list,
                            forced_predictors: list=[]) -> list:
-        """Perform the forward feature selection algoritm to compute a list
+        """Perform the forward feature selection algorithm to compute a list
         of models (with increasing performance?). The length of the list,
         i.e. the number of models is bounded by the max_predictors class
         attribute.
@@ -186,7 +188,8 @@ def _forward_selection(self, train_data: pd.DataFrame,
 
         max_steps = 1 + min(self.max_predictors,
                             len(predictors) + len(forced_predictors))
-        for step in range(1, max_steps):
+        for step in tqdm(range(1, max_steps), desc="Sequentially adding best "
+                                                   "predictor..."):
             if step <= len(forced_predictors):
                 # first, we go through forced predictors
                 candidate_predictors = [var for var in forced_predictors
diff --git a/cobra/preprocessing/categorical_data_processor.py b/cobra/preprocessing/categorical_data_processor.py
@@ -17,16 +17,16 @@
 # standard lib imports
 import re
 from typing import Optional
+import logging
 
 # third party imports
 import numpy as np
 import pandas as pd
 from scipy import stats
-
+from tqdm.auto import tqdm
 from sklearn.base import BaseEstimator
 from sklearn.exceptions import NotFittedError
 
-import logging
 log = logging.getLogger(__name__)
 
 
@@ -149,7 +149,8 @@ def fit(self, data: pd.DataFrame, column_names: list,
             log.info("regroup was set to False, so no fitting is required")
             return None
 
-        for column_name in column_names:
+        for column_name in tqdm(column_names, desc="Fitting category "
+                                                   "regrouping..."):
 
             if column_name not in data.columns:
                 log.warning("DataFrame has no column '{}', so it will be "
diff --git a/cobra/preprocessing/kbins_discretizer.py b/cobra/preprocessing/kbins_discretizer.py
@@ -16,18 +16,18 @@
 from copy import deepcopy
 from typing import List
 import numbers
-
 import logging
-log = logging.getLogger(__name__)
 
 # third party imports
 import numpy as np
 import pandas as pd
-
+from tqdm.auto import tqdm
 from sklearn.base import BaseEstimator
 from sklearn.exceptions import NotFittedError
 #from sklearn.cluster import KMeans
 
+log = logging.getLogger(__name__)
+
 
 class KBinsDiscretizer(BaseEstimator):
 
@@ -186,7 +186,8 @@ def fit(self, data: pd.DataFrame, column_names: list):
                              .format(KBinsDiscretizer.__name__,
                                      self.valid_strategies, self.strategy))
 
-        for column_name in column_names:
+        for column_name in tqdm(column_names, desc="Computing "
+                                                   "discretization bins..."):
 
             if column_name not in data.columns:
                 log.warning("DataFrame has no column '{}', so it will be "
@@ -266,7 +267,7 @@ def transform(self, data: pd.DataFrame,
 
             raise NotFittedError(msg.format(self.__class__.__name__))
 
-        for column_name in column_names:
+        for column_name in tqdm(column_names, desc="Discretizing columns..."):
             if column_name not in self._bins_by_column:
                 log.warning("Column '{}' is not in fitted output "
                             "and will be skipped".format(column_name))
diff --git a/cobra/preprocessing/target_encoder.py b/cobra/preprocessing/target_encoder.py
@@ -8,14 +8,15 @@
 - Matthias Roels (implementation)
 """
 import logging
-log = logging.getLogger(__name__)
 
 #import numpy as np
 import pandas as pd
-
+from tqdm.auto import tqdm
 from sklearn.base import BaseEstimator
 from sklearn.exceptions import NotFittedError
 
+log = logging.getLogger(__name__)
+
 
 class TargetEncoder(BaseEstimator):
 
@@ -144,7 +145,7 @@ def fit(self, data: pd.DataFrame, column_names: list,
         y = data[target_column]
         self._global_mean = y.sum() / y.count()
 
-        for column in column_names:
+        for column in tqdm(column_names, desc="Fitting target encoding..."):
             if column not in data.columns:
                 log.warning("DataFrame has no column '{}', so it will be "
                             "skipped in fitting" .format(column))
@@ -209,7 +210,7 @@ def transform(self, data: pd.DataFrame,
 
             raise NotFittedError(msg.format(self.__class__.__name__))
 
-        for column in column_names:
+        for column in tqdm(column_names, desc="Applying target encoding..."):
 
             if column not in data.columns:
                 log.warning("Unknown column '{}' will be skipped"
diff --git a/requirements.txt b/requirements.txt
@@ -4,3 +4,4 @@ scipy>=1.5.4
 scikit-learn>=0.23.1
 matplotlib>=3.3.3
 seaborn>=0.11.0
+tqdm>=4.59.0