Lazy load imports besides numpy/pandas

u8sand · u8sand · commit de2236db7194 · 2026-03-19T10:59:29.000-04:00
diff --git a/maayanlab_bioinformatics/clustering/silhouette_analysis.py b/maayanlab_bioinformatics/clustering/silhouette_analysis.py
@@ -1,12 +1,12 @@
 import pandas as pd
-from sklearn.cluster import KMeans
-from sklearn.metrics import silhouette_score
 
 def silhouette_analysis(mat: pd.DataFrame, min_clusters=2, max_clusters=25, metric='cosine', random_state=None, **kwargs):
   ''' Compute KMeans repeatedly on the matrix with different cluster
   values between min_clusters and max_clusters, compute the silhouette_score,
   and return the best kmeans model/predictions.
   '''
+  from sklearn.cluster import KMeans
+  from sklearn.metrics import silhouette_score
   silhouette_scores = {}
   best = None
   for n in range(min_clusters, max_clusters+1):
diff --git a/maayanlab_bioinformatics/dge/characteristic_direction.py b/maayanlab_bioinformatics/dge/characteristic_direction.py
@@ -1,8 +1,5 @@
 import numpy as np
 import pandas as pd
-from scipy.stats import chi2
-from scipy.stats.mstats import zscore
-from sklearn.decomposition import PCA
 
 # TODO: revamp _chdir
 def _chdir(data, sampleclass, genes, gamma=1., sort=True, calculate_sig=False, nnull=10, sig_only=False, norm_vector=True):
@@ -25,6 +22,9 @@ def _chdir(data, sampleclass, genes, gamma=1., sort=True, calculate_sig=False, n
     A list of tuples sorted by the absolute value in descending order characteristic directions of genes.
       If calculate_sig is set to True, each tuple contains a third element which is the ratio of characteristic directions to null ChDir
   """
+  from scipy.stats import chi2
+  from scipy.stats.mstats import zscore
+  from sklearn.decomposition import PCA
   
   ## check input
   data.astype(float)
diff --git a/maayanlab_bioinformatics/dge/deseq2.py b/maayanlab_bioinformatics/dge/deseq2.py
@@ -1,9 +1,6 @@
 import os
 import contextlib
 import pandas as pd
-from pydeseq2.dds import DeseqDataSet
-from pydeseq2.default_inference import DefaultInference
-from pydeseq2.ds import DeseqStats
 
 class _DevNull:
     def write(self, *args, **kwargs): pass
@@ -29,6 +26,9 @@ def deseq2_differential_expression(
     :param stdout: (writeable stream) direct deseq's output, e.g. sys.stdout (default: suppress)
     :return: A data frame with the results
     '''
+    from pydeseq2.dds import DeseqDataSet
+    from pydeseq2.default_inference import DefaultInference
+    from pydeseq2.ds import DeseqStats
     # Check if controls_mat and cases_mat have the same number of rows
     if controls_mat.shape[0] != cases_mat.shape[0]:
         raise ValueError("controls_mat and cases_mat must have the same number of rows.")
diff --git a/maayanlab_bioinformatics/dge/ttest.py b/maayanlab_bioinformatics/dge/ttest.py
@@ -1,5 +1,4 @@
 import pandas as pd
-import scipy.stats
 from maayanlab_bioinformatics.normalization import log2_normalize
 
 def ttest_differential_expression(controls_mat: pd.DataFrame, cases_mat: pd.DataFrame, equal_var=False, alternative='two-sided', log2norm=True):
@@ -13,6 +12,7 @@ def ttest_differential_expression(controls_mat: pd.DataFrame, cases_mat: pd.Data
   :param log2norm: (bool) Apply log2norm, typically keep with raw counts but disable if you have normalized data (default: True)
   :return: A data frame with the results
   '''
+  import scipy.stats
   assert (controls_mat.index == cases_mat.index).all(), 'Index between controls and cases must be the same'
   if log2norm:
     cases_mat = log2_normalize(cases_mat)
diff --git a/maayanlab_bioinformatics/enrichment/crisp.py b/maayanlab_bioinformatics/enrichment/crisp.py
@@ -1,5 +1,4 @@
 # import fisher
-import scipy.stats
 from typing import Union, Dict, Set, Iterable, Tuple, Hashable, Any, TypeVar, Optional
 from dataclasses import dataclass
 
@@ -68,6 +67,7 @@ def fisher_overlap(
   ''' Given input and background set, compute the overlap, fisher significance, and odds ratio.
   In the case of no overlap, will return None.
   '''
+  import scipy.stats
   overlap = input_signature & background_signature
   n_overlap = len(overlap)
   n_input_signature = len(input_signature)
diff --git a/maayanlab_bioinformatics/normalization/quantile.py b/maayanlab_bioinformatics/normalization/quantile.py
@@ -1 +1,7 @@
-from qnorm import quantile_normalize
+import numpy as np
+import pandas as pd
+import typing as t
+
+def quantile_normalize(data: pd.DataFrame, axis: int = 1, target: t.Union[None, np.ndarray] = None, ncpus: int = 1):
+  from qnorm import quantile_normalize as qnorm
+  return qnorm(data, axis=axis, target=target, ncpus=ncpus)
diff --git a/maayanlab_bioinformatics/normalization/zscore.py b/maayanlab_bioinformatics/normalization/zscore.py
@@ -2,8 +2,6 @@
 import numpy as np
 import pandas as pd
 from functools import singledispatch
-from scipy.stats import zscore
-
 
 @singledispatch
 def zscore_normalize(mat, ddof=0):
@@ -15,6 +13,7 @@ def zscore_normalize(mat, ddof=0):
 
 @zscore_normalize.register
 def zscore_normalize_np(mat: np.ndarray, ddof=0):
+  from scipy.stats import zscore
   return zscore(mat, axis=0, ddof=ddof)
 
 @zscore_normalize.register
diff --git a/maayanlab_bioinformatics/parse/suerat.py b/maayanlab_bioinformatics/parse/suerat.py
@@ -1,12 +1,12 @@
 import os
 import pandas as pd
-import scipy.sparse as sp_sparse
 from maayanlab_bioinformatics.utils import merge
 
 def suerat_load(base_dir):
   ''' Files prepared for suerat are quite common, this function will load them
   given the directory that contains `barcodes.tsv.gz`, `features.tsv.gz`, and `matrix.tsv.gz`.
   '''
+  import scipy.sparse as sp_sparse
   df_barcodes = pd.read_csv(
     os.path.join(base_dir, 'barcodes.tsv.gz'),
     index_col=0,
diff --git a/maayanlab_bioinformatics/utils/sparse.py b/maayanlab_bioinformatics/utils/sparse.py
@@ -1,5 +1,5 @@
 import numpy as np
-import scipy.sparse as sp_sparse
+import pandas as pd
 
 def sp_hdf_dump(hdf, sdf, **kwargs):
   ''' Dump Sparse Pandas DataFrame to h5py object.
@@ -40,7 +40,7 @@ def sp_hdf_load(hdf):
   f.close()
   ```
   '''
-  import pandas as pd
+  import scipy.sparse as sp_sparse
   return pd.DataFrame.sparse.from_spmatrix(
     sp_sparse.coo_array((hdf['data'], (hdf['row'], hdf['col'])), shape=hdf.attrs['shape']),
     index=pd.Series(hdf['index']).str.decode('utf8'),
@@ -53,6 +53,7 @@ def sp_std(X_ij, ddof=1):
 
   \sigma_j = \sqrt{\frac{\sum(x_ij - \mu_j)^2}{N_j - ddof}}}
   '''
+  import scipy.sparse as sp_sparse
   N_j = X_ij.shape[-1]
   mu_j = X_ij.sum(axis=0) / N_j
   num_j = ((X_ij - mu_j)**2).sum(axis=0)
@@ -65,6 +66,7 @@ def sp_std(X_ij, ddof=1):
 def sp_nanpercentile(sp, q, axis=None, method='linear'):
   ''' nanpercentile for a sparse matrix, basically we use np.percentile on the underlying data.
   '''
+  import scipy.sparse as sp_sparse
   coo = sp_sparse.coo_array(sp)
   if axis is None:
     return np.percentile(coo.data, q, method=method)