comment on todos/workarounds

kathyxchen · kathyxchen · commit 01d050f26b65 · 2020-02-11T18:10:49.000-05:00
diff --git a/selene_sdk/evaluate_model.py b/selene_sdk/evaluate_model.py
@@ -3,6 +3,7 @@
 """
 import logging
 import os
+import warnings
 
 import numpy as np
 import torch
@@ -104,17 +105,25 @@ def __init__(self,
 
         self.sampler = data_sampler
 
+        self.output_dir = output_dir
+        os.makedirs(output_dir, exist_ok=True)
+
         self.features = features
         self._use_ixs = list(range(len(features)))
         if use_features_ord is not None:
             feature_ixs = {f: ix for (ix, f) in enumerate(features)}
             self._use_ixs = []
-            self._use_features = use_features_ord
-            for f in use_features_ord:
-                self._use_ixs.append(feature_ixs[f])
+            self.features = []
 
-        self.output_dir = output_dir
-        os.makedirs(output_dir, exist_ok=True)
+            for f in use_features_ord:
+                if f in feature_ixs:
+                    self._use_ixs.append(feature_ixs[f])
+                    self.features.append(f)
+                else:
+                    warnings.warn(("Feature {0} in `use_features_ord` "
+                                   "does not match any features in the list "
+                                   "`features` and will be skipped.").format(f))
+            self._write_features_ordered_to_file()
 
         initialize_logger(
             os.path.join(self.output_dir, "{0}.log".format(
@@ -138,13 +147,23 @@ def __init__(self,
 
         self._test_data, self._all_test_targets = \
             self.sampler.get_data_and_targets(self.batch_size, n_test_samples)
+        # TODO: we should be able to do this on the sampler end, vs here...
+        # this is a bad workaround, since self._test_data still has the full
+        # featureset in it, and we select the subset during `evaluate`
+        self._all_test_targets = self._all_test_targets[:, self._use_ixs]
 
         if (hasattr(self.sampler, "reference_sequence") and
-                isinstance(self.sampler.reference_sequence, Genome) and
-                _is_lua_trained_model(model)):
-            Genome.update_bases_order(['A', 'G', 'C', 'T'])
-        elif isinstance(self.sampler.reference_sequence, Genome):
-            Genome.update_bases_order(['A', 'C', 'G', 'T'])
+                isinstance(self.sampler.reference_sequence, Genome)):
+            if _is_lua_trained_model(model):
+                Genome.update_bases_order(['A', 'G', 'C', 'T'])
+            else:
+                Genome.update_bases_order(['A', 'C', 'G', 'T'])
+
+    def _write_features_ordered_to_file(self):
+        fp = os.path.join(self.output_dir, 'use_features_ord.txt')
+        with open(fp, 'w+') as file_handle:
+            for f in self.features:
+                file_handle.write('{0}\n'.format(f))
 
     def _get_feature_from_index(self, index):
         """
@@ -180,7 +199,7 @@ def evaluate(self):
         all_predictions = []
         for (inputs, targets) in self._test_data:
             inputs = torch.Tensor(inputs)
-            targets = torch.Tensor(targets)
+            targets = torch.Tensor(targets[:, self._use_ixs])
 
             if self.use_cuda:
                 inputs = inputs.cuda()
@@ -192,7 +211,7 @@ def evaluate(self):
                 predictions = None
                 if _is_lua_trained_model(self.model):
                     predictions = self.model.forward(
-                        inputs.transpose(1, 2).unsqueeze_(2))
+                        inputs.transpose(1, 2).contiguous().unsqueeze_(2))
                 else:
                     predictions = self.model.forward(
                         inputs.transpose(1, 2))
diff --git a/selene_sdk/predict/model_predict.py b/selene_sdk/predict/model_predict.py
@@ -176,7 +176,7 @@ def __init__(self,
         if type(self.reference_sequence) == Genome and \
                 _is_lua_trained_model(model):
             Genome.update_bases_order(['A', 'G', 'C', 'T'])
-        else:
+        else:  # even if not using Genome, I guess we can update?
             Genome.update_bases_order(['A', 'C', 'G', 'T'])
         self._write_mem_limit = write_mem_limit
 
@@ -421,11 +421,11 @@ def get_predictions_for_bed_file(self,
             batch_ids.append(label+(contains_unk,))
             sequences[ i % self.batch_size, :, :] = encoding
             if contains_unk:
-                warnings.warn("For region {0}, "
-                                "reference sequence contains unknown base(s). "
-                                "--will be marked `True` in the `contains_unk` column "
-                                "of the .tsv or the row_labels .txt file.".format(
-                                  label))
+                warnings.warn(("For region {0}, "
+                               "reference sequence contains unknown "
+                               "base(s). --will be marked `True` in the "
+                               "`contains_unk` column of the .tsv or "
+                               "row_labels .txt file.").format(label))
 
         if (batch_ids and i == 0) or i % self.batch_size != 0:
             sequences = sequences[:i % self.batch_size + 1, :, :]