CNAM-152 Refactored run signature to return an optional Dataset

danielpes · danielpes · commit b71ac620ec59 · 2016-11-22T16:58:56.000+01:00
CNAM-152 Corrected csv file extension

CNAM-152 Small changes and review
diff --git a/src/main/resources/filtering-default.conf b/src/main/resources/filtering-default.conf
@@ -59,7 +59,7 @@ test.paths = {
     ir_ben = "src/test/resources/test-input/IR_BEN_R.parquet"
     ir_imb = "src/test/resources/test-input/IR_IMB_R.parquet"
     ir_pha = "src/test/resources/test-input/IR_PHA_R.parquet"
-    dosages = "src/test/resources/test-input/DOSE_PER_MOLECULE.csv"
+    dosages = "src/test/resources/test-input/DOSE_PER_MOLECULE.CSV"
   }
   output = {
     root = "target/test/output"
diff --git a/src/main/scala/fr/polytechnique/cmap/cnam/Main.scala b/src/main/scala/fr/polytechnique/cmap/cnam/Main.scala
@@ -2,8 +2,10 @@ package fr.polytechnique.cmap.cnam
 
 import java.util.{Locale, TimeZone}
 import org.apache.log4j.{Level, Logger}
+import org.apache.spark.sql.Dataset
 import org.apache.spark.sql.hive.HiveContext
 import org.apache.spark.{SparkConf, SparkContext}
+import fr.polytechnique.cmap.cnam.flattening.FlatteningMain._
 
 trait Main {
 
@@ -27,6 +29,7 @@ trait Main {
   def startContext(): Unit = {
     _sc = new SparkContext(new SparkConf().setAppName(this.appName))
     _sql = new HiveContext(_sc)
+    _sql.setConf("spark.sql.autoBroadcastJoinThreshold", "104857600")
   }
   def stopContext(): Unit = _sc.stop()
 
@@ -44,5 +47,5 @@ trait Main {
   }
 
   def appName: String
-  def run(sqlContext: HiveContext, argsMap: Map[String, String]): Unit = {}
+  def run(sqlContext: HiveContext, argsMap: Map[String, String]): Option[Dataset[_]]
 }
diff --git a/src/main/scala/fr/polytechnique/cmap/cnam/filtering/FilteringMain.scala b/src/main/scala/fr/polytechnique/cmap/cnam/filtering/FilteringMain.scala
@@ -15,7 +15,7 @@ object FilteringMain extends Main {
     *   "conf" -> "path/to/file.conf" (default: "$resources/filtering-default.conf")
     *   "env" -> "cnam" | "cmap" | "test" (deafult: "test")
     */
-  override def run(sqlContext: HiveContext, argsMap: Map[String, String] = Map()): Unit = {
+  def run(sqlContext: HiveContext, argsMap: Map[String, String] = Map()): Option[Dataset[FlatEvent]] = {
 
     import implicits.SourceExtractor
     import sqlContext.implicits._
@@ -70,5 +70,7 @@ object FilteringMain extends Main {
     patients.toDF.write.parquet(outputPaths.patients)
     logger.info("Writing FlatEvents...")
     flatEvents.toDF.write.parquet(outputPaths.flatEvents)
+
+    Some(flatEvents)
   }
 }
diff --git a/src/main/scala/fr/polytechnique/cmap/cnam/filtering/PatientsTransformer.scala b/src/main/scala/fr/polytechnique/cmap/cnam/filtering/PatientsTransformer.scala
@@ -20,7 +20,7 @@ trait PatientsTransformer {
 object PatientsTransformer extends Transformer[Patient] with PatientsTransformer {
 
   def isDeathDateValid(deathDate: Column, birthDate: Column): Column =
-    deathDate.between(birthDate, lit(makeTS(MaxYear, 1, 1)))
+    deathDate.between(birthDate, makeTS(MaxYear, 1, 1))
 
   def transform(sources: Sources): Dataset[Patient] = {
     val irBen = IrBenPatientTransformer.transform(sources).toDF.as("irBen")
diff --git a/src/main/scala/fr/polytechnique/cmap/cnam/filtering/cox/CoxMain.scala b/src/main/scala/fr/polytechnique/cmap/cnam/filtering/cox/CoxMain.scala
@@ -121,4 +121,7 @@ object CoxMain extends Main {
     coxFeaturing(sqlContext, config, cancerDefinition, filterDelayedPatients)
     stopContext()
   }
+
+  // todo: refactor this function
+  def run(sqlContext: HiveContext, argsMap: Map[String, String]): Option[Dataset[_]] = None
 }
diff --git a/src/main/scala/fr/polytechnique/cmap/cnam/filtering/ltsccs/LTSCCSMain.scala b/src/main/scala/fr/polytechnique/cmap/cnam/filtering/ltsccs/LTSCCSMain.scala
@@ -1,5 +1,6 @@
 package fr.polytechnique.cmap.cnam.filtering.ltsccs
 
+import org.apache.spark.sql.Dataset
 import org.apache.spark.sql.functions._
 import org.apache.spark.sql.hive.HiveContext
 import com.typesafe.config.{Config, ConfigFactory}
@@ -60,4 +61,7 @@ object LTSCCSMain extends Main {
     runLTSCCS(sqlContext, config)
     stopContext()
   }
+
+  // todo: refactor this function
+  def run(sqlContext: HiveContext, argsMap: Map[String, String]): Option[Dataset[_]] = None
 }
diff --git a/src/main/scala/fr/polytechnique/cmap/cnam/filtering/mlpp/MLPPMain.scala b/src/main/scala/fr/polytechnique/cmap/cnam/filtering/mlpp/MLPPMain.scala
@@ -1,6 +1,7 @@
 package fr.polytechnique.cmap.cnam.filtering.mlpp
 
 import scala.collection.JavaConversions._
+import org.apache.spark.sql.Dataset
 import org.apache.spark.sql.functions._
 import org.apache.spark.sql.hive.HiveContext
 import com.typesafe.config.{Config, ConfigFactory}
@@ -49,4 +50,7 @@ object MLPPMain extends Main {
     MLPPFeaturing(sqlContext, config)
     stopContext()
   }
+
+  // todo: refactor this function
+  def run(sqlContext: HiveContext, argsMap: Map[String, String]): Option[Dataset[_]] = None
 }
diff --git a/src/main/scala/fr/polytechnique/cmap/cnam/flattening/FlatteningMain.scala b/src/main/scala/fr/polytechnique/cmap/cnam/flattening/FlatteningMain.scala
@@ -1,6 +1,7 @@
 package fr.polytechnique.cmap.cnam.flattening
 
-import org.apache.spark.sql.DataFrame
+import org.apache.spark.sql.{DataFrame, Dataset}
+import org.apache.spark.sql.hive.HiveContext
 import fr.polytechnique.cmap.cnam.Main
 import fr.polytechnique.cmap.cnam.utilities.FlatteningConfig
 import fr.polytechnique.cmap.cnam.utilities.FlatteningConfig._
@@ -60,10 +61,9 @@ object FlatteningMain extends Main {
     }
   }
 
-  override def main(args: Array[String]): Unit = {
-    startContext()
-    sqlContext.setConf("spark.sql.autoBroadcastJoinThreshold", "104857600")
+  def run(sqlContext: HiveContext, argsMap: Map[String, String]): Option[Dataset[_]] = {
     loadToParquet()
     joinTables()
+    None
   }
 }
diff --git a/src/main/scala/fr/polytechnique/cmap/cnam/flattening/ValidateFlattening.scala b/src/main/scala/fr/polytechnique/cmap/cnam/flattening/ValidateFlattening.scala
@@ -3,8 +3,9 @@ package fr.polytechnique.cmap.cnam.flattening
 import fr.polytechnique.cmap.cnam.Main
 import fr.polytechnique.cmap.cnam.statistics.Comparator
 import fr.polytechnique.cmap.cnam.utilities.RichDataFrames._
-import org.apache.spark.sql.{Column, DataFrame}
+import org.apache.spark.sql.{Column, DataFrame, Dataset}
 import org.apache.spark.sql.functions._
+import org.apache.spark.sql.hive.HiveContext
 import fr.polytechnique.cmap.cnam.utilities.FlatteningConfig
 import fr.polytechnique.cmap.cnam.utilities.FlatteningConfig._
 
@@ -116,8 +117,8 @@ object ValidateFlattening extends Main {
     }
   }
 
-  override def main(args: Array[String]){
-    startContext( )
+  def run(sqlContext: HiveContext, argsMap: Map[String, String]): Option[Dataset[_]] = {
     computeStoreFlatAndInputDfsStat()
+    None
   }
 }

Original file line number	Diff line number	Diff line change
`@@ -59,7 +59,7 @@ test.paths = {`
`59`	`59`	`ir_ben = "src/test/resources/test-input/IR_BEN_R.parquet"`
`60`	`60`	`ir_imb = "src/test/resources/test-input/IR_IMB_R.parquet"`
`61`	`61`	`ir_pha = "src/test/resources/test-input/IR_PHA_R.parquet"`
`62`		`- dosages = "src/test/resources/test-input/DOSE_PER_MOLECULE.csv"`
	`62`	`+ dosages = "src/test/resources/test-input/DOSE_PER_MOLECULE.CSV"`
`63`	`63`	`}`
`64`	`64`	`output = {`
`65`	`65`	`root = "target/test/output"`
Original file line number	Diff line number	Diff line change
`@@ -2,8 +2,10 @@ package fr.polytechnique.cmap.cnam`
`2`	`2`
`3`	`3`	`import java.util.{Locale, TimeZone}`
`4`	`4`	`import org.apache.log4j.{Level, Logger}`
	`5`	`+import org.apache.spark.sql.Dataset`
`5`	`6`	`import org.apache.spark.sql.hive.HiveContext`
`6`	`7`	`import org.apache.spark.{SparkConf, SparkContext}`
	`8`	`+import fr.polytechnique.cmap.cnam.flattening.FlatteningMain._`
`7`	`9`
`8`	`10`	`trait Main {`
`9`	`11`
`@@ -27,6 +29,7 @@ trait Main {`
`27`	`29`	`def startContext(): Unit = {`
`28`	`30`	`_sc = new SparkContext(new SparkConf().setAppName(this.appName))`
`29`	`31`	`_sql = new HiveContext(_sc)`
	`32`	`+ _sql.setConf("spark.sql.autoBroadcastJoinThreshold", "104857600")`
`30`	`33`	`}`
`31`	`34`	`def stopContext(): Unit = _sc.stop()`
`32`	`35`
`@@ -44,5 +47,5 @@ trait Main {`
`44`	`47`	`}`
`45`	`48`
`46`	`49`	`def appName: String`
`47`		`- def run(sqlContext: HiveContext, argsMap: Map[String, String]): Unit = {}`
	`50`	`+ def run(sqlContext: HiveContext, argsMap: Map[String, String]): Option[Dataset[_]]`
`48`	`51`	`}`
Original file line number	Diff line number	Diff line change
`@@ -121,4 +121,7 @@ object CoxMain extends Main {`
`121`	`121`	`coxFeaturing(sqlContext, config, cancerDefinition, filterDelayedPatients)`
`122`	`122`	`stopContext()`
`123`	`123`	`}`
	`124`	`+`
	`125`	`+ // todo: refactor this function`
	`126`	`+ def run(sqlContext: HiveContext, argsMap: Map[String, String]): Option[Dataset[_]] = None`
`124`	`127`	`}`
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,6 @@`
`1`	`1`	`package fr.polytechnique.cmap.cnam.filtering.ltsccs`
`2`	`2`
	`3`	`+import org.apache.spark.sql.Dataset`
`3`	`4`	`import org.apache.spark.sql.functions._`
`4`	`5`	`import org.apache.spark.sql.hive.HiveContext`
`5`	`6`	`import com.typesafe.config.{Config, ConfigFactory}`
`@@ -60,4 +61,7 @@ object LTSCCSMain extends Main {`
`60`	`61`	`runLTSCCS(sqlContext, config)`
`61`	`62`	`stopContext()`
`62`	`63`	`}`
	`64`	`+`
	`65`	`+ // todo: refactor this function`
	`66`	`+ def run(sqlContext: HiveContext, argsMap: Map[String, String]): Option[Dataset[_]] = None`
`63`	`67`	`}`
Original file line number	Diff line number	Diff line change
`@@ -1,6 +1,7 @@`
`1`	`1`	`package fr.polytechnique.cmap.cnam.filtering.mlpp`
`2`	`2`
`3`	`3`	`import scala.collection.JavaConversions._`
	`4`	`+import org.apache.spark.sql.Dataset`
`4`	`5`	`import org.apache.spark.sql.functions._`
`5`	`6`	`import org.apache.spark.sql.hive.HiveContext`
`6`	`7`	`import com.typesafe.config.{Config, ConfigFactory}`
`@@ -49,4 +50,7 @@ object MLPPMain extends Main {`
`49`	`50`	`MLPPFeaturing(sqlContext, config)`
`50`	`51`	`stopContext()`
`51`	`52`	`}`
	`53`	`+`
	`54`	`+ // todo: refactor this function`
	`55`	`+ def run(sqlContext: HiveContext, argsMap: Map[String, String]): Option[Dataset[_]] = None`
`52`	`56`	`}`
Original file line number	Diff line number	Diff line change
`@@ -1,6 +1,7 @@`
`1`	`1`	`package fr.polytechnique.cmap.cnam.flattening`
`2`	`2`
`3`		`-import org.apache.spark.sql.DataFrame`
	`3`	`+import org.apache.spark.sql.{DataFrame, Dataset}`
	`4`	`+import org.apache.spark.sql.hive.HiveContext`
`4`	`5`	`import fr.polytechnique.cmap.cnam.Main`
`5`	`6`	`import fr.polytechnique.cmap.cnam.utilities.FlatteningConfig`
`6`	`7`	`import fr.polytechnique.cmap.cnam.utilities.FlatteningConfig._`
`@@ -60,10 +61,9 @@ object FlatteningMain extends Main {`
`60`	`61`	`}`
`61`	`62`	`}`
`62`	`63`
`63`		`- override def main(args: Array[String]): Unit = {`
`64`		`- startContext()`
`65`		`- sqlContext.setConf("spark.sql.autoBroadcastJoinThreshold", "104857600")`
	`64`	`+ def run(sqlContext: HiveContext, argsMap: Map[String, String]): Option[Dataset[_]] = {`
`66`	`65`	`loadToParquet()`
`67`	`66`	`joinTables()`
	`67`	`+ None`
`68`	`68`	`}`
`69`	`69`	`}`
Original file line number	Diff line number	Diff line change
`@@ -3,8 +3,9 @@ package fr.polytechnique.cmap.cnam.flattening`
`3`	`3`	`import fr.polytechnique.cmap.cnam.Main`
`4`	`4`	`import fr.polytechnique.cmap.cnam.statistics.Comparator`
`5`	`5`	`import fr.polytechnique.cmap.cnam.utilities.RichDataFrames._`
`6`		`-import org.apache.spark.sql.{Column, DataFrame}`
	`6`	`+import org.apache.spark.sql.{Column, DataFrame, Dataset}`
`7`	`7`	`import org.apache.spark.sql.functions._`
	`8`	`+import org.apache.spark.sql.hive.HiveContext`
`8`	`9`	`import fr.polytechnique.cmap.cnam.utilities.FlatteningConfig`
`9`	`10`	`import fr.polytechnique.cmap.cnam.utilities.FlatteningConfig._`
`10`	`11`
`@@ -116,8 +117,8 @@ object ValidateFlattening extends Main {`
`116`	`117`	`}`
`117`	`118`	`}`
`118`	`119`
`119`		`- override def main(args: Array[String]){`
`120`		`- startContext( )`
	`120`	`+ def run(sqlContext: HiveContext, argsMap: Map[String, String]): Option[Dataset[_]] = {`
`121`	`121`	`computeStoreFlatAndInputDfsStat()`
	`122`	`+ None`
`122`	`123`	`}`
`123`	`124`	`}`