ApiCommonModel/Model/lib/wdk/model/records/geneTableQueries.xml at 740ae9214955fe15daafdd1e4cc2f4a945cebd0d · VEuPathDB/ApiCommonModel · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
<wdkModel>

  <!-- notes

    - so far this is only a unification of p and t.  crypto seemed pretty different

    - the pathways query is diff between t and p, but shouldn't be.  one is wrong.

  -->


  <querySet name="GeneTables" queryType="table" isCacheable="false">

    <defaultTestParamValues includeProjects="PlasmoDB">
      <paramValue name="source_id">%%defaultGene%%</paramValue>
      <paramValue name="project_id">PlasmoDB</paramValue>
    </defaultTestParamValues>

    <defaultTestParamValues includeProjects="ToxoDB">
      <paramValue name="source_id">TGME49_221330</paramValue>
      <paramValue name="project_id">ToxoDB</paramValue>
    </defaultTestParamValues>

    <defaultTestParamValues includeProjects="CryptoDB">
      <paramValue name="source_id">cgd3_1400</paramValue>
      <paramValue name="project_id">CryptoDB</paramValue>
    </defaultTestParamValues>
    <defaultTestParamValues includeProjects="GiardiaDB">
      <paramValue name="source_id">GL50803_112048</paramValue>
      <paramValue name="project_id">GiardiaDB</paramValue>
    </defaultTestParamValues>

    <defaultTestParamValues includeProjects="TrichDB">
      <paramValue name="source_id">TVAG_386080</paramValue>
      <paramValue name="project_id">TrichDB</paramValue>
    </defaultTestParamValues>

    <defaultTestParamValues includeProjects="TriTrypDB">
      <paramValue name="source_id">%%defaultGene%%</paramValue>
      <paramValue name="project_id">TriTrypDB</paramValue>
    </defaultTestParamValues>

    <defaultTestParamValues includeProjects="AmoebaDB">
      <paramValue name="source_id">EDI_244000</paramValue>
      <paramValue name="project_id">AmoebaDB</paramValue>
    </defaultTestParamValues>

    <defaultTestParamValues includeProjects="MicrosporidiaDB">
      <paramValue name="source_id">ECU07_1760</paramValue>
      <paramValue name="project_id">MicrosporidiaDB</paramValue>
    </defaultTestParamValues>

    <defaultTestParamValues includeProjects="PiroplasmaDB">
      <paramValue name="source_id">BBOV_IV003850</paramValue>
      <paramValue name="project_id">PiroplasmaDB</paramValue>
    </defaultTestParamValues>

    <defaultTestParamValues includeProjects="HostDB">
      <paramValue name="source_id">%%defaultGene%%</paramValue>
      <paramValue name="project_id">HostDB</paramValue>
    </defaultTestParamValues>

    <defaultTestParamValues includeProjects="FungiDB,SchistoDB,UniDB,VectorBase,InitDB">
      <paramValue name="source_id"></paramValue>
      <paramValue name="project_id"></paramValue>
    </defaultTestParamValues>


    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->
    <!-- Subcellular Location Gene Lists -->
    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->
    <sqlQuery name="SubcelluarLocationGeneLists">
      <column name="source_id"/>
      <column name="project_id"/>
      <column name="gene_list"/>
      <column name="dataset_presenter_id"/>
      <column name="dataset_presenter_display_name"/>
      <sql>
        <![CDATA[
        select distinct ga.source_id
        , ga.project_id
                   , replace(pan.name,' (subcellular_localization)','') as gene_list
                    , ed.dataset_presenter_id
                    , ed.DATASET_PRESENTER_DISPLAY_NAME
              from apidb.nafeaturelist fl
          , webready.GeneAttributes_p ga
          , apidbtuning.NodeSetOutputNode sl
          , study.protocolappnode pan
          , study.nodeset s
          , APIDBTUNING.EXTERNALDBDATASETPRESENTER ed
        where sl.protocol_app_node_id = fl.protocol_app_node_id
        and sl.node_set_id=  s.node_set_id
        and fl.na_feature_id = ga.na_feature_id
        and sl.PROTOCOL_APP_NODE_ID = pan.PROTOCOL_APP_NODE_ID
        and s.EXTERNAL_DATABASE_RELEASE_ID = ed.EXTERNAL_DATABASE_RELEASE_ID
        and ed.dataset_presenter_name like '%subcellular_localization_%'
        and ga.org_abbrev IN (%%PARTITION_KEYS%%)
        ]]>
      </sql>
    </sqlQuery>

    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->
    <!-- Function Prediction Gene Lists -->
    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->
    <sqlQuery name="FunctionPredictionGeneLists">
      <column name="source_id"/>
      <column name="project_id"/>
      <column name="gene_list"/>
      <column name="dataset_presenter_id"/>
      <column name="dataset_presenter_display_name"/>
      <sql>
        <![CDATA[
        select distinct ga.source_id
        , ga.project_id
                   , replace(pan.name,' (functional_data)','') as gene_list
                    , ed.dataset_presenter_id
                    , ed.DATASET_PRESENTER_DISPLAY_NAME
              from apidb.nafeaturelist fl
          , webready.GeneAttributes_p ga
          , apidbtuning.NodeSetOutputNode sl
          , study.protocolappnode pan
          , study.nodeset s
          , APIDBTUNING.EXTERNALDBDATASETPRESENTER ed
        where sl.protocol_app_node_id = fl.protocol_app_node_id
        and sl.node_set_id=  s.node_set_id
        and fl.na_feature_id = ga.na_feature_id
        and sl.PROTOCOL_APP_NODE_ID = pan.PROTOCOL_APP_NODE_ID
        and s.EXTERNAL_DATABASE_RELEASE_ID = ed.EXTERNAL_DATABASE_RELEASE_ID
        and ed.dataset_presenter_name like '%functional_data_%'
        and ga.org_abbrev IN (%%PARTITION_KEYS%%)
         ]]>
      </sql>
    </sqlQuery>

    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->
    <!-- protein source ids -->
    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->
    <sqlQuery name="ProteinSourceIDs">
      <column name="source_id"/>
      <column name="project_id"/>
      <column name="protein_source_id"/>
      <sql>
        <![CDATA[
          SELECT ta.gene_source_id as source_id,ta.project_id, ta.protein_source_id
          FROM webready.TranscriptAttributes_p ta
          WHERE protein_source_id IS NOT NULL
          and ta.org_abbrev IN (%%PARTITION_KEYS%%)
        ]]>
      </sql>
    </sqlQuery>

    <sqlQuery name="StringDBProtein">
      <column name="source_id"/>
      <column name="project_id"/>
      <column name="protein_source_id"/>
      <column name="jsonString"/>

      <sql>
        <![CDATA[
          WITH hasOverlap AS (
            SELECT DISTINCT count(*) AS ct
            FROM webready.TaxonSpecies_p ts, webready.GeneAttributes_p ga, sres.taxon t, APIDBTUNING.stringdb ss
            WHERE ga.taxon_id = ts.taxon_id
              AND ts.SPECIES_TAXON_ID = t.taxon_id
              AND ss.ncbi_tax_id = t.ncbi_tax_id
              and ga.org_abbrev IN (%%PARTITION_KEYS%%)
              and ts.org_abbrev IN (%%PARTITION_KEYS%%)
          )
          SELECT ta.gene_source_id AS source_id
            , ta.project_id
            , ta.protein_source_id
            , (
              SELECT CONCAT('['
                       , string_agg(CONCAT('[', ncbi_tax_id, ', "', official_name_ncbi, '"]'), ', ' ORDER BY official_name_ncbi)
                       , ']') AS json
              FROM apidbTuning.Stringdb
              WHERE is_eupath_organism = 1
            ) AS jsonString
          FROM webready.TranscriptAttributes_p ta
          WHERE ( SELECT ct FROM hasOverlap ) > 0
            AND protein_source_id IS NOT NULL
            and ta.org_abbrev IN (%%PARTITION_KEYS%%)
         ]]>
      </sql>
    </sqlQuery>


    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->
    <!-- Gene Transcripts -->
    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->
    <sqlQuery name="GeneTranscripts">
      <column name="source_id"/>
      <column name="project_id"/>
      <column name="transcript_id"/>
      <column name="exon_count"/>
      <column name="length"/>
      <column name="protein_length"/>
      <column name="transcript_type"/>
      <sql>
        <!-- transcripts must be ordered alphabetically, as expected by client -->
        <![CDATA[
          SELECT gene_source_id as source_id
               , source_id as transcript_id
               , project_id as project_id
               , exon_count
               , length
               , CASE WHEN (transcript_type LIKE 'pseudogen%' OR gene_type LIKE 'pseudogen%' OR so_term_name LIKE 'pseudogen%') THEN NULL ELSE protein_length END AS protein_length
               , CASE WHEN (transcript_type LIKE 'pseudogen%' OR gene_type LIKE 'pseudogen%' OR so_term_name LIKE 'pseudogen%') THEN 'pseudogenic_transcript'
                      ELSE transcript_type END AS transcript_type
               --, so_term_name
               --, transcript_product
          FROM webready.TranscriptAttributes_p
          where org_abbrev IN (%%PARTITION_KEYS%%)
          ORDER by source_id
        ]]>
      </sql>
    </sqlQuery>

    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->
    <!-- Gene Model -->
    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->

       <!-- this query is used by gene dump -->
       <!-- TODO:  Need to figure out how to get rid of macro here -->
       <sqlQuery name="GeneModelDump" isCacheable="false">
            <column name="source_id"/>
            <column name="transcript_ids"/>
            <column name="project_id"/>
            <column name="type"/>
            <column name="sequence_id"/>
            <column name="gm_start"/>
            <column name="gm_end"/>
            <column name="strand"/>
            <sql>
              <![CDATA[
                SELECT source_id
                  , '@PROJECT_ID@' AS project_id
                  , sequence_id
                  , gm_start
                  , gm_end
                  , type
                  , CASE is_reversed WHEN 0 THEN '+' WHEN 1 THEN '-' ELSE '.' END strand
                  , transcript_ids
                FROM webready.GeneModelDump_p
                 -- NOTE:  The order here is very important!  changing this will impact the SRT tool
                WHERE org_abbrev IN (%%PARTITION_KEYS%%)
                ORDER BY CASE WHEN is_reversed = 1 THEN -1 * gm_start ELSE gm_start END
              ]]>
            </sql>
        </sqlQuery>

    <!-- TODO:  need to check what happened to this table.  Should be like transcriptgenomicsequencesplit
           <sqlQuery name="GeneModelSequence" isCacheable="false" >
                <testParamValues includeProjects="MicrosporidiaDB">
                   <paramValue name="source_id">EBI_27499</paramValue>
                   <paramValue name="project_id">MicrosporidiaDB</paramValue>
                </testParamValues>

                <column name="source_id"/>
                <column name="gene_source_id"/>
                <column name="project_id"/>
                <column name="sequence"/>
                <sql>
                    select source_id, '@PROJECT_ID@' AS project_id,
                       gene_genomic_sequence as sequence
                    FROM apidb.GENEGENOMICSEQUENCE_SPLIT
                    order by start_min
                </sql>
            </sqlQuery>
    -->
    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->
    <!-- Tables for protein attributes  -->
    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->


    <sqlQuery name="ECNumbers" isCacheable="false" >
      <column name="source_id"/>
      <column name="project_id"/>
      <column name="transcript_ids"/>
      <column name="ec_number"/>
      <column name="ec_description"/>
      <column name="ec_source"/>
      <column name="expasy_url"/>

      <sql>
        <![CDATA[
          SELECT ta.gene_source_id AS source_id
            , ta.project_id
            , string_agg(ta.source_id, ', ' ORDER BY ta.source_id) AS transcript_ids
            , ec.ec_number
            , ec.description AS ec_description
            , CASE asec.evidence_code
                WHEN 'OrthoMCLDerived' THEN 'computationally inferred from orthology'
                WHEN 'gb' THEN 'GenBank'
                WHEN 'Hagai' THEN 'MPMP'
                ELSE evidence_code
            END AS ec_source
            , CONCAT('https://enzyme.expasy.org/EC/' , ec.ec_number ) as expasy_url
          FROM
            sres.enzymeclass ec
            , dots.aasequenceenzymeclass asec
            , webready.TranscriptAttributes_p ta
          LEFT JOIN webready.transcriptorthologgroup tog on ta.source_id = tog.source_id
          WHERE ta.aa_sequence_id = asec.aa_sequence_id
            AND asec.enzyme_class_id = ec.enzyme_class_id
            AND ((tog.group_id IS NULL AND asec.evidence_code != 'OrthoMCLDerived') OR tog.group_id IS NOT NULL)
            and ta.org_abbrev IN (%%PARTITION_KEYS%%)
          GROUP BY ta.gene_source_id
              , ta.project_id
              , ec.ec_number
              , ec.description
              , asec.evidence_code
              , ec.ec_number_1
              , ec.ec_number_2
              , ec.ec_number_3
              , ec.ec_number_4
        ]]>
      </sql>
    </sqlQuery>

    <sqlQuery name="ECNumbersInferred" isCacheable="false" >
      <column name="source_id"/>
      <column name="project_id"/>
      <column name="ec_number"/>
      <column name="domain_score"/>
      <column name="length_score"/>
      <column name="length_mean"/>
      <column name="num_supporting_cluster"/>
      <column name="num_protein_cluster"/>
      <column name="num_any_ec_cluster"/>
      <column name="num_supporting_group"/>
      <column name="num_protein_group"/>
      <column name="num_any_ec_group"/>

      <sql>
        <![CDATA[
          SELECT ta.gene_source_id AS source_id, ta.project_id, ec.ec_number,
              asec.domain_score, asec.length_score, asec.length_mean,
              asec.num_supporting_cluster, asec.num_protein_cluster, asec.num_any_ec_cluster,
              asec.num_supporting_group, asec.num_protein_group, asec.num_any_ec_group
          FROM webready.TranscriptAttributes_p ta, sres.enzymeclass ec, dots.aasequenceenzymeclass asec
          WHERE ta.aa_sequence_id = asec.aa_sequence_id AND asec.enzyme_class_id = ec.enzyme_class_id
            AND asec.evidence_code = 'OrthoMCLDerived'
            and ta.org_abbrev IN (%%PARTITION_KEYS%%)
        ]]>
      </sql>
    </sqlQuery>

    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->
    <!-- GO terms -->
    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->

    <sqlQuery name="GOTerms" isCacheable="false" >
      <column name="source_id"/>
      <column name="transcript_ids"/>
      <column name="project_id"/>
      <column name="go_id"/>
      <column name="is_not"/>
      <column name="go_term_name"/>
      <column name="ontology"/>
      <column name="source"/>
      <column name="evidence_code"/>
      <column name="reference"/>
      <column name="evidence_code_parameter"/>
      <column name="sort_key"/>
      <sql>
        <![CDATA[
          SELECT source_id, project_id, go_id,  transcript_ids, is_not, go_term_name,
                 ontology, source, evidence_code, reference, evidence_code_parameter, sort_key
          FROM webready.GeneGoTable_p
          where org_abbrev IN (%%PARTITION_KEYS%%)
        ]]>
      </sql>
    </sqlQuery>

    <sqlQuery name="GOSlim" isCacheable="false" >
      <column name="source_id"/>
      <column name="project_id"/>
      <column name="ontology"/>
      <column name="go_id"/>
      <column name="is_not"/>
      <column name="go_term_name"/>
      <column name="slim_go_id"/>
      <column name="slim_go_term_name"/>
      <column name=""/>
      <sql>
        <![CDATA[
          SELECT goslim.*, ga.project_id
          FROM
            (
              SELECT go_term.source_id
                , go_term.ontology
                , REPLACE(go_term.go_id, 'GO_', 'GO:') AS go_id
                , go_term.go_term_name
                , REPLACE(go_slim.slim_go_id, 'GO_', 'GO:') AS slim_go_id
                , substr(string_agg(go_term.is_not, ''), 1, 10) AS is_not
                , go_slim.slim_go_term_name
              FROM (
                  SELECT DISTINCT
                    gene_source_id AS source_id
                    , ontology
                    , go_id
                    , go_term_id
                    , go_term_name
                    , is_not
                  FROM webready.GeneGoTerms_p
                  WHERE org_abbrev IN (%%PARTITION_KEYS%%)
                ) go_term
                LEFT JOIN (
                  SELECT gsl.go_term_id, ot.source_id AS slim_go_id, ot.name AS slim_go_term_name
                  FROM apidbTuning.GoSubsetLeaf gsl, sres.OntologyTerm ot
                  WHERE gsl.go_subset_term = 'goslim_generic'
                    AND gsl.subset_leaf_term_id = ot.ontology_term_id
                ) go_slim
                  ON go_term.go_term_id = go_slim.go_term_id
              GROUP BY source_id, ontology, go_id, go_term_name, slim_go_id, slim_go_term_name
            ) goslim
            , webready.GeneAttributes_p ga
          WHERE goslim.source_id = ga.source_id
            AND ga.org_abbrev IN (%%PARTITION_KEYS%%)
          ORDER BY goslim.source_id, goslim.ontology, goslim.go_id
        ]]>
      </sql>
    </sqlQuery>


    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->
    <!-- Expression Graphs -->
    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->

       <sqlQuery name="ExpressionGraphs" >
            <column name="source_id" />
            <column name="project_id" />
            <column name="project_id_url" />
            <column name="graph_ids" />
            <column name="default_graph_id" />
            <column name="module" />
            <column name="genus_species" />
            <column name="mainOpen" />
            <column name="dataOpen" />
            <column name="display_name" />
            <column name="description" />
            <column name="x_axis" />
            <column name="y_axis" />
            <column name="has_graph_data"/>
            <column name="has_meta_data"/>
            <column name="meta_data_categories"/>
            <column name="dataset_name"/>
            <column name="dataset_id"/>
            <column name="is_graph_custom"/>
            <column name="summary"/>
            <column name="short_attribution"/>
            <column name="assay_type"/>
            <column name="paralog_number"/>
            <column name="template"/>

      <!--don't show multiple isolates on record page in VB-->
      <sqlParamValue name="geneGroupJoin" excludeProjects="VectorBase"></sqlParamValue>
      <sqlParamValue name="geneGroupJoin" includeProjects="VectorBase">AND psgene.source_id = psgene.profile_graph_id</sqlParamValue>
      <sql>
        <![CDATA[
          SELECT g.*
            , CASE '@PROJECT_ID@' WHEN 'UniDB' THEN 'EuPathDB' ELSE g.project_id END as project_id_url
            , CASE lower(is_graph_custom) WHEN 'false' THEN 1 ELSE 0 END as template
            , SPLIT_PART(graph_ids, ',', 1) AS default_graph_id
            , CASE WHEN graph_ids IS NULL THEN 0 ELSE 1 END AS has_graph_data
            , dpr.SUMMARY , dpr.display_name, dpr.description
            , CASE WHEN g.pmids IS NULL THEN dpr.short_attribution ELSE
                    CONCAT('<a href="http://www.ncbi.nlm.nih.gov/pubmed/', g.pmids, '">', dpr.short_attribution, '</a>')
              END AS short_attribution
          FROM apidbtuning.datasetPresenter dpr,
            ( SELECT ga.source_id, ga.project_id, ga.organism as gene_organism, ga.genus_species,
                graph_descrip.dataset as dataset_name,
                string_agg(psgene.profile_graph_id, ',' ORDER BY ga.source_id) AS graph_ids,
                tn.name as graph_organism, 'TRUE' as mainOpen, 'FALSE' as dataOpen,
                'FALSE' has_meta_data, '' as meta_data_categories,
                graph_descrip.*, dp.dataset_presenter_id as dataset_id,
                string_agg(pub.pmid, ',') AS pmids,
                CASE dds.category
                  WHEN 'RNASeq' THEN 'RNA-Seq'
                  WHEN 'DNA Microarray Assay' THEN 'array'
                  WHEN 'SAGE' THEN 'SAGE'
                  WHEN 'RT PCR' THEN 'RT-PCR'
                  ELSE '' END as assay_type,
                gene_paralog_number as paralog_number
              from webready.GeneAttributes_p ga
                  LEFT JOIN webready.GeneOrthologGroup gog on ga.source_id = gog.gene_id,
                apidbtuning.datasetDatasource dds,
                apidbtuning.datasetPresenter dp
                  LEFT JOIN apidbtuning.datasetPublication pub ON dp.dataset_presenter_id = pub.dataset_presenter_id,
                sres.taxonname tn,
                apidbtuning.TaxonSpecies ts,
                sres.taxonname sn,
                (select distinct rso.ref_source_id as profile_graph_id, p.dataset_name, rso.source_id
                 from webready.RefSynOrthologousGenes_p rso
                    , apidbtuning.Profile p
                 where p.source_id = rso.ref_source_id
		 and rso.org_abbrev in (%%PARTITION_KEYS%%)
		) psgene,
                (  SELECT '' as dataset, '' as module,
                     '' as x_axis, '' y_axis,  '' as is_graph_custom,
                     1 as order_num
                  -- TEMPLATE_ANCHOR genePageGraphDescriptions
                  -- TEMPLATE_ANCHOR microarrayGraphDescriptions
                ) graph_descrip
              WHERE ga.source_id = psgene.source_id
                &&geneGroupJoin&&
                AND psgene.dataset_name = dds.name
                AND dds.dataset_presenter_id = dp.dataset_presenter_id
                AND graph_descrip.dataset = dp.name
                AND dds.taxon_id = tn.taxon_id
                AND tn.name_class = 'scientific name'
                AND dds.taxon_id = ts.taxon_id
                AND ts.species_taxon_id = sn.taxon_id
                AND sn.name_class = 'scientific name'
                AND ga.genus_species = sn.name
                AND dds.category in ('RNASeq','DNA Microarray Assay', 'SAGE', 'RT PCR')
                AND ga.org_abbrev IN (%%PARTITION_KEYS%%)
              GROUP BY ga.source_id, ga.project_id, ga.organism, ga.genus_species, graph_descrip.dataset,
                tn.name, dp.dataset_presenter_id, module,x_axis,y_axis, is_graph_custom,order_num,
                dds.category,dp.short_attribution,paralog_number
            ) g
          WHERE g.dataset = dpr.name
          ORDER BY g.order_num
        ]]>
      </sql>
    </sqlQuery>

    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->
    <!-- Protein Expression Graphs -->
    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->

       <sqlQuery name="ProteinExpressionGraphs"
                 includeProjects="UniDB,AmoebaDB,FungiDB,GiardiaDB,HostDB,PiroplasmaDB,PlasmoDB,ToxoDB,TriTrypDB,TrichDB,VectorBase" >
            <testParamValues includeProjects="ToxoDB">
               <paramValue name="source_id">TGME49_229990</paramValue>
            </testParamValues>

      <column name="source_id" />
      <column name="project_id" />
      <column name="project_id_url" />
      <column name="graph_ids" />
      <column name="default_graph_id" />
      <column name="module" />
      <column name="genus_species" />
      <column name="mainOpen" />
      <column name="dataOpen" />
      <column name="display_name" />
      <column name="description" />
      <column name="x_axis" />
      <column name="y_axis" />
      <column name="has_graph_data"/>
      <column name="has_meta_data"/>
      <column name="meta_data_categories"/>
      <column name="dataset_name"/>
      <column name="dataset_id"/>
      <column name="is_graph_custom"/>
      <column name="summary"/>
      <column name="short_attribution"/>
      <column name="assay_type"/>
      <column name="template"/>
      <sql>
        <![CDATA[
          SELECT g.*
            , CASE '@PROJECT_ID@' WHEN 'UniDB' THEN 'EuPathDB' ELSE g.project_id END AS project_id_url
            , CASE lower(is_graph_custom) WHEN 'false' THEN 1 ELSE 0 END AS template
            , SPLIT_PART(graph_ids, ',', 1) AS default_graph_id
          FROM
            (
              SELECT ga.source_id
                , ga.project_id
                , ga.organism AS gene_organism
                , ga.genus_species
                , graph_descrip.dataset AS dataset_name
                , psgene.profile_graph_id AS graph_ids
                , CASE WHEN psgene.profile_graph_id IS NULL THEN 0 ELSE 1 END AS has_graph_data
                , tn.name AS graph_organism
                , 'TRUE' AS mainOpen
                , 'FALSE' AS dataOpen
                , 'FALSE' has_meta_data
                , '' AS meta_data_categories
                , graph_descrip.*
                , dsp.summary
                , dsp.short_attribution
                , dsp.display_name
                , dsp.description
                , 'quantitative proteomics' AS assay_type
                , dsp.dataset_presenter_id AS dataset_id
              FROM
                webready.GeneAttributes_p ga
                , apidbtuning.datasetPresenter dsp
                , apidbtuning.datasetDataSource dds
                , sres.taxonname tn
                , webready.TaxonSpecies_p ts
                , sres.taxonname sn
                , (select distinct rso.ref_source_id as profile_graph_id, p.dataset_name, rso.source_id
                   from webready.RefSynOrthologousGenes_p rso
                    , apidbtuning.Profile p
                   where p.source_id = rso.ref_source_id
		   and rso.org_abbrev in (%%PARTITION_KEYS%%)
		  ) psgene
                , (
                SELECT '' AS dataset
                  , '' AS module
                  , '' AS x_axis
                  , '' y_axis
                  , '' AS is_graph_custom
                  , 1 AS order_num
                  -- TEMPLATE_ANCHOR proteomicsGraphDescriptions
                UNION
                SELECT 'tbruTREU927_quantitative_massSpec_Guther_glycosomal_proteome_RSRC' AS dataset
                  , 'Guther::GlycosomeProteome' AS module
                  , 'Confidence Group' AS x_axis
                  , 'Log2(H/L)' AS y_axis
                  , 'true' AS is_graph_custom
                  , 901 AS order_num
              ) graph_descrip
              WHERE ga.source_id = psgene.source_id
                AND psgene.dataset_name = dds.name
                AND dds.dataset_presenter_id = dsp.dataset_presenter_id
                AND graph_descrip.dataset = dds.name
                AND dds.taxon_id = tn.taxon_id
                AND tn.name_class = 'scientific name'
                AND dds.taxon_id = ts.taxon_id
                AND ts.species_taxon_id = sn.taxon_id
                AND sn.name_class = 'scientific name'
                AND ga.genus_species = sn.name
                AND dds.category = 'Protein expression (quantitative)'
                AND ga.org_abbrev IN (%%PARTITION_KEYS%%)
                AND ts.org_abbrev IN (%%PARTITION_KEYS%%)
            ) g
        ]]>
      </sql>
    </sqlQuery>


    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->
    <!-- Phenotype Graphs -->
    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->

    <sqlQuery name="PhenotypeGraphs" includeProjects="TriTrypDB,UniDB">
      <column name="source_id" />
      <column name="project_id" />
      <column name="project_id_url" />
      <column name="graph_ids" />
      <column name="default_graph_id" />
      <column name="module" />
      <column name="species" />
      <column name="genus_species" />
      <column name="mainOpen" />
      <column name="dataOpen" />
      <column name="display_name" />
      <column name="description" />
      <column name="x_axis" />
      <column name="y_axis" />
      <column name="has_graph_data"/>
      <column name="has_meta_data"/>
      <column name="meta_data_categories"/>
      <column name="dataset_name"/>
      <column name="dataset_id"/>
      <column name="is_graph_custom"/>
      <column name="summary"/>
      <column name="short_attribution"/>
      <column name="assay_type"/>
      <column name="template"/>
      <sql>
        <![CDATA[
          SELECT g.*
            , CASE '@PROJECT_ID@' WHEN 'UniDB' THEN 'EuPathDB' ELSE g.project_id END AS project_id_url
            , CASE lower(is_graph_custom) WHEN 'false' THEN 1 ELSE 0 END AS template
            , SPLIT_PART(graph_ids, ',', 1) AS default_graph_id
          FROM
            (
              SELECT ga.source_id
                , ga.project_id
                , ga.organism AS gene_organism
                , ga.genus_species
                , graph_descrip.dataset AS dataset_name
                , psgene.profile_graph_id AS graph_ids
                , CASE WHEN psgene.profile_graph_id IS NULL THEN 0 ELSE 1 END AS has_graph_data
                , tn.name AS graph_organism
                , 'TRUE' AS mainOpen
                , 'FALSE' AS dataOpen
                , 'FALSE' has_meta_data
                , '' AS meta_data_categories
                , graph_descrip.*
                , dp.summary
                , dp.short_attribution
                , dp.display_name
                , dp.description
                , 'RNA-Seq' AS assay_type
                , dp.dataset_presenter_id AS dataset_id
              FROM
                webready.GeneAttributes_p ga
                , apidbtuning.DatasetDatasource dds
                , apidbtuning.datasetPresenter dp
                , sres.taxonname tn
                , webready.TaxonSpecies_p ts
                , sres.taxonname sn
                , (select distinct rso.ref_source_id as profile_graph_id, p.dataset_name, rso.source_id
                   from webready.RefSynOrthologousGenes_p rso
                     , apidbtuning.Profile p
                   where p.source_id = rso.ref_source_id
                   and rso.org_abbrev in (%%PARTITION_KEYS%%)
		  ) psgene
                , (
                SELECT 'tbruTREU927_RNAi_Horn_rnaSeq_RSRC' AS dataset
                  , 'RNASeq' AS module
                  , 'Rank of each gene by its ratio' AS x_axis
                  , 'Ratio of TPM values for the sample indicated compared to the uninduced control.<br>
                     This ratio is proportional to the fitness observed upon RNAi-induced knockdown.<br>
                     All ratios are calculated from reads mapping uniquely to the CDS of each gene.<br><br>
                     The particular samples and ratios are indicated in the gray bar above each graph:<br>
                     - No_Tet: uninduced control<br>
                     - BFD3: bloodstream-form cells grown for 3 days<br>
                     - BFD6: bloodstream-form cells grown for 6 days<br>
                     - PF: insect/procyclic-form cells<br>
                     - DIF: cells induced throughout growth as bloodstream forms, differentiation and growth as procyclic forms.<br><br>
                     Please note that values in the data table are the TPM values for each sample, while the plot shows the ratio of the TPM value for the indicated sample compared to the uninduced (NoTet) control.<br><br>' AS y_axis
                  , 'false' AS is_graph_custom
                  , 1 AS order_num
              ) graph_descrip
              WHERE ga.source_id = psgene.source_id
                AND psgene.dataset_name = dds.name
                AND dds.dataset_presenter_id = dp.dataset_presenter_id
                AND graph_descrip.dataset = dp.name
                AND dds.taxon_id = tn.taxon_id
                AND tn.name_class = 'scientific name'
                AND dds.taxon_id = ts.taxon_id
                AND ts.species_taxon_id = sn.taxon_id
                AND sn.name_class = 'scientific name'
                AND dds.name NOT LIKE '%CDS%' -- TODO:  this is here for the horn dataset
                AND ga.genus_species = sn.name
                AND ga.org_abbrev IN (%%PARTITION_KEYS%%)
                AND ts.org_abbrev IN (%%PARTITION_KEYS%%)
            ) g
        ]]>
      </sql>
    </sqlQuery>


    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->
    <!-- UserDataset Graphs -->
    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->

    <sqlQuery name="UserDatasetsTranscriptomicsGraphsDataTable" isCacheable="false" >
      <paramRef ref="InternalParams.user_id"/>
      <column name="source_id"/>
      <column name="project_id"/>
      <column name="dataset_id"/>
      <!--column name="profile_set_display_name"/-->
      <column name="sample_name"/>
      <column name="value"/>
      <column name="unit"/>
      <sql>
        <![CDATA[
          SELECT ga.source_id, ga.project_id, ps.user_dataset_id as dataset_id, pan.name as sample_name, naf.value, ps.unit
          FROM webready.GeneAttributes_p ga
            , @VDI_CONTROL_SCHEMA@.availableUserDatasets da
            , @VDI_DATASETS_SCHEMA@.ud_profileset ps
            , @VDI_DATASETS_SCHEMA@.ud_protocolappnode pan
            , @VDI_DATASETS_SCHEMA@.ud_nafeatureexpression naf
          WHERE da.user_id = $$user_id$$
            and da.user_dataset_id = ps.user_dataset_id
            and ps.profile_set_id = pan.profile_set_id
            and pan.protocol_app_node_id = naf.PROTOCOL_APP_NODE_ID
            and naf.na_feature_id = ga.na_feature_id
            AND ga.org_abbrev IN (%%PARTITION_KEYS%%)
        ]]>
      </sql>
    </sqlQuery>


    <sqlQuery name="UserDatasetsTranscriptomicsGraphs" >
      <paramRef ref="InternalParams.user_id"/>
      <column name="source_id" />
      <column name="project_id" />
      <column name="project_id_url" />
      <column name="graph_ids" />
      <column name="default_graph_id" />
      <column name="module" />
      <column name="genus_species" />
      <column name="species" />
      <column name="mainOpen" />
      <column name="dataOpen" />
      <column name="display_name" />
      <column name="description" />
      <column name="x_axis" />
      <column name="y_axis" />
      <column name="has_graph_data"/>
      <column name="has_meta_data"/>
      <column name="meta_data_categories"/>
      <column name="dataset_name"/>
      <column name="dataset_id"/>
      <column name="is_graph_custom"/>
      <column name="summary"/>
      <column name="short_attribution"/>
      <column name="assay_type"/>
      <column name="template"/>
      <sql>
        <![CDATA[
          SELECT DISTINCT
            g.*
            , CASE '@PROJECT_ID@' WHEN 'UniDB' THEN 'EuPathDB' ELSE g.project_id END AS project_id_url
            , CASE lower(is_graph_custom) WHEN 'false' THEN 1 ELSE 0 END AS template
            , SPLIT_PART(graph_ids, ',', 1) AS default_graph_id
          FROM
            (
              SELECT
                CASE ps.unit
                  WHEN 'TPM' THEN 'Transcript levels in TPM (transcripts per million).'
                  WHEN 'FPKM' THEN 'Transcript levels in FPKM (fragments per kilobase of exon model per million mapped reads).'
                END AS y_axis
                , ga.source_id
                , ga.project_id
                , ga.organism AS gene_organism
                , ga.genus_species
                , da.name AS dataset_name
                , ga.source_id AS graph_ids
                , CASE WHEN ga.source_id IS NULL THEN 0 ELSE 1 END AS has_graph_data
                , ga.organism AS graph_organism
                , 'TRUE' AS mainOpen
                , 'FALSE' AS dataOpen
                , 'FALSE' AS has_meta_data
                , '' AS meta_data_categories
                , graph_descrip.*
                , '' AS summary
                , '' AS short_attribution
                , da.name AS display_name
                , '' AS description
                , 'RNA-Seq' AS assay_type
                , da.user_dataset_id AS dataset_id
              FROM
                webready.GeneAttributes_p ga
                , @VDI_CONTROL_SCHEMA@.AvailableUserDatasets da
                , @VDI_DATASETS_SCHEMA@.UD_NAFEATUREEXPRESSION naf
                , @VDI_DATASETS_SCHEMA@.UD_PROTOCOLAPPNODE pan
                , @VDI_DATASETS_SCHEMA@.UD_PROFILESET ps
                , (
                  SELECT 'UserDatasets::RNASeq' AS module
                    , 'Stage/Sample' AS x_axis
                    , 'true' AS is_graph_custom
                    , 1 AS order_num
                ) graph_descrip
              WHERE ps.user_dataset_id = da.user_dataset_id
                AND da.user_id = $$user_id$$
                AND ps.profile_set_id = pan.profile_set_id
                AND pan.protocol_app_node_id = naf.protocol_app_node_id
                AND naf.na_feature_id = ga.na_feature_id
                AND ga.org_abbrev IN (%%PARTITION_KEYS%%)
            ) g
        ]]>
      </sql>
    </sqlQuery>

    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->
    <!-- Host Response  Graphs -->
    <!--++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++-->

    <sqlQuery name="HostResponseGraphs" includeProjects="PlasmoDB,UniDB">
      <column name="source_id" />
      <column name="project_id" />
      <column name="project_id_url" />
      <column name="graph_ids" />
      <column name="default_graph_id" />
      <column name="module" />
      <column name="genus_species" />
      <column name="mainOpen" />
      <column name="dataOpen" />
      <column name="display_name" />
      <column name="description" />
      <column name="x_axis" />
      <column name="y_axis" />
      <column name="has_graph_data"/>
      <column name="has_meta_data"/>
      <column name="meta_data_categories"/>
      <column name="dataset_name"/>
      <column name="dataset_id"/>
      <column name="is_graph_custom"/>
      <column name="summary"/>
      <column name="short_attribution"/>
      <column name="assay_type"/>
      <column name="template"/>
      <sql>
        <![CDATA[
          SELECT h.*, datapres.summary, datapres.description
          FROM
            (
              SELECT DISTINCT
                g.*
                , CASE '@PROJECT_ID@' WHEN 'UniDB' THEN 'EuPathDB' ELSE g.project_id END AS project_id_url
                , CASE lower(is_graph_custom) WHEN 'false' THEN 1 ELSE 0 END AS template
            , SPLIT_PART(graph_ids, ',', 1) AS default_graph_id
              FROM
                (
                  SELECT ga.source_id
                    , ga.project_id
                    , ga.organism AS gene_organism
                    , ga.genus_species
                    , graph_descrip.dataset AS dataset_name
                    , psgene.profile_graph_id AS graph_ids
                    , CASE WHEN psgene.profile_graph_id IS NULL THEN 0 ELSE 1 END AS has_graph_data
                    , tn.name AS graph_organism
                    , 'TRUE' AS mainOpen
                    , 'FALSE' AS dataOpen
                    , 'FALSE' has_meta_data
                    , '' AS meta_data_categories
                    , graph_descrip.*
                    , dp.short_attribution
                    , dp.display_name
                    , 'antibody microarray' AS assay_type
                    , dp.dataset_presenter_id AS dataset_id
                  FROM
                    webready.GeneAttributes_p ga
                    , apidbtuning.datasetPresenter dp
                    , apidbtuning.datasetDataSource dds
                    , sres.taxonname tn
                    , webready.TaxonSpecies_p ts
                    , sres.taxonname sn
                    , (select distinct rso.ref_source_id as profile_graph_id, p.dataset_name, rso.source_id
                       from webready.RefSynOrthologousGenes_p rso
                         , apidbtuning.Profile p
                       where p.source_id = rso.ref_source_id
                       and rso.org_abbrev in (%%PARTITION_KEYS%%)
		      ) psgene
                    , (
                    SELECT '' AS dataset
                      , '' AS module
                      , '' AS x_axis
                      , '' y_axis
                      , '' AS is_graph_custom
                      , 1 AS order_num
                    -- TEMPLATE_ANCHOR antibodyArrayGraphDescriptions
                  ) graph_descrip
                  WHERE ga.source_id = psgene.source_id
                    AND psgene.dataset_name = dds.name
                    AND dds.dataset_presenter_id = dp.dataset_presenter_id
                    AND graph_descrip.dataset = dp.name
                    AND dds.taxon_id = tn.taxon_id
                    AND tn.name_class = 'scientific name'
                    AND dds.taxon_id = ts.taxon_id
                    AND ts.species_taxon_id = sn.taxon_id
                    AND sn.name_class = 'scientific name'
                    AND ga.genus_species = sn.name
                    AND dds.category = 'Immunology'
                    AND ga.org_abbrev IN (%%PARTITION_KEYS%%)
                    AND ts.org_abbrev IN (%%PARTITION_KEYS%%)
                ) g
            ) h
            , apidbtuning.datasetpresenter datapres
          WHERE datapres.name = h.dataset_name
        ]]>
      </sql>
    </sqlQuery>


       <sqlQuery name="EdaPhenotypeDatasets" includeProjects="ToxoDB,UniDB,PlasmoDB">
            <column name="source_id" />
            <column name="project_id" />
            <column name="project_id_url" />
            <column name="graph_ids" />
            <column name="default_graph_id" />
            <column name="species" />
            <column name="genus_species" />
            <column name="mainOpen" />
            <column name="dataOpen" />
            <column name="display_name" />
            <column name="description" />
            <column name="has_graph_data"/>
            <column name="has_meta_data"/>
            <column name="meta_data_categories"/>
            <column name="dataset_name"/>
            <column name="dataset_id"/>
            <column name="summary"/>
            <column name="short_attribution"/>
            <column name="assay_type"/>
            <column name="plot_configs_json"/>
            <sql>

<![CDATA[
select g.*
     , CASE WHEN '@PROJECT_ID@' = 'UniDB' THEN 'EuPathDB' ELSE g.project_id END AS project_id_url
     , regexp_substr(graph_ids, '[^,]*') as default_graph_id
from (
        select ga.source_id, ga.project_id,
             ga.organism as gene_organism, ga.genus_species ,
             psgene.profile_graph_id as graph_ids,
             case when psgene.profile_graph_id is null then 0 else 1 end as has_graph_data,
             'TRUE' as mainOpen, 'FALSE' as dataOpen,
             'FALSE' has_meta_data, '' as meta_data_categories,
             graph_descrip.*, dp.summary, dp.short_attribution, dp.display_name,
             dp.description, 'Phenotype' as assay_type, dp.dataset_presenter_id as dataset_id,dp.name as dataset_name
      from webready.GeneAttributes_p ga,
           apidbtuning.DatasetDatasource dds,
           apidbtuning.datasetPresenter dp
           LEFT JOIN (
             SELECT dataset_name as graph_dataset_name,
                    JSON_ARRAYAGG(