Add DNA-LM tokenization

dsmutin · dsmutin · commit 4dca4c4aa4f1 · 2025-12-02T02:29:13.000+03:00
diff --git a/.gitignore b/.gitignore
@@ -14,6 +14,7 @@ data/databases/open/probeBase_false_genome_results.csv
 data/databases/open/probeBase_formatted.csv
 data/databases/open/probeBase_formamide.tsv
 data/databases/open/probeBase_genome_results.csv
+data/databases/open/test_ML_database_tokenized.csv
 genome_parse_results.csv
 data/genomes/
 data/articles2/
@@ -74,4 +75,4 @@ PROBEst.Rproj
 .Rproj.user
 .Rhistory
 articles.tar.bz2
-data/databases/articles/artificial_database_structure
+data/databases/articles/artificial_database_structure
diff --git a/scripts/generator/ML_filtration.py b/scripts/generator/ML_filtration.py
@@ -13,6 +13,7 @@
     GAILDeep, GAILWide, GAILNarrow, GAILWithDropout,
     GAILWideDeep, GAILWideDropout, GAILWideBatchNorm, GAILWideExtra, GAILWideBalanced
 )
+from PROBESt.tokenization import tokenize_table
 
 MODELS = {
     "ShallowNet": lambda n: TorchClassifier(ShallowNet(n), weight_pos=5),
@@ -22,10 +23,34 @@
     "TabTransformer": lambda n: TorchClassifier(TabTransformer(n), weight_pos=5),
 }
 
-def main():
-    # Load data
-    data_path = 'data/databases/open/test_ML_database.csv'
-    data = pd.read_csv(data_path)
+def load_and_prepare_data(data_path, use_tokenized=False, add_tokens=50, force_regenerate=False):
+    """Load and prepare data, optionally with tokenization.
+    
+    Args:
+        data_path: Path to the CSV file
+        use_tokenized: If True, tokenize sequences and add token columns
+        add_tokens: Number of top k-mers to add as columns per sequence column (if use_tokenized=True)
+        force_regenerate: If True, regenerate tokenized file even if it exists
+    
+    Returns:
+        Tuple of (train_data, val_data, test_data)
+    """
+    if use_tokenized:
+        print(f"\n{'='*60}")
+        print("Tokenizing sequences...")
+        print(f"{'='*60}")
+        # Tokenize the table
+        tokenized_path = data_path.rsplit('.', 1)[0] + '_tokenized.csv'
+        if force_regenerate or not os.path.exists(tokenized_path):
+            print(f"Generating tokenized file: {tokenized_path}")
+            tokenize_table(data_path, output_csv=tokenized_path, add_tokens=add_tokens, 
+                          drop_original_sequences=True)
+        else:
+            print(f"Using existing tokenized file: {tokenized_path}")
+        data = pd.read_csv(tokenized_path)
+        print(f"Loaded tokenized data from {tokenized_path}")
+    else:
+        data = pd.read_csv(data_path)
     
     # Convert boolean 'type' column to numeric
     data['type'] = data['type'].astype(int)
@@ -47,6 +72,14 @@ def main():
     print(f"Validation set size: {len(val_data)}")
     print(f"Test set size: {len(test_data)}")
     
+    return train_data, val_data, test_data
+
+
+def main():
+    # Load data
+    data_path = 'data/databases/open/test_ML_database.csv'
+    train_data, val_data, test_data = load_and_prepare_data(data_path, use_tokenized=False)
+    
     # Get input size
     input_size = train_data.shape[1] - 1
     
@@ -352,6 +385,95 @@ def main():
     os.makedirs(output_dir, exist_ok=True)
     test_predictions.to_csv(os.path.join(output_dir, 'test_predictions.csv'), index=False)
     print(f"\nPredictions saved to {os.path.join(output_dir, 'test_predictions.csv')}")
+    
+    # Test GAIL_Wide_Custom2 on both tokenized and non-tokenized data
+    print("\n" + "="*60)
+    print("Testing GAIL_Wide_Custom2 on tokenized vs non-tokenized data")
+    print("="*60)
+    
+    # Test on non-tokenized data (already loaded)
+    print("\n" + "-"*60)
+    print("Testing GAIL_Wide_Custom2 on NON-TOKENIZED data")
+    print("-"*60)
+    gail_wide_custom2_non_tokenized = TorchClassifier(
+        GAILWide(input_size, hidden1=384, hidden2=192), weight_pos=5
+    )
+    X_train = train_data.drop(columns=['type'])
+    y_train = train_data['type']
+    gail_wide_custom2_non_tokenized.train(
+        X_train, y_train, epochs=150, batch_size=32, 
+        val_data=val_data, track_curves=True
+    )
+    non_tokenized_metrics = validate_filtration_AI(
+        gail_wide_custom2_non_tokenized, val_data, 
+        output_name='GAIL_Wide_Custom2_non_tokenized.png'
+    )
+    print("\nGAIL_Wide_Custom2 (non-tokenized) validation metrics:")
+    for metric, value in non_tokenized_metrics.items():
+        print(f"  {metric}: {value:.4f}")
+    
+    # Plot learning curves for non-tokenized
+    if hasattr(gail_wide_custom2_non_tokenized, 'train_losses') and len(gail_wide_custom2_non_tokenized.train_losses) > 0:
+        plot_learning_curves(
+            gail_wide_custom2_non_tokenized, output_dir=output_dir, 
+            output_name='learning_curves_GAIL_Wide_Custom2_non_tokenized.png'
+        )
+        print(f"Learning curves saved to {os.path.join(output_dir, 'learning_curves_GAIL_Wide_Custom2_non_tokenized.png')}")
+    
+    # Test on tokenized data
+    print("\n" + "-"*60)
+    print("Testing GAIL_Wide_Custom2 on TOKENIZED data")
+    print("-"*60)
+    train_data_tokenized, val_data_tokenized, test_data_tokenized = load_and_prepare_data(
+        data_path, use_tokenized=True, add_tokens=50, force_regenerate=True
+    )
+    input_size_tokenized = train_data_tokenized.shape[1] - 1
+    print(f"Tokenized data input size: {input_size_tokenized} (vs {input_size} for non-tokenized)")
+    
+    gail_wide_custom2_tokenized = TorchClassifier(
+        GAILWide(input_size_tokenized, hidden1=384, hidden2=192), weight_pos=5
+    )
+    X_train_tokenized = train_data_tokenized.drop(columns=['type'])
+    y_train_tokenized = train_data_tokenized['type']
+    gail_wide_custom2_tokenized.train(
+        X_train_tokenized, y_train_tokenized, epochs=150, batch_size=32, 
+        val_data=val_data_tokenized, track_curves=True
+    )
+    tokenized_metrics = validate_filtration_AI(
+        gail_wide_custom2_tokenized, val_data_tokenized, 
+        output_name='GAIL_Wide_Custom2_tokenized.png'
+    )
+    print("\nGAIL_Wide_Custom2 (tokenized) validation metrics:")
+    for metric, value in tokenized_metrics.items():
+        print(f"  {metric}: {value:.4f}")
+    
+    # Plot learning curves for tokenized
+    if hasattr(gail_wide_custom2_tokenized, 'train_losses') and len(gail_wide_custom2_tokenized.train_losses) > 0:
+        plot_learning_curves(
+            gail_wide_custom2_tokenized, output_dir=output_dir, 
+            output_name='learning_curves_GAIL_Wide_Custom2_tokenized.png'
+        )
+        print(f"Learning curves saved to {os.path.join(output_dir, 'learning_curves_GAIL_Wide_Custom2_tokenized.png')}")
+    
+    # Compare results
+    print("\n" + "="*60)
+    print("COMPARISON: GAIL_Wide_Custom2 - Tokenized vs Non-Tokenized")
+    print("="*60)
+    print(f"{'Metric':<20} {'Non-Tokenized':<15} {'Tokenized':<15} {'Difference':<15}")
+    print("-"*60)
+    for metric in non_tokenized_metrics.keys():
+        non_val = non_tokenized_metrics[metric]
+        tok_val = tokenized_metrics[metric]
+        diff = tok_val - non_val
+        print(f"{metric:<20} {non_val:<15.4f} {tok_val:<15.4f} {diff:+.4f}")
+    
+    # Determine winner
+    if tokenized_metrics['f1'] > non_tokenized_metrics['f1']:
+        print(f"\n✓ Tokenized version performs better (F1: {tokenized_metrics['f1']:.4f} vs {non_tokenized_metrics['f1']:.4f})")
+    elif non_tokenized_metrics['f1'] > tokenized_metrics['f1']:
+        print(f"\n✓ Non-tokenized version performs better (F1: {non_tokenized_metrics['f1']:.4f} vs {tokenized_metrics['f1']:.4f})")
+    else:
+        print(f"\n= Both versions perform equally (F1: {non_tokenized_metrics['f1']:.4f})")
 
 if __name__ == '__main__':
     main() 
diff --git a/src/PROBESt/__init__.py b/src/PROBESt/__init__.py
@@ -10,4 +10,5 @@
 from . import bash_wrappers 
 from . import models_registry
 from . import AI
-from . import filtration
+from . import filtration
+from . import tokenization
diff --git a/src/PROBESt/tokenization.py b/src/PROBESt/tokenization.py
@@ -0,0 +1,139 @@
+"""Tokenization module for DNA sequences.
+
+This module provides functions to tokenize DNA sequences into k-mers,
+similar to how DNA language models process sequences.
+"""
+
+import pandas as pd
+import numpy as np
+from typing import List, Dict, Optional
+from collections import Counter
+
+
+def tokenize_seq(sequence: str, k: int = 3) -> List[str]:
+    """Tokenize a DNA sequence into k-mers.
+    
+    Args:
+        sequence: DNA sequence string (e.g., "ATCGATCG")
+        k: Size of k-mers (default: 3, producing 3-mers like "ATC", "TCG")
+    
+    Returns:
+        List of k-mer tokens extracted from the sequence.
+        For example, "ATCGATCG" with k=3 returns ["ATC", "TCG", "CGA", "GAT", "ATC", "TCG"]
+    
+    Example:
+        >>> tokenize_seq("ATCGATCG", k=3)
+        ['ATC', 'TCG', 'CGA', 'GAT', 'ATC', 'TCG']
+    """
+    if not sequence or pd.isna(sequence):
+        return []
+    
+    sequence = str(sequence).upper().strip()
+    if len(sequence) < k:
+        return []
+    
+    tokens = []
+    for i in range(len(sequence) - k + 1):
+        kmer = sequence[i:i+k]
+        # Only include valid DNA k-mers (containing only A, T, C, G)
+        if all(base in 'ATCG' for base in kmer):
+            tokens.append(kmer)
+    
+    return tokens
+
+
+def tokenize_table(input_csv: str, output_csv: Optional[str] = None, 
+                  add_tokens: int = 100, k: int = 3, 
+                  sequence_columns: Optional[List[str]] = None,
+                  drop_original_sequences: bool = True) -> pd.DataFrame:
+    """Tokenize DNA sequences in a CSV table and add token count columns.
+    
+    This function reads a CSV file, tokenizes sequences in specified columns
+    (default: 'sseq' and 'qseq'), and adds new columns with k-mer counts.
+    The new columns are named like 'sseq_token_TTC', 'qseq_token_AAA', etc.
+    
+    Args:
+        input_csv: Path to input CSV file
+        output_csv: Path to output CSV file (if None, appends '_tokenized' to input name)
+        add_tokens: Number of top k-mers to add as columns per sequence column (default: 100)
+        k: Size of k-mers (default: 3)
+        sequence_columns: List of column names to tokenize (default: ['sseq', 'qseq'])
+        drop_original_sequences: If True, drop original sequence columns after tokenization (default: True)
+    
+    Returns:
+        DataFrame with original columns plus new token count columns (or without original sequences if dropped)
+    
+    Example:
+        >>> df = tokenize_table('data.csv', add_tokens=50)
+        >>> # Adds columns like 'sseq_token_AAA', 'sseq_token_TTC', etc.
+    """
+    if sequence_columns is None:
+        sequence_columns = ['sseq', 'qseq']
+    
+    # Read the CSV
+    df = pd.read_csv(input_csv)
+    
+    # Collect all k-mers from all sequences to find the most frequent ones
+    all_kmers = Counter()
+    
+    for col in sequence_columns:
+        if col not in df.columns:
+            print(f"Warning: Column '{col}' not found in CSV. Skipping.")
+            continue
+        
+        for seq in df[col]:
+            if pd.notna(seq):
+                tokens = tokenize_seq(str(seq), k=k)
+                all_kmers.update(tokens)
+    
+    # Get top k-mers to add as columns
+    top_kmers = [kmer for kmer, _ in all_kmers.most_common(add_tokens)]
+    
+    print(f"Found {len(all_kmers)} unique {k}-mers. Adding top {len(top_kmers)} as columns.")
+    
+    # Build all token count columns at once to avoid DataFrame fragmentation
+    new_columns = {}
+    
+    for col in sequence_columns:
+        if col not in df.columns:
+            continue
+        
+        # Pre-compute tokens for all sequences to avoid repeated computation
+        print(f"Tokenizing {col} column...")
+        all_tokens = df[col].apply(
+            lambda seq: tokenize_seq(str(seq), k=k) if pd.notna(seq) else []
+        )
+        
+        # Count k-mers for each row and each top k-mer
+        for kmer in top_kmers:
+            col_name = f"{col}_token_{kmer}"
+            new_columns[col_name] = all_tokens.apply(
+                lambda tokens: tokens.count(kmer) if isinstance(tokens, list) else 0
+            )
+    
+    # Add all new columns at once using pd.concat to avoid fragmentation
+    if new_columns:
+        new_df = pd.DataFrame(new_columns, index=df.index)
+        df = pd.concat([df, new_df], axis=1)
+    
+    # Count added columns before dropping original sequences
+    num_added_columns = len(new_columns) if new_columns else 0
+    
+    # Optionally drop original sequence columns after tokenization
+    if drop_original_sequences:
+        for col in sequence_columns:
+            if col in df.columns:
+                df = df.drop(columns=[col])
+                print(f"Dropped original sequence column: {col}")
+    
+    # Save to output file
+    if output_csv is None:
+        base_name = input_csv.rsplit('.', 1)[0]
+        output_csv = f"{base_name}_tokenized.csv"
+    
+    df.to_csv(output_csv, index=False)
+    print(f"Tokenized table saved to {output_csv}")
+    print(f"Added {num_added_columns} new token columns.")
+    
+    return df
+