Enhance error handling and logging during initialization and training processes

DefinetlyNotAI · DefinetlyNotAI · commit c01a814ffdfa · 2025-08-30T01:29:27.000+03:00
diff --git a/v4n1_Trainer.py b/v4n1_Trainer.py
@@ -1,5 +1,6 @@
 import json
 import os
+import sys
 
 import torch
 from sentence_transformers import SentenceTransformer
@@ -12,73 +13,99 @@
 # ---------------- INIT ----------------
 def init(config: TrainingConfig) -> dict:
     """Initialize static, config-free resources (only once)."""
-    log("Loading GPT-Neo tokenizer/model (static init)...", cfg=config, only_console=True)
-    gpt_tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neo-1.3B")
-    gpt_model = AutoModelForCausalLM.from_pretrained("EleutherAI/gpt-neo-1.3B")
-    if gpt_tokenizer.pad_token is None:
-        gpt_tokenizer.pad_token = gpt_tokenizer.eos_token
-
-    log("Loading MiniLM for embeddings (static init)...", cfg=config, only_console=True)
-    embed_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
-
-    return {
-        "gpt_tokenizer": gpt_tokenizer,
-        "gpt_model": gpt_model,
-        "embed_model": embed_model,
-    }
+    try:
+        log("Loading GPT-Neo tokenizer/model (static init)...", cfg=config, only_console=True)
+        gpt_tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neo-1.3B")
+        gpt_model = AutoModelForCausalLM.from_pretrained("EleutherAI/gpt-neo-1.3B")
+        if gpt_tokenizer.pad_token is None:
+            gpt_tokenizer.pad_token = gpt_tokenizer.eos_token
+
+        log("Loading MiniLM for embeddings (static init)...", cfg=config, only_console=True)
+        embed_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
+
+        return {
+            "gpt_tokenizer": gpt_tokenizer,
+            "gpt_model": gpt_model,
+            "embed_model": embed_model,
+        }
+    except KeyboardInterrupt:
+        sys.exit("Interrupted by user in initialization.")
+    except Exception as err:
+        sys.exit(f"Error during initialization: {err}")
 
 
 # ---------------- TRAIN ----------------
 def train(config: TrainingConfig, resources: dict):
-    gpt_tokenizer = resources["gpt_tokenizer"]
-    gpt_model = resources["gpt_model"].to(config.DEVICE)  # attach to device here
-    embed_model = resources["embed_model"]
-
-    log("Init DataGen with config...", cfg=config, silent=True)
-    generate = DataGen(cfg=config)
-
-    # Generate dataset
-    dataset_path = f"{config.DATASET_CACHE_DIR}/dataset_{config.DATASET_SIZE}.pt"
-    if os.path.exists(dataset_path):
-        data = torch.load(dataset_path)
-        texts, labels = data["texts"], data["labels"]
-    else:
-        texts, labels = generate.dataset(gpt_tokenizer=gpt_tokenizer, gpt_model=gpt_model)
-        torch.save({"texts": texts, "labels": labels}, dataset_path)
-
-    train_split = int(len(texts) * config.TRAIN_VAL_SPLIT)
-    val_split = int(len(texts) * config.VAL_SPLIT)
-
-    train_texts, train_labels = texts[:train_split], labels[:train_split]
-    val_texts, val_labels = texts[train_split:val_split], labels[train_split:val_split]
-    test_texts, test_labels = texts[val_split:], labels[val_split:]
-
-    log("Generating test embeddings...", cfg=config)
-    generate.embeddings(embed_model=embed_model, texts=test_texts, labels=test_labels, split="test")
-    log("Generating train embeddings...", cfg=config)
-    generate.embeddings(embed_model=embed_model, texts=train_texts, labels=train_labels, split="train")
-    log("Generating validation embeddings...", cfg=config)
-    generate.embeddings(embed_model=embed_model, texts=val_texts, labels=val_labels, split="validation")
-
-    train_dataset = EmbeddingDataset(config.EMBED_CACHE_DIR)
-    val_dataset = EmbeddingDataset(config.EMBED_CACHE_DIR)
-    val_loader = DataLoader(dataset=val_dataset, batch_size=config.BATCH_SIZE, shuffle=False)
-
-    train_ = Train(cfg=config)
-    model = SimpleNN(input_dim=384).to(config.DEVICE)
-
-    # Run training (handles TRAIN_LOOPS internally)
-    history_loops = train_.model(model=model, train_dataset=train_dataset, val_loader=val_loader)
-
-    # Plot + save history for each loop
-    for i, history in enumerate(history_loops):
-        plot_training(cfg=config, history_loops=history_loops)
-        with open(
-                f"{config.CACHE_DIR}/{config.MODEL_NAME}/round_{config.MODEL_ROUND}/training_history_loop{i + 1}.json",
-                "w") as f:
-            json.dump(history, f)
-
-    log("Training complete. All data, plots, and model saved.", cfg=config)
+    part = "???"
+    try:
+        # Load resources from init
+        part = "init resources loading"
+        gpt_tokenizer = resources["gpt_tokenizer"]
+        gpt_model = resources["gpt_model"].to(config.DEVICE)  # attach to device here
+        embed_model = resources["embed_model"]
+
+        # Initialise DataGen
+        part = "initialising DataGen"
+        log("Initialising DataGen with config...", cfg=config, silent=True)
+        generate = DataGen(cfg=config)
+
+        # Generate dataset
+        part = "generating/loading the dataset"
+        dataset_path = f"{config.DATASET_CACHE_DIR}/dataset_{config.DATASET_SIZE}.pt"
+        if os.path.exists(dataset_path):
+            log("Loading existing dataset...", cfg=config)
+            data = torch.load(dataset_path)
+            texts, labels = data["texts"], data["labels"]
+        else:
+            log("Dataset not found, generating", cfg=config)
+            texts, labels = generate.dataset(gpt_tokenizer=gpt_tokenizer, gpt_model=gpt_model)
+            torch.save({"texts": texts, "labels": labels}, dataset_path)
+
+        # Split dataset
+        part = "splitting the dataset"
+        train_split = int(len(texts) * config.TRAIN_VAL_SPLIT)
+        val_split = int(len(texts) * config.VAL_SPLIT)
+
+        train_texts, train_labels = texts[:train_split], labels[:train_split]
+        val_texts, val_labels = texts[train_split:val_split], labels[train_split:val_split]
+        test_texts, test_labels = texts[val_split:], labels[val_split:]
+
+        # Generate embeddings for all splits
+        part = "generating the embeddings"
+        log("Generating test embeddings...", cfg=config)
+        generate.embeddings(embed_model=embed_model, texts=test_texts, labels=test_labels, split="test")
+        log("Generating train embeddings...", cfg=config)
+        generate.embeddings(embed_model=embed_model, texts=train_texts, labels=train_labels, split="train")
+        log("Generating validation embeddings...", cfg=config)
+        generate.embeddings(embed_model=embed_model, texts=val_texts, labels=val_labels, split="validation")
+
+        # Prepare datasets and dataloaders
+        part = "preparing datasets and dataloaders"
+        train_dataset = EmbeddingDataset(config.EMBED_CACHE_DIR)
+        val_dataset = EmbeddingDataset(config.EMBED_CACHE_DIR)
+        val_loader = DataLoader(dataset=val_dataset, batch_size=config.BATCH_SIZE, shuffle=False)
+
+        train_ = Train(cfg=config)
+        model = SimpleNN(input_dim=384).to(config.DEVICE)
+
+        # Run training (handles TRAIN_LOOPS internally)
+        part = "training the model"
+        history_loops = train_.model(model=model, train_dataset=train_dataset, val_loader=val_loader)
+
+        # Plot + save history for each loop
+        part = "plotting and saving training history"
+        for i, history in enumerate(history_loops):
+            plot_training(cfg=config, history_loops=history_loops)
+            with open(
+                    f"{config.CACHE_DIR}/{config.MODEL_NAME}/round_{config.MODEL_ROUND}/training_history_loop{i + 1}.json",
+                    "w") as f:
+                json.dump(history, f)
+
+        log("Training complete. All data, plots, and model saved.", cfg=config)
+    except KeyboardInterrupt:
+        sys.exit("Interrupted by user during training.")
+    except Exception as err:
+        sys.exit(f"Error during '{part}': {err}")
 
 
 if __name__ == "__main__":
@@ -118,22 +145,28 @@ def train(config: TrainingConfig, resources: dict):
     train_init = init(cfg)
 
     # ----------------- RUN ------------------
-    available_dataset = [10, 100, 1000, 5000, 10000, 17500, 25000]
-    for loop_idx, dataset in enumerate(available_dataset, start=1):
-        if dataset <= 1000:
-            name = "SenseNano"
-        elif 1000 < dataset <= 5000:
-            name = "SenseMini"
-        elif 5000 < dataset <= 10000:
-            name = "Sense"
-        else:
-            name = "SenseMacro"
-        model_round = loop_idx
-        cfg.update({
-            # Model / caching / logging
-            "MODEL_NAME": f"Model_{name}.4n1",  # Name of the model for identification and caching
-            "DATASET_SIZE": dataset,            # Number of samples to generate for training (not the same as for the training rounds themselves)
-            "MODEL_ROUND": model_round          # Current training round (auto-incremented)
-        })
-        log(message=f"Training 'Model_{name}.4n1/round_{model_round}/' with {dataset} dataset...", cfg=cfg)
-        train(config=cfg, resources=train_init)
+    try:
+        available_dataset = [10, 100, 1000, 5000, 10000, 17500, 25000]
+        for loop_idx, dataset in enumerate(available_dataset, start=1):
+            if dataset <= 1000:
+                name = "SenseNano"
+            elif 1000 < dataset <= 5000:
+                name = "SenseMini"
+            elif 5000 < dataset <= 10000:
+                name = "Sense"
+            else:
+                name = "SenseMacro"
+            model_round = loop_idx
+            cfg.update({
+                # Model / caching / logging
+                "MODEL_NAME": f"Model_{name}.4n1",  # Name of the model for identification and caching
+                "DATASET_SIZE": dataset,
+                # Number of samples to generate for training (not the same as for the training rounds themselves)
+                "MODEL_ROUND": model_round  # Current training round (auto-incremented)
+            })
+            log(message=f"Training 'Model_{name}.4n1/round_{model_round}/' with {dataset} dataset...", cfg=cfg)
+            train(config=cfg, resources=train_init)
+    except KeyboardInterrupt:
+        sys.exit("Interrupted by user in main.")
+    except Exception as e:
+        sys.exit(f"Error during training: {e}")