feat: add QLoRA 3B benchmark script against AdamW

SCAO Authors · SCAO Authors · commit 39f6e77fdfda · 2026-04-23T10:49:35.000-03:00
diff --git a/examples/benchmarks/benchmark_4b.py b/examples/benchmarks/benchmark_4b.py
@@ -0,0 +1,88 @@
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer, BitsAndBytesConfig, DataCollatorForLanguageModeling
+from datasets import load_dataset
+from peft import get_peft_model, LoraConfig, prepare_model_for_kbit_training
+from scao import SCAO # Your 2nd-order optimizer implementation
+
+def main():
+    print("🚀 Starting 4B-Scale Benchmark for SCAO...")
+    
+    # Using Qwen 2.5 3B model (optimal for the 4B category tests)
+    model_id = "Qwen/Qwen2.5-3B"
+    
+    tokenizer = AutoTokenizer.from_pretrained(model_id)
+    if tokenizer.pad_token is None:
+        tokenizer.pad_token = tokenizer.eos_token
+
+    print("📦 Loading base model in 4-bit (QLoRA) to optimize GPU memory usage...")
+    bnb_config = BitsAndBytesConfig(
+        load_in_4bit=True,
+        bnb_4bit_use_double_quant=True,
+        bnb_4bit_quant_type="nf4",
+        bnb_4bit_compute_dtype=torch.bfloat16 if torch.cuda.is_bf16_supported() else torch.float16
+    )
+
+    model = AutoModelForCausalLM.from_pretrained(
+        model_id,
+        quantization_config=bnb_config,
+        device_map="auto"
+    )
+
+    print("🧠 Initializing LoRA adapters...")
+    model = prepare_model_for_kbit_training(model)
+    
+    lora_config = LoraConfig(
+        r=16,
+        lora_alpha=32,
+        target_modules=["q_proj", "k_proj", "v_proj", "o_proj"], # Focusing on Attention layers
+        lora_dropout=0.05,
+        bias="none",
+        task_type="CAUSAL_LM"
+    )
+    model = get_peft_model(model, lora_config)
+
+    # Filter only parameters that require gradients
+    trainable_params = [p for p in model.parameters() if p.requires_grad]
+    print(f"🔥 Trainable parameters (LoRA): {sum(p.numel() for p in trainable_params):,}")
+
+    print("📚 Loading dataset...")
+    # Using wikitext-2 for consistency across benchmarks
+    dataset = load_dataset("wikitext", "wikitext-2-raw-v1", split="train[:5%]")
+    
+    def tokenize(example):
+        return tokenizer(example["text"], padding="max_length", truncation=True, max_length=256)
+    
+    tokenized_dataset = dataset.map(tokenize, batched=True)
+
+    print("⚙️ Injecting SCAO Optimizer...")
+    # SCAO uses 2nd-order information for faster convergence
+    optimizer = SCAO(trainable_params, lr=2e-4) # Standard QLoRA learning rate
+
+    # Data collator for causal language modeling (automatically creates 'labels')
+    data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
+
+    args = TrainingArguments(
+        output_dir="./scao_benchmark_4b_results",
+        per_device_train_batch_size=2, # Small batch size to manage VRAM constraints
+        gradient_accumulation_steps=4, # Effective batch size of 8
+        max_steps=100,                 # 100 steps to evaluate performance and loss decay
+        logging_steps=10,
+        report_to="none",
+        gradient_checkpointing=True,   # Essential to avoid Out-Of-Memory errors
+        optim="adamw_torch"            # Placeholder; SCAO will override this if passed to Trainer
+    )
+
+    trainer = Trainer(
+        model=model,
+        args=args,
+        train_dataset=tokenized_dataset,
+        data_collator=data_collator,   # Pass the collator to handle sequence labeling
+        # To fully utilize SCAO, pass it to the Trainer's optimizers argument:
+        optimizers=(optimizer, None)
+    )
+
+    print("⚡ Training active! Watch for the loss reduction curve...")
+    trainer.train()
+
+if __name__ == "__main__":
+    main()
diff --git a/examples/benchmarks/trainer_state-AdamW.json b/examples/benchmarks/trainer_state-AdamW.json
@@ -0,0 +1,104 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.4357298474945534,
+  "eval_steps": 500,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04357298474945534,
+      "grad_norm": 0.8557016849517822,
+      "learning_rate": 4.55e-05,
+      "loss": 2.7660524368286135,
+      "step": 10
+    },
+    {
+      "epoch": 0.08714596949891068,
+      "grad_norm": 1.0481969118118286,
+      "learning_rate": 4.05e-05,
+      "loss": 3.1643226623535154,
+      "step": 20
+    },
+    {
+      "epoch": 0.13071895424836602,
+      "grad_norm": 0.599257230758667,
+      "learning_rate": 3.55e-05,
+      "loss": 2.9573230743408203,
+      "step": 30
+    },
+    {
+      "epoch": 0.17429193899782136,
+      "grad_norm": 0.5881643295288086,
+      "learning_rate": 3.05e-05,
+      "loss": 2.8170230865478514,
+      "step": 40
+    },
+    {
+      "epoch": 0.2178649237472767,
+      "grad_norm": 0.5822768211364746,
+      "learning_rate": 2.5500000000000003e-05,
+      "loss": 2.7181997299194336,
+      "step": 50
+    },
+    {
+      "epoch": 0.26143790849673204,
+      "grad_norm": 0.8144065141677856,
+      "learning_rate": 2.05e-05,
+      "loss": 2.6438121795654297,
+      "step": 60
+    },
+    {
+      "epoch": 0.30501089324618735,
+      "grad_norm": 0.6474636793136597,
+      "learning_rate": 1.55e-05,
+      "loss": 2.623094940185547,
+      "step": 70
+    },
+    {
+      "epoch": 0.3485838779956427,
+      "grad_norm": 0.7236846089363098,
+      "learning_rate": 1.05e-05,
+      "loss": 2.6345943450927733,
+      "step": 80
+    },
+    {
+      "epoch": 0.39215686274509803,
+      "grad_norm": 0.5381503105163574,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 2.6301015853881835,
+      "step": 90
+    },
+    {
+      "epoch": 0.4357298474945534,
+      "grad_norm": 1.4788507223129272,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 2.453901672363281,
+      "step": 100
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3418701692928000.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}
diff --git a/examples/benchmarks/trainer_state-SCAO.json b/examples/benchmarks/trainer_state-SCAO.json
@@ -0,0 +1,104 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.4357298474945534,
+  "eval_steps": 500,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04357298474945534,
+      "grad_norm": 1.0032742023468018,
+      "learning_rate": 0.000182,
+      "loss": 2.718400001525879,
+      "step": 10
+    },
+    {
+      "epoch": 0.08714596949891068,
+      "grad_norm": 1.1835830211639404,
+      "learning_rate": 0.000162,
+      "loss": 2.7992538452148437,
+      "step": 20
+    },
+    {
+      "epoch": 0.13071895424836602,
+      "grad_norm": 0.7115559577941895,
+      "learning_rate": 0.000142,
+      "loss": 2.5605207443237306,
+      "step": 30
+    },
+    {
+      "epoch": 0.17429193899782136,
+      "grad_norm": 0.8470057249069214,
+      "learning_rate": 0.000122,
+      "loss": 2.559454345703125,
+      "step": 40
+    },
+    {
+      "epoch": 0.2178649237472767,
+      "grad_norm": 0.7798479199409485,
+      "learning_rate": 0.00010200000000000001,
+      "loss": 2.545095443725586,
+      "step": 50
+    },
+    {
+      "epoch": 0.26143790849673204,
+      "grad_norm": 1.027970314025879,
+      "learning_rate": 8.2e-05,
+      "loss": 2.415896987915039,
+      "step": 60
+    },
+    {
+      "epoch": 0.30501089324618735,
+      "grad_norm": 0.9205061197280884,
+      "learning_rate": 6.2e-05,
+      "loss": 2.448424530029297,
+      "step": 70
+    },
+    {
+      "epoch": 0.3485838779956427,
+      "grad_norm": 0.8652524948120117,
+      "learning_rate": 4.2e-05,
+      "loss": 2.450721549987793,
+      "step": 80
+    },
+    {
+      "epoch": 0.39215686274509803,
+      "grad_norm": 0.7723934054374695,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 2.462067222595215,
+      "step": 90
+    },
+    {
+      "epoch": 0.4357298474945534,
+      "grad_norm": 1.4185497760772705,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 2.2699026107788085,
+      "step": 100
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3418701692928000.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}