beehive-lab
diff --git a/‎src/main/java/org/beehive/gpullama3/tornadovm/GPULLlama3TypeException.java‎
Lines changed: 9 additions & 0 deletions b/‎src/main/java/org/beehive/gpullama3/tornadovm/GPULLlama3TypeException.java‎
Lines changed: 9 additions & 0 deletions
diff --git a/‎src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/GenericLayerPlanner.java‎
Lines changed: 14 additions & 0 deletions b/‎src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/GenericLayerPlanner.java‎
Lines changed: 14 additions & 0 deletions
diff --git a/‎src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/base/QuantizationPlannerFactory.java‎
Lines changed: 72 additions & 0 deletions b/‎src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/base/QuantizationPlannerFactory.java‎
Lines changed: 72 additions & 0 deletions
diff --git a/‎src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/base/QuantizedLayerPlanner.java‎
Lines changed: 60 additions & 0 deletions b/‎src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/base/QuantizedLayerPlanner.java‎
Lines changed: 60 additions & 0 deletions
diff --git a/‎src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/model/fp16/LlamaFP16LayerPlanner.java‎
Lines changed: 115 additions & 0 deletions b/‎src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/model/fp16/LlamaFP16LayerPlanner.java‎
Lines changed: 115 additions & 0 deletions
@@ -0,0 +1,9 @@
+package org.beehive.gpullama3.tornadovm;
+
+import java.io.IOException;
+
+public class GPULLlama3TypeException extends IllegalArgumentException {
+    public GPULLlama3TypeException(String message) {
+        super(message);
+    }
+}
@@ -0,0 +1,14 @@
+package org.beehive.gpullama3.tornadovm.layerplanner;
+
+import org.beehive.gpullama3.auxiliary.Tuple2;
+import uk.ac.manchester.tornado.api.GridScheduler;
+import uk.ac.manchester.tornado.api.ImmutableTaskGraph;
+
+import java.util.List;
+
+public interface GenericLayerPlanner {
+    Tuple2<List<ImmutableTaskGraph>, GridScheduler> setupTornadoForwardPlanLayered();
+
+    Tuple2<List<ImmutableTaskGraph>, GridScheduler> setupTornadoForwardPlanLayeredNonNvidia();
+
+}
@@ -0,0 +1,72 @@
+package org.beehive.gpullama3.tornadovm.layerplanner.base;
+
+import org.beehive.gpullama3.core.model.GGMLType;
+import org.beehive.gpullama3.inference.state.LlamaState;
+import org.beehive.gpullama3.inference.state.Qwen2State;
+import org.beehive.gpullama3.inference.state.Qwen3State;
+import org.beehive.gpullama3.inference.state.State;
+import org.beehive.gpullama3.model.Model;
+import org.beehive.gpullama3.tornadovm.TornadoVMGenericLayerPlanner;
+import org.beehive.gpullama3.tornadovm.layerplanner.model.fp16.LlamaFP16LayerPlanner;
+import org.beehive.gpullama3.tornadovm.layerplanner.model.fp16.Qwen2FP16LayerPlanner;
+import org.beehive.gpullama3.tornadovm.layerplanner.model.fp16.Qwen3FP16LayerPlanner;
+import org.beehive.gpullama3.tornadovm.layerplanner.model.q8_0.LlamaQ8_0LayerPlanner;
+import org.beehive.gpullama3.tornadovm.layerplanner.model.q8_0.Qwen3Q8_0LayerPlanner;
+import org.beehive.gpullama3.tornadovm.layerplanner.model.q8_0.Qwen2Q8_0LayerPlanner;
+
+/**
+ * Factory: Creates the appropriate planner based on model type + quantization.
+ *
+ * Routing Logic: 1. Determine quantization type from GGMLType 2. Determine model type from Model 3. Instantiate appropriate planner
+ *
+ * Example: QuantizationType.FP16 + ModelType.LLAMA_3 → LlamaFP16LayerPlanner QuantizationType.Q8_0 + ModelType.QWEN_2 → Qwen2Q8_0LayerPlanner
+ */
+public class QuantizationPlannerFactory {
+
+    /**
+     * Main factory method: create planner for given model + quantization
+     */
+    public static TornadoVMGenericLayerPlanner create(GGMLType quantization, State state, Model model) {
+        return switch (quantization) {
+            case F32 -> createFP32Planner(state, model);
+            case F16 -> createFP16Planner(state, model);
+            case Q8_0 -> createQ8_0Planner(state, model);
+            default -> throw new UnsupportedOperationException("Quantization not supported: " + quantization);
+        };
+    }
+
+    // ============ FP16 Planners ============
+
+    private static TornadoVMGenericLayerPlanner createFP16Planner(State state, Model model) {
+        return switch (model.getModelType()) {
+            case LLAMA_3, MISTRAL -> new LlamaFP16LayerPlanner((LlamaState) state, model);
+            //            case MISTRAL -> new MistralFP16LayerPlanner(state, model);
+            case QWEN_2 -> new Qwen2FP16LayerPlanner((Qwen2State) state, model);
+            case QWEN_3 -> new Qwen3FP16LayerPlanner((Qwen3State) state, model);
+            //            case PHI_3 -> new Phi3FP16LayerPlanner((Phi3State) state, model);
+            //            case DEEPSEEK_R1_DISTILL_QWEN -> new Qwen2FP16LayerPlanner((Qwen2State) state, model);
+            default -> throw new UnsupportedOperationException("FP16 not supported for model: " + model.getModelType());
+        };
+    }
+
+    // ============ Q8_0 Planners ============
+
+    private static TornadoVMGenericLayerPlanner createQ8_0Planner(State state, Model model) {
+        return switch (model.getModelType()) {
+            case LLAMA_3, MISTRAL -> new LlamaQ8_0LayerPlanner((LlamaState) state, model);
+            case QWEN_2 -> new Qwen2Q8_0LayerPlanner((Qwen2State) state, model);
+            case QWEN_3 -> new Qwen3Q8_0LayerPlanner((Qwen3State) state, model);
+            //            case PHI_3 -> new Phi3Q8_0LayerPlanner((Phi3State) state, model);
+            //            case DEEPSEEK_R1_DISTILL_QWEN -> new Qwen2Q8_0LayerPlanner((Qwen2State) state, model);
+            //            case MISTRAL -> throw new UnsupportedOperationException(
+            //                    "Q8_0 not supported for MISTRAL (use FP16)");
+            default -> throw new UnsupportedOperationException("Q8_0 not supported for model: " + model.getModelType());
+        };
+    }
+
+    // ============ FP32 Planners (FUTURE) ============
+
+    private static TornadoVMGenericLayerPlanner createFP32Planner(State state, Model model) {
+        throw new UnsupportedOperationException("FP32 planners not yet implemented");
+    }
+}
@@ -0,0 +1,60 @@
+package org.beehive.gpullama3.tornadovm.layerplanner.base;
+
+import org.beehive.gpullama3.inference.state.State;
+import org.beehive.gpullama3.inference.weights.Weights;
+import org.beehive.gpullama3.model.Configuration;
+import org.beehive.gpullama3.model.Model;
+import org.beehive.gpullama3.tornadovm.TornadoVMGenericLayerPlanner;
+import uk.ac.manchester.tornado.api.KernelContext;
+
+/**
+ * Abstract base for all quantization-specific planners.
+ *
+ * Contains shared logic that works regardless of model type but depends on quantization. Subclasses: FP16LayerPlanner, Q8_0LayerPlanner, etc.
+ */
+public abstract class QuantizedLayerPlanner<S extends State, C extends Configuration, W extends Weights> implements TornadoVMGenericLayerPlanner {
+
+    // Common state for all quantizations
+    protected static final int LOCAL_WORK_GROUP_SIZE_ALLOC = 32;
+    protected static final int THREAD_SCALE_FOR_LOGITS = 8;
+
+    protected final S state;
+    protected final C config;
+    protected final W weights;
+    protected final KernelContext context;
+
+    /**
+     * Constructor: validate quantization type, extract model components
+     */
+    protected QuantizedLayerPlanner(S state, Model model) {
+        this.state = state;
+        this.config = (C) model.configuration();
+        this.weights = (W) model.weights();
+        this.context = new KernelContext();
+
+        validateQuantizationType();
+    }
+
+    /**
+     * Override in subclasses to validate correct quantization format. E.g., FP16LayerPlanner checks: weights instanceof FP16Weights
+     */
+    protected abstract void validateQuantizationType();
+
+    /**
+     * Override in subclasses for model-specific initialization
+     */
+    protected abstract void initializeLayerComponents();
+
+    // Common helper methods for all quantizations
+    protected C getConfig() {
+        return config;
+    }
+
+    protected W getWeights() {
+        return weights;
+    }
+
+    protected S getState() {
+        return state;
+    }
+}
@@ -0,0 +1,115 @@
+package org.beehive.gpullama3.tornadovm.layerplanner.model.fp16;
+
+import org.beehive.gpullama3.auxiliary.Tuple2;
+import org.beehive.gpullama3.inference.state.LlamaState;
+import org.beehive.gpullama3.inference.weights.tornado.FP16Weights.LlamaTornadoWeights;
+import org.beehive.gpullama3.model.Model;
+import org.beehive.gpullama3.model.llama.LlamaConfiguration;
+import org.beehive.gpullama3.tornadovm.GPULLlama3TypeException;
+import org.beehive.gpullama3.tornadovm.layerplanner.quantization.FP16LayerPlanner;
+import org.beehive.gpullama3.tornadovm.layers.Activation;
+import org.beehive.gpullama3.tornadovm.layers.type.fp16.LlamaFP16FFNLayers;
+import org.beehive.gpullama3.tornadovm.layers.type.fp16.LogitsFP16Layer;
+import uk.ac.manchester.tornado.api.GridScheduler;
+import uk.ac.manchester.tornado.api.ImmutableTaskGraph;
+
+import java.util.ArrayList;
+import java.util.List;
+
+public class LlamaFP16LayerPlanner extends FP16LayerPlanner<LlamaState, LlamaConfiguration, LlamaTornadoWeights> {
+
+    private Activation activationLayer;
+    private LlamaFP16FFNLayers ffnLayers;
+    private LogitsFP16Layer logitsLayer;
+
+    // Cache
+    private List<ImmutableTaskGraph> cachedTaskGraphs;
+    private GridScheduler cachedScheduler;
+
+    public LlamaFP16LayerPlanner(LlamaState state, Model model) {
+        super(state, model);
+        validateQuantizationType();
+        setupTornadoForwardPlan();
+    }
+
+    @Override
+    protected void initializeLayerComponents() {
+        this.activationLayer = new Activation("activationUpdate", this.state, this.weights, this.config);
+
+        this.ffnLayers = new LlamaFP16FFNLayers("llamaFFN", this.state, this.weights, this.config);
+
+        this.logitsLayer = new LogitsFP16Layer("llamaLogits", this.state, this.weights, this.config, ffnLayers.getLastTaskGraphID());
+    }
+
+    @Override
+    public Tuple2<List<ImmutableTaskGraph>, GridScheduler> setupTornadoForwardPlanLayered() {
+        if (this.cachedTaskGraphs != null && this.cachedScheduler != null) {
+            return new Tuple2<>(this.cachedTaskGraphs, this.cachedScheduler);
+        }
+
+        List<ImmutableTaskGraph> allTaskGraphs = new ArrayList<>();
+        GridScheduler masterScheduler = new GridScheduler();
+
+        // 1. Activation layer
+        allTaskGraphs.add(activationLayer.getImmutableTaskGraph());
+        activationLayer.updateGridScheduler(masterScheduler);
+
+        // 2. FFN layers (N transformer layers)
+        allTaskGraphs.addAll(ffnLayers.getFfnLayerTaskGraphs());
+        ffnLayers.updateGridScheduler(masterScheduler);
+
+        // 3. Logits layer
+        allTaskGraphs.add(logitsLayer.getTaskGraph().snapshot());
+        logitsLayer.updateGridScheduler(masterScheduler);
+
+        // Cache
+        this.cachedTaskGraphs = allTaskGraphs;
+        this.cachedScheduler = masterScheduler;
+
+        return new Tuple2<>(allTaskGraphs, masterScheduler);
+    }
+
+    public void setupTornadoForwardPlan() {
+
+        List<ImmutableTaskGraph> allTaskGraphs = new ArrayList<>();
+        GridScheduler masterScheduler = new GridScheduler();
+
+        // 1. Activation layer
+        allTaskGraphs.add(activationLayer.getImmutableTaskGraph());
+        activationLayer.updateGridScheduler(masterScheduler);
+
+        // 2. FFN layers (N transformer layers)
+        allTaskGraphs.addAll(ffnLayers.getFfnLayerTaskGraphs());
+        ffnLayers.updateGridScheduler(masterScheduler);
+
+        // 3. Logits layer
+        allTaskGraphs.add(logitsLayer.getTaskGraph().snapshot());
+        logitsLayer.updateGridScheduler(masterScheduler);
+
+        // Cache
+        this.cachedTaskGraphs = allTaskGraphs;
+        this.cachedScheduler = masterScheduler;
+
+    }
+
+    @Override
+    public Tuple2<List<ImmutableTaskGraph>, GridScheduler> setupTornadoForwardPlanLayeredNonNvidia() {
+        // For now, same as NVIDIA version
+        // Hardware strategy will optimize scheduler
+        return setupTornadoForwardPlanLayered();
+    }
+
+    public List<ImmutableTaskGraph> getCachedTaskGraphs() {
+        return this.cachedTaskGraphs;
+    }
+
+    @Override
+    public GridScheduler getCachedGridScheduler() {
+        return this.cachedScheduler;
+    }
+
+    public void clearCache() {
+        this.cachedTaskGraphs = null;
+        this.cachedScheduler = null;
+    }
+}