beehive-lab
diff --git a/‎src/main/java/org/beehive/gpullama3/tornadovm/Phi3TornadoVMLayerPlanner.java‎
Lines changed: 357 additions & 357 deletions b/‎src/main/java/org/beehive/gpullama3/tornadovm/Phi3TornadoVMLayerPlanner.java‎
Lines changed: 357 additions & 357 deletions
diff --git a/‎src/main/java/org/beehive/gpullama3/tornadovm/Phi3TornadoVMLayerPlannerQ8_0.java‎
Lines changed: 362 additions & 362 deletions b/‎src/main/java/org/beehive/gpullama3/tornadovm/Phi3TornadoVMLayerPlannerQ8_0.java‎
Lines changed: 362 additions & 362 deletions
diff --git a/‎src/main/java/org/beehive/gpullama3/tornadovm/Qwen3Q8_0TornadoVMLayerPlanner.java‎
Lines changed: 397 additions & 397 deletions b/‎src/main/java/org/beehive/gpullama3/tornadovm/Qwen3Q8_0TornadoVMLayerPlanner.java‎
Lines changed: 397 additions & 397 deletions
diff --git a/‎src/main/java/org/beehive/gpullama3/tornadovm/Qwen3TornadoVMLayerPlanner.java‎
Lines changed: 386 additions & 386 deletions b/‎src/main/java/org/beehive/gpullama3/tornadovm/Qwen3TornadoVMLayerPlanner.java‎
Lines changed: 386 additions & 386 deletions
diff --git a/‎src/main/java/org/beehive/gpullama3/tornadovm/TornadoVMMasterPlan.java‎
Lines changed: 0 additions & 7 deletions b/‎src/main/java/org/beehive/gpullama3/tornadovm/TornadoVMMasterPlan.java‎
Lines changed: 0 additions & 7 deletions
diff --git a/‎src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/base/QuantizationPlannerFactory.java‎
Lines changed: 22 additions & 16 deletions b/‎src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/base/QuantizationPlannerFactory.java‎
Lines changed: 22 additions & 16 deletions
diff --git a/‎src/main/java/org/beehive/gpullama3/tornadovm/layers/type/fp16/LogitsFP16Layer.java‎
Lines changed: 82 additions & 37 deletions b/‎src/main/java/org/beehive/gpullama3/tornadovm/layers/type/fp16/LogitsFP16Layer.java‎
Lines changed: 82 additions & 37 deletions
@@ -147,13 +147,6 @@ private TornadoVMGenericLayerPlanner createPlannerWithStrategy(State state, Mode
         // Factory handles all model × quantization combinations
         TornadoVMGenericLayerPlanner basePlanner = QuantizationPlannerFactory.create(weightType, state, model);
 
-        // ========== STEP 3: Detect Hardware ==========
-        SchedulerType hardwareType = this.schedulerDetectionService;  // Already set in constructor
-
-        // ========== STEP 4: Select Strategy ==========
-//        HardwareStrategy strategy = selectStrategy(hardwareType);
-
-        // ========== STEP 5: Wrap with Hardware Optimization ==========
         return  basePlanner;
     }
 
 
@@ -2,24 +2,36 @@
 
 import org.beehive.gpullama3.core.model.GGMLType;
 import org.beehive.gpullama3.inference.state.LlamaState;
+import org.beehive.gpullama3.inference.state.Phi3State;
 import org.beehive.gpullama3.inference.state.Qwen2State;
 import org.beehive.gpullama3.inference.state.Qwen3State;
 import org.beehive.gpullama3.inference.state.State;
 import org.beehive.gpullama3.model.Model;
 import org.beehive.gpullama3.tornadovm.TornadoVMGenericLayerPlanner;
 import org.beehive.gpullama3.tornadovm.layerplanner.model.fp16.LlamaFP16LayerPlanner;
+import org.beehive.gpullama3.tornadovm.layerplanner.model.fp16.Phi3FP16LayerPlanner;
 import org.beehive.gpullama3.tornadovm.layerplanner.model.fp16.Qwen2FP16LayerPlanner;
 import org.beehive.gpullama3.tornadovm.layerplanner.model.fp16.Qwen3FP16LayerPlanner;
 import org.beehive.gpullama3.tornadovm.layerplanner.model.q8_0.LlamaQ8_0LayerPlanner;
-import org.beehive.gpullama3.tornadovm.layerplanner.model.q8_0.Qwen3Q8_0LayerPlanner;
+import org.beehive.gpullama3.tornadovm.layerplanner.model.q8_0.Phi3Q8_0LayerPlanner;
 import org.beehive.gpullama3.tornadovm.layerplanner.model.q8_0.Qwen2Q8_0LayerPlanner;
+import org.beehive.gpullama3.tornadovm.layerplanner.model.q8_0.Qwen3Q8_0LayerPlanner;
 
 /**
- * Factory: Creates the appropriate planner based on model type + quantization.
- *
- * Routing Logic: 1. Determine quantization type from GGMLType 2. Determine model type from Model 3. Instantiate appropriate planner
- *
- * Example: QuantizationType.FP16 + ModelType.LLAMA_3 → LlamaFP16LayerPlanner QuantizationType.Q8_0 + ModelType.QWEN_2 → Qwen2Q8_0LayerPlanner
+ * Factory class responsible for creating appropriate layer planners based on model type and quantization.
+ * <p>
+ * The factory follows a routing logic:
+ * <ol>
+ *   <li>Determine quantization type from {@link GGMLType}</li>
+ *   <li>Determine model type from {@link Model}</li>
+ *   <li>Instantiate appropriate planner implementation</li>
+ * </ol>
+ * <p>
+ * Examples:
+ * <ul>
+ *   <li>{@code QuantizationType.FP16 + ModelType.LLAMA_3 → LlamaFP16LayerPlanner}</li>
+ *   <li>{@code QuantizationType.Q8_0 + ModelType.QWEN_2 → Qwen2Q8_0LayerPlanner}</li>
+ * </ul>
  */
 public class QuantizationPlannerFactory {
 
@@ -36,36 +48,30 @@ public static TornadoVMGenericLayerPlanner create(GGMLType quantization, State s
     }
 
     // ============ FP16 Planners ============
-
     private static TornadoVMGenericLayerPlanner createFP16Planner(State state, Model model) {
         return switch (model.getModelType()) {
             case LLAMA_3, MISTRAL -> new LlamaFP16LayerPlanner((LlamaState) state, model);
-            //            case MISTRAL -> new MistralFP16LayerPlanner(state, model);
             case QWEN_2 -> new Qwen2FP16LayerPlanner((Qwen2State) state, model);
             case QWEN_3 -> new Qwen3FP16LayerPlanner((Qwen3State) state, model);
-            //            case PHI_3 -> new Phi3FP16LayerPlanner((Phi3State) state, model);
-            //            case DEEPSEEK_R1_DISTILL_QWEN -> new Qwen2FP16LayerPlanner((Qwen2State) state, model);
+            case PHI_3 -> new Phi3FP16LayerPlanner((Phi3State) state, model);
+            case DEEPSEEK_R1_DISTILL_QWEN -> new Qwen2FP16LayerPlanner((Qwen2State) state, model);
             default -> throw new UnsupportedOperationException("FP16 not supported for model: " + model.getModelType());
         };
     }
 
     // ============ Q8_0 Planners ============
-
     private static TornadoVMGenericLayerPlanner createQ8_0Planner(State state, Model model) {
         return switch (model.getModelType()) {
             case LLAMA_3, MISTRAL -> new LlamaQ8_0LayerPlanner((LlamaState) state, model);
             case QWEN_2 -> new Qwen2Q8_0LayerPlanner((Qwen2State) state, model);
             case QWEN_3 -> new Qwen3Q8_0LayerPlanner((Qwen3State) state, model);
-            //            case PHI_3 -> new Phi3Q8_0LayerPlanner((Phi3State) state, model);
-            //            case DEEPSEEK_R1_DISTILL_QWEN -> new Qwen2Q8_0LayerPlanner((Qwen2State) state, model);
-            //            case MISTRAL -> throw new UnsupportedOperationException(
-            //                    "Q8_0 not supported for MISTRAL (use FP16)");
+            case PHI_3 -> new Phi3Q8_0LayerPlanner((Phi3State) state, model);
+            case DEEPSEEK_R1_DISTILL_QWEN -> new Qwen2Q8_0LayerPlanner((Qwen2State) state, model);
             default -> throw new UnsupportedOperationException("Q8_0 not supported for model: " + model.getModelType());
         };
     }
 
     // ============ FP32 Planners (FUTURE) ============
-
     private static TornadoVMGenericLayerPlanner createFP32Planner(State state, Model model) {
         throw new UnsupportedOperationException("FP32 planners not yet implemented");
     }
 
@@ -35,34 +35,59 @@ public LogitsFP16Layer(String name, State state, Weights weights, Configuration
         this.logitsTaskGraph = setupLogitsTaskGraph(fp16Weights , config);
     }
 
+    private TaskGraph setupLogitNonNVidia(FP16Weights weights, Configuration config) {
+        TaskGraph logits = new TaskGraph("logits")
+                .consumeFromDevice(lastTaskGraphID,
+                        state.wrapX
+                )
+                .transferToDevice(DataTransferMode.EVERY_EXECUTION,
+                        state.tempLogits
+                )
+                .transferToDevice(DataTransferMode.FIRST_EXECUTION,
+                        context,
+                        state.wrapLogits,
+                        weights.wclsHalfFloat,
+                        weights.rms_final_weight_as_floatArray
+                )
+                .task("reductionsOneBlockLogits", TransformerComputeKernels::reductionOneBlockWithLayer, context, state.tempLogits,
+                        state.wrapX, config.dim(), config.rmsNormEps(), state.localSize)
+                .task("mapContextLogits", TransformerComputeKernels::reductionOneBlock2WithLogits, context, state.wrapX,
+                        weights.rms_final_weight_as_floatArray, state.tempLogits);
+        logits.task("projection", TransformerComputeKernelsLayered::matrixVectorGeneric,  //
+                context, state.wrapX, state.wrapLogits, weights.wclsHalfFloat, //
+                config.dim(), config.vocabularySize(), LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS); //
+        logits.transferToHost(DataTransferMode.EVERY_EXECUTION, state.wrapLogits);
+        return logits;
+    }
+
     /**
      * Builds the logits computation graph.
      */
     private TaskGraph setupLogitsTaskGraph(FP16Weights weights, Configuration config) {
 
-                TaskGraph logits = new TaskGraph("logits")
-                        .consumeFromDevice(lastTaskGraphID,
-                                state.wrapX
-                        )
-                        .transferToDevice(DataTransferMode.EVERY_EXECUTION,
-                                state.tempLogits
-                        )
-                        .transferToDevice(DataTransferMode.FIRST_EXECUTION,
-                                context,
-                                state.wrapLogits,
-                                weights.wclsHalfFloat,
-                                weights.rms_final_weight_as_floatArray
-                        )
-                        .task("reductionsOneBlockLogits", TransformerComputeKernels::reductionOneBlockWithLayer, context, state.tempLogits,
-                                state.wrapX, config.dim(), config.rmsNormEps(), state.localSize)
-                        .task("mapContextLogits", TransformerComputeKernels::reductionOneBlock2WithLogits, context, state.wrapX,
-                                weights.rms_final_weight_as_floatArray, state.tempLogits);
-                        logits.task("projection", TransformerComputeKernelsLayered::matrixVectorGeneric,
-                                context, state.wrapX, state.wrapLogits, weights.wclsHalfFloat,
-                                config.dim(), config.vocabularySize(), LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS);
-                        logits.transferToHost(DataTransferMode.EVERY_EXECUTION, state.wrapLogits);
-
-                        return logits;
+        TaskGraph logits = new TaskGraph("logits")
+                .consumeFromDevice(lastTaskGraphID,
+                        state.wrapX
+                )
+                .transferToDevice(DataTransferMode.EVERY_EXECUTION,
+                        state.tempLogits
+                )
+                .transferToDevice(DataTransferMode.FIRST_EXECUTION,
+                        context,
+                        state.wrapLogits,
+                        weights.wclsHalfFloat,
+                        weights.rms_final_weight_as_floatArray
+                )
+                .task("reductionsOneBlockLogits", TransformerComputeKernels::reductionOneBlockWithLayer, context, state.tempLogits,
+                        state.wrapX, config.dim(), config.rmsNormEps(), state.localSize)
+                .task("mapContextLogits", TransformerComputeKernels::reductionOneBlock2WithLogits, context, state.wrapX,
+                        weights.rms_final_weight_as_floatArray, state.tempLogits);
+                logits.task("projection", TransformerComputeKernelsLayered::matrixVectorGeneric,
+                        context, state.wrapX, state.wrapLogits, weights.wclsHalfFloat,
+                        config.dim(), config.vocabularySize(), LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS);
+                logits.transferToHost(DataTransferMode.EVERY_EXECUTION, state.wrapLogits);
+
+                return logits;
     }
 
     private GridScheduler setupGridSchedulerForLogits(Configuration config) {
@@ -85,22 +110,42 @@ private GridScheduler setupGridSchedulerForLogits(Configuration config) {
         return scheduler;
     }
 
-    @Override
-    public GridScheduler updateGridScheduler(GridScheduler scheduler) {
-        // RMSNorm operations
-        WorkerGrid rmsNormWorker = new WorkerGrid1D(config.dim());
-        rmsNormWorker.setGlobalWork(config.dim(), 1, 1);
-        rmsNormWorker.setLocalWork(256, 1, 1);
-
-        // Projection kernel (vocabulary size × hidden dim)
-        int vocabSizeGlobal = config.vocabularySize() * LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS;
-        WorkerGrid projectionWorker = new WorkerGrid1D(vocabSizeGlobal);
-        projectionWorker.setLocalWork(LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS, 1, 1);
+//    @Override
+//    public GridScheduler updateGridScheduler(GridScheduler scheduler) {
+//        // RMSNorm operations
+//        WorkerGrid rmsNormWorker = new WorkerGrid1D(config.dim());
+//        rmsNormWorker.setGlobalWork(config.dim(), 1, 1);
+//        rmsNormWorker.setLocalWork(256, 1, 1);
+//
+//        // Projection kernel (vocabulary size × hidden dim)
+//        int vocabSizeGlobal = config.vocabularySize() * LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS;
+//        WorkerGrid projectionWorker = new WorkerGrid1D(vocabSizeGlobal);
+//        projectionWorker.setLocalWork(LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS, 1, 1);
+//
+//        scheduler.addWorkerGrid("logits.projection", projectionWorker);
+//        scheduler.addWorkerGrid("logits.reductionsOneBlockLogits", rmsNormWorker);
+//        scheduler.addWorkerGrid("logits.mapContextLogits", rmsNormWorker);
+//
+//        return scheduler;
+//    }
 
-        scheduler.addWorkerGrid("logits.projection", projectionWorker);
-        scheduler.addWorkerGrid("logits.reductionsOneBlockLogits", rmsNormWorker);
-        scheduler.addWorkerGrid("logits.mapContextLogits", rmsNormWorker);
 
+    @Override
+    public GridScheduler updateGridScheduler(GridScheduler tornadoForwardScheduler) {
+            // RMSNorm operations
+            WorkerGrid rmsNormWorker = new WorkerGrid1D(config.dim());
+            rmsNormWorker.setGlobalWork(config.dim(), 1, 1);
+            rmsNormWorker.setLocalWork(256, 1, 1);
+
+        // OpenCL equivalent: clEnqueueNDRangeKernel(globalWorkSize=[config.vocabularySize,1,1], localWorkSize=[16,1,1])
+        // CUDA equivalent: kernel<<<dim3((config.vocabularySize+15)/16,1,1), dim3(16,1,1)>>>
+        int vocabSizeRowMajor = config.vocabularySize() * LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS;
+        WorkerGrid vocabWorker = new WorkerGrid1D(vocabSizeRowMajor);
+        vocabWorker.setLocalWork(LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS, 1, 1);
+
+        tornadoForwardScheduler.addWorkerGrid("logits.projection", vocabWorker);
+        tornadoForwardScheduler.addWorkerGrid("logits.reductionsOneBlockLogits", rmsNormWorker);
+        tornadoForwardScheduler.addWorkerGrid("logits.mapContextLogits", rmsNormWorker);
         return scheduler;
     }