Refactor TornadoVM layer planners and worker grid logic:

mikepapadim · mikepapadim · commit 2befb97f9bf0 · 2025-11-05T20:27:22.000+02:00
- Replaced `TornadoVMGenericLayerPlanner` with `GenericLayerPlanner` for consistency across planners.
- Updated `QuantizationPlannerFactory` and related classes to use the new interface.
- Added `createSingleWorker` method to `WorkerGridFactory` for standardized single worker creation.
- Simplified and cleaned up TornadoVMMasterPlan, removing unused methods and comments.
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/GenericLayerPlanner.java b/src/main/java/org/beehive/gpullama3/tornadovm/GenericLayerPlanner.java
@@ -6,7 +6,7 @@
 
 import java.util.List;
 
-public interface TornadoVMGenericLayerPlanner {
+public interface GenericLayerPlanner {
 
     Tuple2<List<ImmutableTaskGraph>, GridScheduler> setupTornadoForwardPlanLayered();
 
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/TornadoVMMasterPlan.java b/src/main/java/org/beehive/gpullama3/tornadovm/TornadoVMMasterPlan.java
@@ -4,33 +4,22 @@
 import org.beehive.gpullama3.inference.state.State;
 import org.beehive.gpullama3.model.Configuration;
 import org.beehive.gpullama3.model.Model;
-import org.beehive.gpullama3.model.ModelType;
 import org.beehive.gpullama3.tornadovm.layerplanner.base.QuantizationPlannerFactory;
-import org.beehive.gpullama3.tornadovm.layers.SchedulerDetectionService;
-import org.beehive.gpullama3.tornadovm.layers.SchedulerType;
 import uk.ac.manchester.tornado.api.ImmutableTaskGraph;
 import uk.ac.manchester.tornado.api.TornadoExecutionPlan;
-import uk.ac.manchester.tornado.api.TornadoRuntime;
-import uk.ac.manchester.tornado.api.runtime.TornadoRuntimeProvider;
 import uk.ac.manchester.tornado.api.types.arrays.FloatArray;
 
-import java.util.Locale;
-
 public class TornadoVMMasterPlan {
     public static final boolean ENABLE_TORNADOVM_INIT_TIME = Boolean.parseBoolean(System.getProperty("llama.EnableTimingForTornadoVMInit", "False"));
 
     private final State state;
     private final Configuration config;
     public TornadoExecutionPlan executionPlan;
-    private SchedulerType schedulerDetectionService;
-    TornadoVMGenericLayerPlanner tornadoVMLayerPlanner;
+    GenericLayerPlanner tornadoVMLayerPlanner;
 
     public TornadoVMMasterPlan(State state, Model model) {
-//        this.schedulerDetectionService = SchedulerDetectionService.determineSchedulerType(model);
-
         this.tornadoVMLayerPlanner = createPlannerWithStrategy(state, model);
         this.executionPlan = new TornadoExecutionPlan(tornadoVMLayerPlanner.getCachedTaskGraphs().toArray(new ImmutableTaskGraph[tornadoVMLayerPlanner.getCachedTaskGraphs().size()]));
-
         this.state = state;
         this.config = model.configuration();
     }
@@ -57,7 +46,7 @@ public static TornadoVMMasterPlan initializeTornadoVMPlan(State state, Model mod
         }
 
         // 1. Pre-allocate the TornadoVM plan
-        TornadoVMMasterPlan tornadoVMPlan = new TornadoVMMasterPlan(state, model );
+        TornadoVMMasterPlan tornadoVMPlan = new TornadoVMMasterPlan(state, model);
 
         // Record time after plan creation
         if (ENABLE_TORNADOVM_INIT_TIME) {
@@ -89,81 +78,16 @@ public static TornadoVMMasterPlan initializeTornadoVMPlan(State state, Model mod
         return tornadoVMPlan;
     }
 
-    /**
-     * Dispatcher method to select the TornadoVMLayerPlanner for the model.
-     */
-//    TornadoVMGenericLayerPlanner createPlanner(State state, Model model) {
-//        return switch (model.getModelType()) {
-//            case LLAMA_3, MISTRAL -> whatcreateLlama3Planner(state, model);
-//            //            case PHI_3 -> createPhi3Planner(state, model);
-//            //            case QWEN_2, DEEPSEEK_R1_DISTILL_QWEN -> createQWEN2Planner(state, model);
-//            //            case QWEN_3 -> createQWEN3Planner(state, model);
-//            case QWEN_2 -> null;
-//            case QWEN_3 -> null;
-//            case DEEPSEEK_R1_DISTILL_QWEN -> null;
-//            case PHI_3 -> null;
-//            case UNKNOWN -> throw new UnsupportedOperationException("Unknown model type");
-//        };
-//    }
-
-//    private TornadoVMGenericLayerPlanner whatcreateLlama3Planner(State state, Model model) {
-//        if (model.weights().getWeightType().equals(GGMLType.Q8_0)) {
-//            return new TornadoVMQ8_0LayerPlanner(state, model);
-//        } else {
-//            return new TornadoVMLayerPlanner(state, model);
-//        }
-//    }
-
-    //    private TornadoVMGenericLayerPlanner createQWEN2Planner(State state, Model model) {
-    //        if (model.weights().getWeightType().equals(GGMLType.Q8_0)) {
-    //            return new Qwen2Q8_0TornadoVMLayerPlanner((Qwen2State) state, model);
-    //        } else {
-    //            return new Qwen2TornadoVMLayerPlanner((Qwen2State) state, model);
-    //        }
-    //    }
-    //
-    //    private TornadoVMGenericLayerPlanner createPhi3Planner(State state, Model model) {
-    //        if (model.weights().getWeightType().equals(GGMLType.Q8_0)) {
-    //            return new Phi3TornadoVMLayerPlannerQ8_0((Phi3State) state, model);
-    //        } else {
-    //            return new Phi3TornadoVMLayerPlanner((Phi3State) state, model);
-    //        }
-    //    }
-    //
-    //    private TornadoVMGenericLayerPlanner createQWEN3Planner(State state, Model model) {
-    //        if (model.weights().getWeightType().equals(GGMLType.Q8_0)) {
-    //            return new Qwen3Q8_0TornadoVMLayerPlanner((Qwen3State) state, model);
-    //        } else {
-    //            return new Qwen3TornadoVMLayerPlanner((Qwen3State) state, model);
-    //        }
-    //    }
-
-    private TornadoVMGenericLayerPlanner createPlannerWithStrategy(State state, Model model) {
+    private GenericLayerPlanner createPlannerWithStrategy(State state, Model model) {
 
         // ========== STEP 1: Detect Quantization Type ==========
         GGMLType weightType = model.weights().getWeightType();
 
         // ========== STEP 2: Route via Factory ==========
         // Factory handles all model × quantization combinations
-        TornadoVMGenericLayerPlanner basePlanner = QuantizationPlannerFactory.create(weightType, state, model);
-
-        return  basePlanner;
-    }
-
-
-    public static SchedulerType shouldUseNvidiaScheduler(Model model) {
-        TornadoRuntime runtime = TornadoRuntimeProvider.getTornadoRuntime();
-        String platformName = runtime.getBackend(0).getDefaultDevice().getPlatformName().toLowerCase(Locale.ROOT);
+        GenericLayerPlanner basePlanner = QuantizationPlannerFactory.create(weightType, state, model);
 
-        boolean isNvidia = platformName.contains("nvidia") || platformName.contains("cuda") || platformName.contains("ptx");
-        boolean isNotMistral = model.getModelType() != ModelType.MISTRAL;
-
-
-        if (isNvidia && isNotMistral) {
-            return SchedulerType.NVIDIA;
-        } else {
-            return  SchedulerType.NON_NVIDIA;
-        }
+        return basePlanner;
     }
 
     /**
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/WorkerGridFactory.java b/src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/WorkerGridFactory.java
@@ -17,6 +17,13 @@ public static WorkerGrid createRmsNormWorker(int dim, int localSize) {
         return worker;
     }
 
+    public static WorkerGrid createSingleWorker() {
+        WorkerGrid worker = new WorkerGrid1D(1);
+        worker.setGlobalWork(1, 1, 1);
+        worker.setLocalWork(1, 1, 1);
+        return worker;
+    }
+
     /**
      * QKV matmul worker: combined projection output
      */
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/base/QuantizationPlannerFactory.java b/src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/base/QuantizationPlannerFactory.java
@@ -7,7 +7,7 @@
 import org.beehive.gpullama3.inference.state.Qwen3State;
 import org.beehive.gpullama3.inference.state.State;
 import org.beehive.gpullama3.model.Model;
-import org.beehive.gpullama3.tornadovm.TornadoVMGenericLayerPlanner;
+import org.beehive.gpullama3.tornadovm.GenericLayerPlanner;
 import org.beehive.gpullama3.tornadovm.layerplanner.model.fp16.LlamaFP16LayerPlanner;
 import org.beehive.gpullama3.tornadovm.layerplanner.model.fp16.Phi3FP16LayerPlanner;
 import org.beehive.gpullama3.tornadovm.layerplanner.model.fp16.Qwen2FP16LayerPlanner;
@@ -38,7 +38,7 @@ public class QuantizationPlannerFactory {
     /**
      * Main factory method: create planner for given model + quantization
      */
-    public static TornadoVMGenericLayerPlanner create(GGMLType quantization, State state, Model model) {
+    public static GenericLayerPlanner create(GGMLType quantization, State state, Model model) {
         return switch (quantization) {
             case F32 -> createFP32Planner(state, model);
             case F16 -> createFP16Planner(state, model);
@@ -48,7 +48,7 @@ public static TornadoVMGenericLayerPlanner create(GGMLType quantization, State s
     }
 
     // ============ FP16 Planners ============
-    private static TornadoVMGenericLayerPlanner createFP16Planner(State state, Model model) {
+    private static GenericLayerPlanner createFP16Planner(State state, Model model) {
         return switch (model.getModelType()) {
             case LLAMA_3, MISTRAL -> new LlamaFP16LayerPlanner((LlamaState) state, model);
             case QWEN_2 -> new Qwen2FP16LayerPlanner((Qwen2State) state, model);
@@ -60,7 +60,7 @@ private static TornadoVMGenericLayerPlanner createFP16Planner(State state, Model
     }
 
     // ============ Q8_0 Planners ============
-    private static TornadoVMGenericLayerPlanner createQ8_0Planner(State state, Model model) {
+    private static GenericLayerPlanner createQ8_0Planner(State state, Model model) {
         return switch (model.getModelType()) {
             case LLAMA_3, MISTRAL -> new LlamaQ8_0LayerPlanner((LlamaState) state, model);
             case QWEN_2 -> new Qwen2Q8_0LayerPlanner((Qwen2State) state, model);
@@ -72,7 +72,7 @@ private static TornadoVMGenericLayerPlanner createQ8_0Planner(State state, Model
     }
 
     // ============ FP32 Planners (FUTURE) ============
-    private static TornadoVMGenericLayerPlanner createFP32Planner(State state, Model model) {
+    private static GenericLayerPlanner createFP32Planner(State state, Model model) {
         throw new UnsupportedOperationException("FP32 planners not yet implemented");
     }
 }
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/base/QuantizedLayerPlanner.java b/src/main/java/org/beehive/gpullama3/tornadovm/layerplanner/base/QuantizedLayerPlanner.java
@@ -4,15 +4,15 @@
 import org.beehive.gpullama3.inference.weights.Weights;
 import org.beehive.gpullama3.model.Configuration;
 import org.beehive.gpullama3.model.Model;
-import org.beehive.gpullama3.tornadovm.TornadoVMGenericLayerPlanner;
+import org.beehive.gpullama3.tornadovm.GenericLayerPlanner;
 import uk.ac.manchester.tornado.api.KernelContext;
 
 /**
  * Abstract base for all quantization-specific planners.
  *
  * Contains shared logic that works regardless of model type but depends on quantization. Subclasses: FP16LayerPlanner, Q8_0LayerPlanner, etc.
  */
-public abstract class QuantizedLayerPlanner<S extends State, C extends Configuration, W extends Weights> implements TornadoVMGenericLayerPlanner {
+public abstract class QuantizedLayerPlanner<S extends State, C extends Configuration, W extends Weights> implements GenericLayerPlanner {
 
     // Common state for all quantizations
     protected static final int LOCAL_WORK_GROUP_SIZE_ALLOC = 32;
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/layers/Activation.java b/src/main/java/org/beehive/gpullama3/tornadovm/layers/Activation.java
@@ -4,6 +4,7 @@
 import org.beehive.gpullama3.inference.weights.Weights;
 import org.beehive.gpullama3.model.Configuration;
 import org.beehive.gpullama3.tornadovm.kernels.TransformerComputeKernels;
+import org.beehive.gpullama3.tornadovm.layerplanner.WorkerGridFactory;
 import uk.ac.manchester.tornado.api.GridScheduler;
 import uk.ac.manchester.tornado.api.ImmutableTaskGraph;
 import uk.ac.manchester.tornado.api.TaskGraph;
@@ -25,9 +26,7 @@ public Activation(String taskGraphHandle, State state, Weights weights, Configur
 
     @Override
     public GridScheduler updateGridScheduler(GridScheduler scheduler) {
-        WorkerGrid singleWorker = new WorkerGrid1D(1);
-        singleWorker.setGlobalWork(1, 1, 1);
-        singleWorker.setLocalWork(1, 1, 1);
+        WorkerGrid singleWorker = WorkerGridFactory.createSingleWorker();
         scheduler.addWorkerGrid("activationUpdate.updateX", singleWorker);
         return scheduler;
     }
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/q8_0/LogitsQ8_0Layer.java b/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/q8_0/LogitsQ8_0Layer.java
@@ -46,6 +46,9 @@ public GridScheduler updateGridScheduler(GridScheduler tornadoForwardScheduler)
              logitsRMS = WorkerGridFactory.createRmsNormWorker(config.dim(), 256);
         }
 
+        int vocabSizeRowMajor = config.vocabularySize() * LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS;
+        WorkerGrid vocabWorker = new WorkerGrid1D(vocabSizeRowMajor);
+        vocabWorker.setLocalWork(LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS, 1, 1);
 
         tornadoForwardScheduler.addWorkerGrid("logits.projection", vocabWorker);
         tornadoForwardScheduler.addWorkerGrid("logits.reductionsOneBlockLogits", logitsRMS);

Original file line number	Diff line number	Diff line change
`@@ -46,6 +46,9 @@ public GridScheduler updateGridScheduler(GridScheduler tornadoForwardScheduler)`
`46`	`46`	`logitsRMS = WorkerGridFactory.createRmsNormWorker(config.dim(), 256);`
`47`	`47`	`}`
`48`	`48`
	`49`	`+ int vocabSizeRowMajor = config.vocabularySize() * LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS;`
	`50`	`+ WorkerGrid vocabWorker = new WorkerGrid1D(vocabSizeRowMajor);`
	`51`	`+ vocabWorker.setLocalWork(LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS, 1, 1);`
`49`	`52`
`50`	`53`	`tornadoForwardScheduler.addWorkerGrid("logits.projection", vocabWorker);`
`51`	`54`	`tornadoForwardScheduler.addWorkerGrid("logits.reductionsOneBlockLogits", logitsRMS);`