Refactor RMSNorm worker creation in LogitsQ8_0Layer and LogitsFP16Layer:

mikepapadim · mikepapadim · commit 1e71fa6086dd · 2025-11-05T20:20:41.000+02:00
- Introduced `WorkerGridFactory` for standardizing RMSNorm worker creation.
- Adjusted RMSNorm worker configuration for FP16 and Q8_0 layers with support for conditional weight types.
- Removed redundant code and outdated comments for clarity.
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/fp16/LogitsFP16Layer.java b/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/fp16/LogitsFP16Layer.java
@@ -5,10 +5,12 @@
 import org.beehive.gpullama3.inference.weights.Weights;
 import org.beehive.gpullama3.inference.weights.tornado.FP16Weights.FP16Weights;
 import org.beehive.gpullama3.inference.weights.tornado.FP16Weights.LlamaTornadoWeights;
+import org.beehive.gpullama3.inference.weights.tornado.FP16Weights.Qwen2TornadoWeights;
 import org.beehive.gpullama3.model.Configuration;
 import org.beehive.gpullama3.model.Model;
 import org.beehive.gpullama3.tornadovm.kernels.TransformerComputeKernels;
 import org.beehive.gpullama3.tornadovm.kernels.TransformerComputeKernelsLayered;
+import org.beehive.gpullama3.tornadovm.layerplanner.WorkerGridFactory;
 import org.beehive.gpullama3.tornadovm.layers.AbstractLayer;
 import uk.ac.manchester.tornado.api.GridScheduler;
 import uk.ac.manchester.tornado.api.ImmutableTaskGraph;
@@ -36,31 +38,6 @@ public LogitsFP16Layer(String name, State state, Weights weights, Configuration
         this.logitsTaskGraph = setupLogitsTaskGraph(fp16Weights , config);
     }
 
-    private TaskGraph setupLogitNonNVidia(FP16Weights weights, Configuration config) {
-        TaskGraph logits = new TaskGraph("logits")
-                .consumeFromDevice(lastTaskGraphID,
-                        state.wrapX
-                )
-                .transferToDevice(DataTransferMode.EVERY_EXECUTION,
-                        state.tempLogits
-                )
-                .transferToDevice(DataTransferMode.FIRST_EXECUTION,
-                        context,
-                        state.wrapLogits,
-                        weights.wclsHalfFloat,
-                        weights.rms_final_weight_as_floatArray
-                )
-                .task("reductionsOneBlockLogits", TransformerComputeKernels::reductionOneBlockWithLayer, context, state.tempLogits,
-                        state.wrapX, config.dim(), config.rmsNormEps(), state.localSize)
-                .task("mapContextLogits", TransformerComputeKernels::reductionOneBlock2WithLogits, context, state.wrapX,
-                        weights.rms_final_weight_as_floatArray, state.tempLogits);
-        logits.task("projection", TransformerComputeKernelsLayered::matrixVectorGeneric,  //
-                context, state.wrapX, state.wrapLogits, weights.wclsHalfFloat, //
-                config.dim(), config.vocabularySize(), LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS); //
-        logits.transferToHost(DataTransferMode.EVERY_EXECUTION, state.wrapLogits);
-        return logits;
-    }
-
     /**
      * Builds the logits computation graph.
      */
@@ -99,57 +76,38 @@ private GridScheduler setupGridSchedulerForLogits(Configuration config) {
         rmsNormWorker.setGlobalWork(config.dim(), 1, 1);
         rmsNormWorker.setLocalWork(256, 1, 1);
 
+       WorkerGrid logitsRMS = WorkerGridFactory.createRmsNormWorker(config.dim(), 256);
+
         // Projection kernel (vocabulary size × hidden dim)
         int vocabSizeGlobal = config.vocabularySize() * LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS;
         WorkerGrid projectionWorker = new WorkerGrid1D(vocabSizeGlobal);
         projectionWorker.setLocalWork(LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS, 1, 1);
 
         scheduler.addWorkerGrid("logits.projection", projectionWorker);
-        scheduler.addWorkerGrid("logits.reductionsOneBlockLogits", rmsNormWorker);
-        scheduler.addWorkerGrid("logits.mapContextLogits", rmsNormWorker);
+        scheduler.addWorkerGrid("logits.reductionsOneBlockLogits", logitsRMS);
+        scheduler.addWorkerGrid("logits.mapContextLogits", logitsRMS);
 
         return scheduler;
     }
 
-//    @Override
-//    public GridScheduler updateGridScheduler(GridScheduler scheduler) {
-//        // RMSNorm operations
-//        WorkerGrid rmsNormWorker = new WorkerGrid1D(config.dim());
-//        rmsNormWorker.setGlobalWork(config.dim(), 1, 1);
-//        rmsNormWorker.setLocalWork(256, 1, 1);
-//
-//        // Projection kernel (vocabulary size × hidden dim)
-//        int vocabSizeGlobal = config.vocabularySize() * LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS;
-//        WorkerGrid projectionWorker = new WorkerGrid1D(vocabSizeGlobal);
-//        projectionWorker.setLocalWork(LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS, 1, 1);
-//
-//        scheduler.addWorkerGrid("logits.projection", projectionWorker);
-//        scheduler.addWorkerGrid("logits.reductionsOneBlockLogits", rmsNormWorker);
-//        scheduler.addWorkerGrid("logits.mapContextLogits", rmsNormWorker);
-//
-//        return scheduler;
-//    }
-
 
     @Override
     public GridScheduler updateGridScheduler(GridScheduler tornadoForwardScheduler) {
-            // RMSNorm operations
-        WorkerGrid rmsNormWorker = new WorkerGrid1D(config.dim());
-
-        rmsNormWorker.setGlobalWork(config.dim(), 1, 1);  // Set global work size to total dimension
 
-        //TODO: XXX
-        rmsNormWorker.setLocalWork(32, 1, 1);         // Set local work size to 256 (standard efficient size)
+        WorkerGrid logitsRMS = null;
+        if (weights instanceof Qwen2TornadoWeights ) {
+             logitsRMS = WorkerGridFactory.createRmsNormWorker(config.dim(), 32);
+        } else {
+             logitsRMS = WorkerGridFactory.createRmsNormWorker(config.dim(), 256);
+        }
 
-        // OpenCL equivalent: clEnqueueNDRangeKernel(globalWorkSize=[config.vocabularySize,1,1], localWorkSize=[16,1,1])
-        // CUDA equivalent: kernel<<<dim3((config.vocabularySize+15)/16,1,1), dim3(16,1,1)>>>
         int vocabSizeRowMajor = config.vocabularySize() * LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS;
         WorkerGrid vocabWorker = new WorkerGrid1D(vocabSizeRowMajor);
         vocabWorker.setLocalWork(LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS, 1, 1);
 
         tornadoForwardScheduler.addWorkerGrid("logits.projection", vocabWorker);
-        tornadoForwardScheduler.addWorkerGrid("logits.reductionsOneBlockLogits", rmsNormWorker);
-        tornadoForwardScheduler.addWorkerGrid("logits.mapContextLogits", rmsNormWorker);
+        tornadoForwardScheduler.addWorkerGrid("logits.reductionsOneBlockLogits", logitsRMS);
+        tornadoForwardScheduler.addWorkerGrid("logits.mapContextLogits", logitsRMS);
         return scheduler;
     }
 
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/q8_0/LogitsQ8_0Layer.java b/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/q8_0/LogitsQ8_0Layer.java
@@ -3,10 +3,13 @@
 import org.beehive.gpullama3.inference.state.State;
 import org.beehive.gpullama3.inference.weights.Weights;
 import org.beehive.gpullama3.inference.weights.tornado.FP16Weights.LlamaTornadoWeights;
+import org.beehive.gpullama3.inference.weights.tornado.FP16Weights.Qwen2TornadoWeights;
 import org.beehive.gpullama3.inference.weights.tornado.Q8_0Weights.Q8_0Weights;
+import org.beehive.gpullama3.inference.weights.tornado.Q8_0Weights.Qwen3Q8_0TornadoWeights;
 import org.beehive.gpullama3.model.Configuration;
 import org.beehive.gpullama3.tornadovm.kernels.TransformerComputeKernels;
 import org.beehive.gpullama3.tornadovm.kernels.TransformerComputeKernelsLayered;
+import org.beehive.gpullama3.tornadovm.layerplanner.WorkerGridFactory;
 import org.beehive.gpullama3.tornadovm.layers.AbstractLayer;
 import uk.ac.manchester.tornado.api.GridScheduler;
 import uk.ac.manchester.tornado.api.ImmutableTaskGraph;
@@ -35,17 +38,18 @@ public LogitsQ8_0Layer(String taskGraphName, State state, Weights weights, Confi
 
     @Override
     public GridScheduler updateGridScheduler(GridScheduler tornadoForwardScheduler) {
-        WorkerGrid rmsNormWorker = new WorkerGrid1D(config.dim());
-        rmsNormWorker.setGlobalWork(config.dim(), 1, 1);
-        rmsNormWorker.setLocalWork(32, 1, 1);
-        // RMSNorm operations
-        int vocabSizeRowMajor = config.vocabularySize() * LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS;
-        WorkerGrid vocabWorker = new WorkerGrid1D(vocabSizeRowMajor);
-        vocabWorker.setLocalWork(LOCAL_WORK_GROUP_SIZE_ALLOC * THREAD_SCALE_FOR_LOGITS, 1, 1);
+
+        WorkerGrid logitsRMS;
+        if (weights instanceof Qwen3Q8_0TornadoWeights) {
+             logitsRMS = WorkerGridFactory.createRmsNormWorker(config.dim(), 32);
+        } else {
+             logitsRMS = WorkerGridFactory.createRmsNormWorker(config.dim(), 256);
+        }
+
 
         tornadoForwardScheduler.addWorkerGrid("logits.projection", vocabWorker);
-        tornadoForwardScheduler.addWorkerGrid("logits.reductionsOneBlockLogits", rmsNormWorker);
-        tornadoForwardScheduler.addWorkerGrid("logits.mapContextLogits", rmsNormWorker);
+        tornadoForwardScheduler.addWorkerGrid("logits.reductionsOneBlockLogits", logitsRMS);
+        tornadoForwardScheduler.addWorkerGrid("logits.mapContextLogits", logitsRMS);
 
         return tornadoForwardScheduler;
     }