[prf/dec] Fix predecessor graph naming and device data consumption for non-CUDA Graphs

orionpapadakis · orionpapadakis · commit d74a22846351 · 2026-05-04T13:17:16.000+03:00
diff --git a/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/fp16/LlamaFP16FFNLayers.java b/src/main/java/org/beehive/gpullama3/tornadovm/layers/type/fp16/LlamaFP16FFNLayers.java
@@ -280,7 +280,7 @@ protected TaskGraph createFFNLayerTaskGraph(int layerIndex) {
      * </ul>
      */
     protected String predecessorGraphName(int layerIndex) {
-        return null;
+        return (layerIndex == 0) ? "activationUpdate" : "layer_" + (layerIndex - 1);
     }
 
     protected TaskGraph configureLayerDataTransfers(TaskGraph unifiedLayer, int layerIndex) {
@@ -302,8 +302,11 @@ protected TaskGraph configureLayerDataTransfers(TaskGraph unifiedLayer, int laye
                     // Attention & FFN buffers
                     state.wrapAtt, state.wrapHb, state.wrapXbFP16);
         } else {
-            // Subsequent layers: Consume data already on device from previous layer
-            unifiedLayer.consumeFromDevice(
+            // Subsequent layers: consume from the previous layer graph by name.
+            // The no-arg consumeFromDevice form uses the current graph's own name as source key,
+            // which never matches the predecessor in interpreter mode (no CUDA graphs).
+            String pred = "layer_" + (layerIndex - 1);
+            unifiedLayer.consumeFromDevice(pred,
                     // Kernel context
                     context,
                     // Intermediate buffers