Refactor loadTornadoTensorAsFP32 to perform the temporary manual conversion to FP32

orionpapadakis · orionpapadakis · commit 3d5c34064a27 · 2025-11-25T16:06:47.000+02:00
diff --git a/src/main/java/org/beehive/gpullama3/model/loader/ModelLoader.java b/src/main/java/org/beehive/gpullama3/model/loader/ModelLoader.java
@@ -147,21 +147,25 @@ public static TornadoTensor[] loadArrayOfTornadoTensors(int size, IntFunction<GG
     }
 
     /**
-     * Load a tensor and ensure it's FP32 (FloatArray).
-     * Used for embeddings and normalization weights that must always be FP32.
+     * Load a tensor and manually convert to FP32 (FloatArray).
+     * Used for embeddings that currently are treated as FP32.
+     * TODO: it is ultra-slow and will be removed
      */
     public static TornadoTensor loadTornadoTensorAsFP32(GGMLTensorEntry entry) {
-        // If already F32, load directly
-        if (entry.ggmlType() == GGMLType.F32) {
-            return new FP32TornadoTensor(
-                    FloatTensor.numberOfElements(entry.shape()),
-                    entry.memorySegment()
-            );
-        }
-
-        // Otherwise, dequantize to F32
-        FloatArray floatArray = loadTensorAsFloatArray(entry);
-        return new FP32TornadoTensor(floatArray);
+        TornadoTensor tensor = loadTornadoTensor(entry);
+        return switch (tensor.type()) {
+            case F32 -> tensor;
+            case F16 -> {
+                HalfFloatArray tensorHFA = tensor.asHalfFloatArray();
+                int numOfElements = tensorHFA.getSize();
+                FloatArray tensorFA = new FloatArray(numOfElements);
+                for(int i = 0; i < numOfElements; i++) {
+                    tensorFA.set(i, tensorHFA.get(i).getFloat32());
+                }
+                yield new FP32TornadoTensor(tensorFA);
+            }
+            default -> { throw new UnsupportedOperationException("Unsupported tensor type: " + tensor.type()); }
+        };
     }
 
     // Helper methods