[FP16] Improved performance by fusing dequantize with compute in kernels: 20-30% Inference Speedup by mikepapadim · Pull Request #78 · beehive-lab/GPULlama3.java