Improve llms loading smoke test

michalharakal · michalharakal · commit e2169ab41596 · 2026-03-04T22:20:26.000+01:00
diff --git a/skainet-apps/skainet-kgemma/src/jvmMain/kotlin/sk/ainet/apps/kgemma/cli/Main.kt b/skainet-apps/skainet-kgemma/src/jvmMain/kotlin/sk/ainet/apps/kgemma/cli/Main.kt
@@ -0,0 +1,152 @@
+package sk.ainet.apps.kgemma.cli
+
+import sk.ainet.apps.kgemma.Gemma3nIngestion
+import sk.ainet.apps.kgemma.Gemma3nLoadConfig
+import sk.ainet.apps.kllama.GGUFTokenizer
+import sk.ainet.apps.llm.Tokenizer
+import sk.ainet.context.DirectCpuExecutionContext
+import sk.ainet.io.JvmRandomAccessSource
+import sk.ainet.io.model.QuantPolicy
+import sk.ainet.lang.tensor.data.MemorySegmentTensorDataFactory
+import sk.ainet.lang.types.FP32
+import java.lang.foreign.Arena
+import java.nio.file.Path
+import kotlinx.coroutines.runBlocking
+import kotlin.io.path.exists
+import kotlin.io.path.extension
+import kotlin.io.path.isDirectory
+import kotlin.io.path.readText
+import kotlin.system.exitProcess
+import kotlin.time.measureTime
+
+private enum class ModelFormat { GGUF, SAFETENSORS }
+
+private data class CliArgs(
+    val modelPath: Path,
+    val prompt: String,
+    val steps: Int,
+    val temperature: Float
+)
+
+private fun usage(errorMessage: String? = null): Nothing {
+    if (errorMessage != null) {
+        System.err.println("Error: $errorMessage")
+        System.err.println()
+    }
+
+    println("Usage: kgemma <model> <prompt> [steps] [temperature]")
+    println("  model        Path to .gguf model or SafeTensors directory (required)")
+    println("  prompt       Prompt text (required)")
+    println("  steps        Generation steps (default: 32)")
+    println("  temperature  Sampling temperature (default: 0.8)")
+    println()
+    println("Example:")
+    println("  kgemma models/gemma-3-270m-it-Q8_0.gguf \"Hello, how are you?\" 32 0.8")
+    exitProcess(if (errorMessage == null) 0 else 1)
+}
+
+private fun parseArgs(args: Array<String>): CliArgs {
+    if (args.isEmpty()) usage("Missing arguments.")
+    if (args[0] == "-h" || args[0] == "--help") usage()
+
+    val modelPath = Path.of(args[0])
+    val prompt = args.getOrElse(1) { usage("Prompt is required.") }
+    val steps = args.getOrElse(2) { "32" }.toIntOrNull() ?: usage("Invalid steps value '${args[2]}'.")
+    val temperature = args.getOrElse(3) { "0.8" }.toFloatOrNull() ?: usage("Invalid temperature '${args[3]}'.")
+
+    return CliArgs(modelPath, prompt, steps, temperature)
+}
+
+private fun detectFormat(path: Path): ModelFormat {
+    if (path.isDirectory()) {
+        val st = path.resolve("model.safetensors")
+        val stIndex = path.resolve("model.safetensors.index.json")
+        if (st.exists() || stIndex.exists()) return ModelFormat.SAFETENSORS
+        error("Directory $path does not contain model.safetensors or model.safetensors.index.json")
+    }
+    return when (path.extension.lowercase()) {
+        "gguf" -> ModelFormat.GGUF
+        "safetensors" -> ModelFormat.SAFETENSORS
+        else -> error("Unsupported model format: ${path.extension}. Use .gguf or .safetensors")
+    }
+}
+
+fun main(args: Array<String>) {
+    runBlocking {
+        val cliArgs = parseArgs(args)
+        val modelPath = cliArgs.modelPath
+
+        if (!modelPath.exists()) error("Model not found: $modelPath")
+
+        val format = detectFormat(modelPath)
+
+        val memSegFactory = MemorySegmentTensorDataFactory()
+        val ctx = DirectCpuExecutionContext(tensorDataFactory = memSegFactory)
+
+        Runtime.getRuntime().addShutdownHook(Thread {
+            memSegFactory.close()
+        })
+
+        val ingestion = Gemma3nIngestion<FP32>(
+            ctx = ctx,
+            dtype = FP32::class,
+            config = Gemma3nLoadConfig(
+                quantPolicy = QuantPolicy.DEQUANTIZE_TO_FP32,
+                allowQuantized = true
+            )
+        )
+
+        val runtime = when (format) {
+            ModelFormat.GGUF -> {
+                println("Loading Gemma GGUF model from $modelPath (streaming mode)...")
+                ingestion.loadRuntimeStreaming {
+                    JvmRandomAccessSource.open(modelPath.toString())
+                }
+            }
+            ModelFormat.SAFETENSORS -> {
+                val modelDir = if (modelPath.isDirectory()) modelPath else modelPath.parent ?: modelPath
+                val indexPath = modelDir.resolve("model.safetensors.index.json")
+                val safetensorsPath = if (indexPath.exists()) {
+                    indexPath.toString()
+                } else {
+                    modelDir.resolve("model.safetensors").toString()
+                }
+                println("Loading Gemma SafeTensors model from $safetensorsPath...")
+                ingestion.loadRuntimeFromSafeTensors(safetensorsPath)
+            }
+        }
+
+        // Load tokenizer from GGUF or from tokenizer.json in model directory
+        val tokenizer: Tokenizer = when (format) {
+            ModelFormat.GGUF -> {
+                println("Loading embedded GGUF tokenizer...")
+                JvmRandomAccessSource.open(modelPath.toString()).use { source ->
+                    GGUFTokenizer.fromRandomAccessSource(source)
+                }
+            }
+            ModelFormat.SAFETENSORS -> {
+                val modelDir = if (modelPath.isDirectory()) modelPath else modelPath.parent ?: modelPath
+                val tokenizerFile = modelDir.resolve("tokenizer.json")
+                if (!tokenizerFile.exists()) error("tokenizer.json not found in $modelDir")
+                println("Loading tokenizer from $tokenizerFile...")
+                GGUFTokenizer.fromTokenizerJson(tokenizerFile.readText())
+            }
+        }
+
+        val promptTokens = tokenizer.encode(cliArgs.prompt)
+
+        println("Generating ${cliArgs.steps} tokens with temperature=${cliArgs.temperature}...")
+        println("---")
+        print(cliArgs.prompt)
+
+        val elapsed = measureTime {
+            runtime.generate(prompt = promptTokens, steps = cliArgs.steps, temperature = cliArgs.temperature) { id ->
+                print(tokenizer.decode(id))
+            }
+        }.inWholeMilliseconds
+
+        val tokPerSec = cliArgs.steps / elapsed.toDouble() * 1000
+        println("\n---")
+        println("tok/s: $tokPerSec")
+    }
+}
diff --git a/skainet-apps/skainet-kllama-cli/build.gradle.kts b/skainet-apps/skainet-kllama-cli/build.gradle.kts
@@ -1,6 +1,11 @@
 plugins {
     kotlin("jvm")
     alias(libs.plugins.shadow)
+    application
+}
+
+application {
+    mainClass.set("sk.ainet.apps.kllama.cli.MainKt")
 }
 
 dependencies {
diff --git a/skainet-models/skainet-model-gemma/src/commonMain/kotlin/sk/ainet/models/gemma/Gemma3nWeightLoader.kt b/skainet-models/skainet-model-gemma/src/commonMain/kotlin/sk/ainet/models/gemma/Gemma3nWeightLoader.kt
@@ -172,6 +172,22 @@ public class Gemma3nWeightLoader private constructor(
             }
         }
 
+        // Output weight: use dedicated tensor or fall back to weight tying (reuse token embeddings)
+        val outputRt = tensorByName[Gemma3nTensorNames.OUTPUT_WEIGHT]
+        if (outputRt != null) {
+            val tensor: Tensor<T, V> = readerTensorToTensor(ctx, dtype, reader, outputRt, metadata)
+            onTensorLoaded(Gemma3nTensorNames.OUTPUT_WEIGHT, tensor)
+            if (quantPolicy == QuantPolicy.RAW_BYTES && outputRt.tensorType != GGMLQuantizationType.F32) {
+                quantCallback?.invoke(Gemma3nTensorNames.OUTPUT_WEIGHT, outputRt.tensorType)
+            }
+        } else {
+            // Weight tying: reuse token_embd.weight as output.weight (common in Gemma models)
+            val embedRt = tensorByName[Gemma3nTensorNames.TOKEN_EMBEDDINGS]
+                ?: error("Missing both output.weight and token_embd.weight — cannot resolve LM head")
+            val tensor: Tensor<T, V> = readerTensorToTensor(ctx, dtype, reader, embedRt, metadata)
+            onTensorLoaded(Gemma3nTensorNames.OUTPUT_WEIGHT, tensor)
+        }
+
         // Optional tensors
         loadOptionalTensors(ctx, dtype, reader, tensorByName, onTensorLoaded, metadata)
 
@@ -209,6 +225,22 @@ public class Gemma3nWeightLoader private constructor(
                 }
             }
 
+            // Output weight: use dedicated tensor or fall back to weight tying (reuse token embeddings)
+            val outputSt = tensorByName[Gemma3nTensorNames.OUTPUT_WEIGHT]
+            if (outputSt != null) {
+                val tensor: Tensor<T, V> = streamingTensorToTensor(ctx, dtype, reader, outputSt, metadata)
+                onTensorLoaded(Gemma3nTensorNames.OUTPUT_WEIGHT, tensor)
+                if (quantPolicy == QuantPolicy.RAW_BYTES && outputSt.tensorType != GGMLQuantizationType.F32) {
+                    quantCallback?.invoke(Gemma3nTensorNames.OUTPUT_WEIGHT, outputSt.tensorType)
+                }
+            } else {
+                // Weight tying: reuse token_embd.weight as output.weight (common in Gemma models)
+                val embedSt = tensorByName[Gemma3nTensorNames.TOKEN_EMBEDDINGS]
+                    ?: error("Missing both output.weight and token_embd.weight — cannot resolve LM head")
+                val tensor: Tensor<T, V> = streamingTensorToTensor(ctx, dtype, reader, embedSt, metadata)
+                onTensorLoaded(Gemma3nTensorNames.OUTPUT_WEIGHT, tensor)
+            }
+
             // Optional tensors
             loadOptionalStreamingTensors(ctx, dtype, reader, tensorByName, onTensorLoaded, metadata)
 
@@ -421,7 +453,8 @@ public class Gemma3nWeightLoader private constructor(
         val names = mutableListOf<String>()
         names += Gemma3nTensorNames.TOKEN_EMBEDDINGS
         names += Gemma3nTensorNames.OUTPUT_NORM
-        names += Gemma3nTensorNames.OUTPUT_WEIGHT
+        // OUTPUT_WEIGHT is handled separately — many Gemma models use weight tying
+        // (no output.weight tensor; the token embedding is reused as the LM head).
 
         repeat(metadata.blockCount) { layer ->
             names += Gemma3nTensorNames.inputLayernorm(layer)
diff --git a/smoke-models.json b/smoke-models.json
@@ -8,14 +8,14 @@
     {
       "name": "Llama-3.2-1B-Q8",
       "runner": "kllama",
-      "model": "~/.lmstudio/models/llama-3.2-1b/llama-3.2-1b-q8_0.gguf",
+      "model": "TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF/tinyllama-1.1b-chat-v1.0.Q8_0.gguf",
       "format": "gguf"
     },
     {
       "name": "Gemma-2B-SafeTensors",
       "runner": "kgemma",
-      "model": "~/.cache/huggingface/models/gemma-2b",
-      "format": "safetensors",
+      "model": "unsloth/gemma-3-270m-it-GGUF/gemma-3-270m-it-Q8_0.gguf",
+      "format": "gguf",
       "steps": 16
     },
     {
diff --git a/smoke-test.sh b/smoke-test.sh
@@ -12,6 +12,11 @@
 #   ./smoke-test.sh /path/to/models          # scan custom directory (legacy)
 #   ./smoke-test.sh model1.gguf model2.gguf  # run specific files (legacy)
 #
+# Environment variables:
+#   MODELS_ROOT   Root directory for resolving relative model paths in the
+#                 JSON config. Absolute paths (/ or ~/) are unaffected.
+#                 In legacy mode, used as the default scan directory.
+#
 set -euo pipefail
 
 SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
@@ -32,7 +37,7 @@ separator() {
 # Maps runner name → Gradle task
 runner_task() {
   case "$1" in
-    kllama) echo ":skainet-apps:skainet-kllama:run" ;;
+    kllama) echo ":skainet-apps:skainet-kllama-cli:run" ;;
     kgemma) echo ":skainet-apps:skainet-kgemma:jvmRun" ;;
     kbert)  echo ":skainet-apps:skainet-kbert-cli:run" ;;
     *)      echo "UNKNOWN"; return 1 ;;
@@ -42,9 +47,9 @@ runner_task() {
 # Maps runner name → compile task
 runner_compile_task() {
   case "$1" in
-    kllama) echo ":skainet-apps:skainet-kllama:jvmMainClasses" ;;
+    kllama) echo ":skainet-apps:skainet-kllama-cli:classes" ;;
     kgemma) echo ":skainet-apps:skainet-kgemma:jvmMainClasses" ;;
-    kbert)  echo ":skainet-apps:skainet-kbert-cli:jvmMainClasses" ;;
+    kbert)  echo ":skainet-apps:skainet-kbert-cli:mainClasses" ;;
     *)      echo "UNKNOWN"; return 1 ;;
   esac
 }
@@ -54,7 +59,7 @@ runner_args() {
   local runner="$1" model="$2" prompt="$3" steps="$4" temp="$5" doc="${6:-}"
 
   case "$runner" in
-    kllama) echo "-m ${model} -s ${steps} -k ${temp} ${prompt}" ;;
+    kllama) echo "-m ${model} -s ${steps} -k ${temp} \"${prompt}\"" ;;
     kgemma) echo "${model} \"${prompt}\" ${steps} ${temp}" ;;
     kbert)
       if [[ -n "$doc" ]]; then
@@ -66,11 +71,15 @@ runner_args() {
   esac
 }
 
-# Expand ~ to $HOME in a path
+# Expand ~ to $HOME in a path; prepend MODELS_ROOT for relative paths
 expand_path() {
   local p="$1"
   if [[ "$p" == "~/"* ]]; then
     echo "${HOME}/${p#\~/}"
+  elif [[ "$p" == /* ]]; then
+    echo "$p"
+  elif [[ -n "${MODELS_ROOT:-}" ]]; then
+    echo "${MODELS_ROOT%/}/${p}"
   else
     echo "$p"
   fi
@@ -129,6 +138,7 @@ print(f'DEF_TEMP={d.get(\"temperature\", 0.0)}')
 
   echo -e "${BOLD}SKaiNET Smoke Test${RESET} (config: $(basename "$CONFIG_FILE"))"
   echo -e "Models: ${CYAN}${MODEL_COUNT}${RESET}"
+  [[ -n "${MODELS_ROOT:-}" ]] && echo -e "Models root:          ${MODELS_ROOT}"
   echo -e "Default prompt:       \"${DEF_PROMPT}\""
   echo -e "Default steps:        ${DEF_STEPS}"
   echo -e "Default temperature:  ${DEF_TEMP}"
@@ -253,8 +263,8 @@ fi
 PROMPT="${SMOKE_PROMPT:-The capital of France is}"
 STEPS="${SMOKE_STEPS:-32}"
 TEMP="${SMOKE_TEMP:-0.0}"
-MODEL_DIR="${LEGACY_ARGS[0]:-$HOME/.lmstudio/models}"
-TASK=":skainet-apps:skainet-kllama:run"
+MODEL_DIR="${LEGACY_ARGS[0]:-${MODELS_ROOT:-$HOME/.lmstudio/models}}"
+TASK=":skainet-apps:skainet-kllama-cli:run"
 
 models=()
 
@@ -296,7 +306,7 @@ separator
 
 # ── Ensure project compiles ────────────────────────────────────────────
 echo -e "${YELLOW}Compiling kllama (JVM)...${RESET}"
-if ! $GRADLE :skainet-apps:skainet-kllama:jvmMainClasses --quiet 2>&1; then
+if ! $GRADLE :skainet-apps:skainet-kllama-cli:classes --quiet 2>&1; then
   echo -e "${RED}Compilation failed.${RESET}"
   exit 1
 fi
@@ -320,7 +330,7 @@ for model in "${models[@]}"; do
   output_file=$(mktemp)
   exit_code=0
 
-  $GRADLE "$TASK" --quiet --args="-m ${model} -s ${STEPS} -k ${TEMP} ${PROMPT}" \
+  $GRADLE "$TASK" --quiet --args="-m ${model} -s ${STEPS} -k ${TEMP} \"${PROMPT}\"" \
     > "$output_file" 2>&1 || exit_code=$?
 
   end_ts=$(python3 -c 'import time; print(time.time())')

Original file line number	Diff line number	Diff line change
`@@ -8,14 +8,14 @@`
`8`	`8`	`{`
`9`	`9`	`"name": "Llama-3.2-1B-Q8",`
`10`	`10`	`"runner": "kllama",`
`11`		`- "model": "~/.lmstudio/models/llama-3.2-1b/llama-3.2-1b-q8_0.gguf",`
	`11`	`+ "model": "TheBloke/TinyLlama-1.1B-Chat-v1.0-GGUF/tinyllama-1.1b-chat-v1.0.Q8_0.gguf",`
`12`	`12`	`"format": "gguf"`
`13`	`13`	`},`
`14`	`14`	`{`
`15`	`15`	`"name": "Gemma-2B-SafeTensors",`
`16`	`16`	`"runner": "kgemma",`
`17`		`- "model": "~/.cache/huggingface/models/gemma-2b",`
`18`		`- "format": "safetensors",`
	`17`	`+ "model": "unsloth/gemma-3-270m-it-GGUF/gemma-3-270m-it-Q8_0.gguf",`
	`18`	`+ "format": "gguf",`
`19`	`19`	`"steps": 16`
`20`	`20`	`},`
`21`	`21`	`{`