Merge pull request #1 from leehack/chore/bump-web-llama-cpp-b8157

leehack · web-flow · commit 0d6bb885e211 · 2026-02-28T15:15:17.000-05:00
build: bump web bridge llama.cpp pin to b8157
diff --git a/.github/workflows/ci.yml b/.github/workflows/ci.yml
@@ -11,7 +11,7 @@ jobs:
     name: Build WebGPU Bridge (WASM)
     runs-on: ubuntu-latest
     env:
-      LLAMA_CPP_TAG: b8011
+      LLAMA_CPP_TAG: b8157
     steps:
       - uses: actions/checkout@v4
 
diff --git a/.github/workflows/publish_assets.yml b/.github/workflows/publish_assets.yml
@@ -13,15 +13,15 @@ on:
       llama_cpp_tag:
         description: llama.cpp tag to build from
         required: true
-        default: b8011
+        default: b8157
   push:
     tags:
       - 'v*'
 
 env:
   ASSETS_TAG: ${{ github.event_name == 'workflow_dispatch' && inputs.assets_tag || github.ref_name }}
   ASSETS_REPO: ${{ github.event_name == 'workflow_dispatch' && inputs.assets_repo || 'leehack/llama-web-bridge-assets' }}
-  LLAMA_CPP_TAG: ${{ github.event_name == 'workflow_dispatch' && inputs.llama_cpp_tag || 'b8011' }}
+  LLAMA_CPP_TAG: ${{ github.event_name == 'workflow_dispatch' && inputs.llama_cpp_tag || 'b8157' }}
 
 permissions:
   contents: read
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -72,11 +72,7 @@ string(REPLACE
 file(MAKE_DIRECTORY "${CMAKE_BINARY_DIR}/generated")
 file(WRITE "${MTMD_AUDIO_PATCHED}" "${MTMD_AUDIO_CONTENT}")
 
-add_library(llamadart_mtmd STATIC
-    "${LLAMA_CPP_DIR}/tools/mtmd/mtmd.cpp"
-    "${MTMD_AUDIO_PATCHED}"
-    "${LLAMA_CPP_DIR}/tools/mtmd/mtmd-helper.cpp"
-    "${LLAMA_CPP_DIR}/tools/mtmd/clip.cpp"
+set(LLAMADART_MTMD_MODEL_SOURCES
     "${LLAMA_CPP_DIR}/tools/mtmd/models/cogvlm.cpp"
     "${LLAMA_CPP_DIR}/tools/mtmd/models/conformer.cpp"
     "${LLAMA_CPP_DIR}/tools/mtmd/models/glm4v.cpp"
@@ -95,6 +91,25 @@ add_library(llamadart_mtmd STATIC
     "${LLAMA_CPP_DIR}/tools/mtmd/models/youtuvl.cpp"
 )
 
+set(LLAMADART_MTMD_OPTIONAL_MODEL_SOURCES
+    "${LLAMA_CPP_DIR}/tools/mtmd/models/nemotron-v2-vl.cpp"
+    "${LLAMA_CPP_DIR}/tools/mtmd/models/paddleocr.cpp"
+)
+
+foreach(model_source IN LISTS LLAMADART_MTMD_OPTIONAL_MODEL_SOURCES)
+    if (EXISTS "${model_source}")
+        list(APPEND LLAMADART_MTMD_MODEL_SOURCES "${model_source}")
+    endif()
+endforeach()
+
+add_library(llamadart_mtmd STATIC
+    "${LLAMA_CPP_DIR}/tools/mtmd/mtmd.cpp"
+    "${MTMD_AUDIO_PATCHED}"
+    "${LLAMA_CPP_DIR}/tools/mtmd/mtmd-helper.cpp"
+    "${LLAMA_CPP_DIR}/tools/mtmd/clip.cpp"
+    ${LLAMADART_MTMD_MODEL_SOURCES}
+)
+
 target_compile_features(llamadart_mtmd PRIVATE cxx_std_17)
 target_include_directories(llamadart_mtmd PRIVATE
     "${LLAMA_CPP_DIR}/tools/mtmd"
@@ -130,7 +145,7 @@ set(LLAMADART_WEBGPU_LINK_OPTIONS
     "-sEXPORT_NAME=createLlamaWebGpuCoreModule"
     "-sENVIRONMENT=web,worker"
     "-sEXPORTED_RUNTIME_METHODS=['FS','ccall','UTF8ToString']"
-    "-sEXPORTED_FUNCTIONS=['_main','_llamadart_webgpu_probe','_llamadart_webgpu_backends_json','_llamadart_webgpu_last_error','_llamadart_webgpu_set_log_level','_llamadart_webgpu_load_model','_llamadart_webgpu_load_model_from_url','_llamadart_webgpu_mmproj_load','_llamadart_webgpu_mmproj_free','_llamadart_webgpu_mmproj_supports_vision','_llamadart_webgpu_mmproj_supports_audio','_llamadart_webgpu_media_clear_pending','_llamadart_webgpu_media_add_file','_llamadart_webgpu_media_add_encoded','_llamadart_webgpu_media_add_rgb','_llamadart_webgpu_media_add_audio_f32','_llamadart_webgpu_tokenize_to_json','_llamadart_webgpu_last_tokens_json','_llamadart_webgpu_detokenize_from_json','_llamadart_webgpu_last_detokenized','_llamadart_webgpu_generate','_llamadart_webgpu_begin_generation','_llamadart_webgpu_next_token','_llamadart_webgpu_last_piece','_llamadart_webgpu_end_generation','_llamadart_webgpu_request_cancel','_llamadart_webgpu_last_output','_llamadart_webgpu_get_context_size','_llamadart_webgpu_model_meta_json','_llamadart_webgpu_shutdown']"
+    "-sEXPORTED_FUNCTIONS=['_main','_llamadart_webgpu_probe','_llamadart_webgpu_backends_json','_llamadart_webgpu_last_error','_llamadart_webgpu_set_log_level','_llamadart_webgpu_load_model','_llamadart_webgpu_load_model_from_url','_llamadart_webgpu_mmproj_load','_llamadart_webgpu_mmproj_free','_llamadart_webgpu_mmproj_supports_vision','_llamadart_webgpu_mmproj_supports_audio','_llamadart_webgpu_media_clear_pending','_llamadart_webgpu_media_add_file','_llamadart_webgpu_media_add_encoded','_llamadart_webgpu_media_add_rgb','_llamadart_webgpu_media_add_audio_f32','_llamadart_webgpu_tokenize_to_json','_llamadart_webgpu_last_tokens_json','_llamadart_webgpu_detokenize_from_json','_llamadart_webgpu_last_detokenized','_llamadart_webgpu_embed_to_json','_llamadart_webgpu_last_embedding_json','_llamadart_webgpu_generate','_llamadart_webgpu_begin_generation','_llamadart_webgpu_next_token','_llamadart_webgpu_last_piece','_llamadart_webgpu_end_generation','_llamadart_webgpu_request_cancel','_llamadart_webgpu_last_output','_llamadart_webgpu_get_context_size','_llamadart_webgpu_model_meta_json','_llamadart_webgpu_shutdown']"
     "-lwasmfs_fetch.js"
 )
 
diff --git a/README.md b/README.md
@@ -55,7 +55,7 @@ This repo includes a wasm build gate in:
 
 - `.github/workflows/ci.yml`
 
-It builds against pinned `llama.cpp` tag `b8011` and uploads build artifacts.
+It builds against pinned `llama.cpp` tag `b8157` and uploads build artifacts.
 
 ## Publishing
 
@@ -91,7 +91,7 @@ Manual override example:
 2. Inputs:
    - `assets_tag`: `v0.1.5`
    - `assets_repo`: `leehack/llama-web-bridge-assets`
-   - `llama_cpp_tag`: `b8011`
+   - `llama_cpp_tag`: `b8157`
 
 After publish, assets are CDN-available at:
 
diff --git a/js/llama_webgpu_bridge.js b/js/llama_webgpu_bridge.js
@@ -2700,6 +2700,52 @@ class LlamaWebGpuBridgeRuntime {
     return this._core.ccall('llamadart_webgpu_last_detokenized', 'string', [], []) || '';
   }
 
+  async embed(text, options = {}) {
+    if (this._modelBytes <= 0) {
+      throw new Error('No model loaded. Call loadModelFromUrl first.');
+    }
+
+    const normalize = options?.normalize !== false;
+    const rc = Number(
+      await this._core.ccall(
+        'llamadart_webgpu_embed_to_json',
+        'number',
+        ['string', 'number'],
+        [String(text), normalize ? 1 : 0],
+        { async: true },
+      ),
+    );
+
+    if (rc < 0) {
+      throw new Error(this._coreErrorMessage('Embedding generation failed', rc));
+    }
+
+    const raw = this._core.ccall('llamadart_webgpu_last_embedding_json', 'string', [], []) || '[]';
+    const parsed = JSON.parse(raw);
+    return Array.isArray(parsed)
+      ? parsed.map((v) => {
+        const numeric = Number(v);
+        return Number.isFinite(numeric) ? numeric : 0;
+      })
+      : [];
+  }
+
+  async embedBatch(texts, options = {}) {
+    const normalized = Array.isArray(texts)
+      ? texts
+      : Array.from(texts || []);
+    if (normalized.length === 0) {
+      return [];
+    }
+
+    const normalize = options?.normalize !== false;
+    const vectors = [];
+    for (const text of normalized) {
+      vectors.push(await this.embed(String(text), { normalize }));
+    }
+    return vectors;
+  }
+
   getModelMetadata() {
     let modelMetadata = {};
 
@@ -3202,6 +3248,35 @@ export class LlamaWebGpuBridge {
     }
   }
 
+  async embed(text, options = {}) {
+    if (!this._workerProxy) {
+      return this._runtime.embed(text, options);
+    }
+
+    try {
+      return await this._callWorker('embed', [text, options]);
+    } catch (error) {
+      this._disableWorkerFallback(error);
+      return this._runtime.embed(text, options);
+    }
+  }
+
+  async embedBatch(texts, options = {}) {
+    const normalized = Array.isArray(texts)
+      ? texts
+      : Array.from(texts || []);
+    if (!this._workerProxy) {
+      return this._runtime.embedBatch(normalized, options);
+    }
+
+    try {
+      return await this._callWorker('embedBatch', [normalized, options]);
+    } catch (error) {
+      this._disableWorkerFallback(error);
+      return this._runtime.embedBatch(normalized, options);
+    }
+  }
+
   getModelMetadata() {
     if (this._workerProxy) {
       return {
diff --git a/src/llama_webgpu_core.cpp b/src/llama_webgpu_core.cpp
@@ -2,6 +2,7 @@
 #include <atomic>
 #include <cerrno>
 #include <cctype>
+#include <cmath>
 #include <cstdlib>
 #include <cstdint>
 #include <cstring>
@@ -46,6 +47,7 @@ std::string g_last_output;
 std::string g_last_piece;
 std::string g_last_tokens_json = "[]";
 std::string g_last_detokenized;
+std::string g_last_embedding_json = "[]";
 std::string g_backend_json = "[]";
 std::string g_model_meta_json = "{}";
 std::vector<llama_token> g_cached_prompt_tokens;
@@ -185,6 +187,7 @@ void free_runtime() {
   g_last_piece.clear();
   g_last_tokens_json = "[]";
   g_last_detokenized.clear();
+  g_last_embedding_json = "[]";
   g_model_meta_json = "{}";
   g_cached_prompt_tokens.clear();
 }
@@ -447,6 +450,35 @@ std::string serialize_tokens_json(const std::vector<llama_token> & tokens) {
   return json;
 }
 
+std::string serialize_embedding_json(const std::vector<float> & embedding) {
+  std::string json = "[";
+  for (size_t i = 0; i < embedding.size(); ++i) {
+    if (i > 0) {
+      json += ",";
+    }
+    json += std::to_string(static_cast<double>(embedding[i]));
+  }
+  json += "]";
+  return json;
+}
+
+void normalize_embedding_inplace(std::vector<float> & embedding) {
+  double norm_squared = 0.0;
+  for (const float value : embedding) {
+    const double dv = static_cast<double>(value);
+    norm_squared += dv * dv;
+  }
+
+  if (norm_squared <= 0.0) {
+    return;
+  }
+
+  const double scale = 1.0 / std::sqrt(norm_squared);
+  for (float & value : embedding) {
+    value = static_cast<float>(static_cast<double>(value) * scale);
+  }
+}
+
 void parse_token_list(const char * token_text, std::vector<llama_token> & out_tokens) {
   out_tokens.clear();
   if (token_text == nullptr) {
@@ -1267,6 +1299,142 @@ EMSCRIPTEN_KEEPALIVE const char * llamadart_webgpu_last_detokenized() {
   return g_last_detokenized.c_str();
 }
 
+EMSCRIPTEN_KEEPALIVE int32_t llamadart_webgpu_embed_to_json(
+    const char * text,
+    int32_t normalize) {
+  clear_error();
+  g_last_embedding_json = "[]";
+
+  if (!ensure_loaded()) {
+    return -1;
+  }
+
+  if (text == nullptr) {
+    set_error("Text is null");
+    return -2;
+  }
+
+  const bool has_encoder = llama_model_has_encoder(g_state.model);
+  const bool has_decoder = llama_model_has_decoder(g_state.model);
+  if (has_encoder && has_decoder) {
+    set_error("Embedding extraction for encoder-decoder models is not supported");
+    return -3;
+  }
+  const bool use_encoder_path = has_encoder && !has_decoder;
+
+  std::vector<llama_token> tokens;
+  if (!tokenize_text(std::string(text), true, tokens)) {
+    return -4;
+  }
+
+  if (tokens.empty()) {
+    set_error("Embedding input tokenized to an empty sequence");
+    return -5;
+  }
+
+  int32_t embedding_size = llama_model_n_embd_out(g_state.model);
+  if (embedding_size <= 0) {
+    embedding_size = llama_model_n_embd(g_state.model);
+  }
+  if (embedding_size <= 0) {
+    set_error("Failed to resolve embedding dimension");
+    return -6;
+  }
+
+  int32_t max_batch = static_cast<int32_t>(llama_n_batch(g_state.ctx));
+  if (max_batch <= 0) {
+    max_batch = static_cast<int32_t>(tokens.size());
+  }
+  max_batch = std::max<int32_t>(1, std::min<int32_t>(max_batch, static_cast<int32_t>(tokens.size())));
+
+  llama_batch batch = llama_batch_init(max_batch, 0, 1);
+  if (batch.token == nullptr || batch.pos == nullptr ||
+      batch.n_seq_id == nullptr || batch.seq_id == nullptr ||
+      batch.logits == nullptr) {
+    llama_batch_free(batch);
+    set_error("Failed to allocate embedding batch buffers");
+    return -7;
+  }
+
+  int32_t rc = embedding_size;
+
+  llama_synchronize(g_state.ctx);
+  auto * memory = llama_get_memory(g_state.ctx);
+  if (memory != nullptr) {
+    llama_memory_clear(memory, false);
+  }
+  g_cached_prompt_tokens.clear();
+  llama_set_embeddings(g_state.ctx, true);
+
+  int32_t decoded_tokens = 0;
+  while (decoded_tokens < static_cast<int32_t>(tokens.size())) {
+    const int32_t remaining = static_cast<int32_t>(tokens.size()) - decoded_tokens;
+    const int32_t chunk_token_count = std::min(max_batch, remaining);
+    batch.n_tokens = chunk_token_count;
+
+    for (int32_t i = 0; i < chunk_token_count; ++i) {
+      const int32_t token_index = decoded_tokens + i;
+      batch.token[i] = tokens[static_cast<size_t>(token_index)];
+      batch.pos[i] = token_index;
+      batch.n_seq_id[i] = 1;
+      batch.seq_id[i][0] = 0;
+      batch.logits[i] = 1;
+    }
+
+    const int status = use_encoder_path
+        ? llama_encode(g_state.ctx, batch)
+        : llama_decode(g_state.ctx, batch);
+    if (status != 0) {
+      set_error("Embedding forward pass failed");
+      rc = -8;
+      break;
+    }
+
+    decoded_tokens += chunk_token_count;
+  }
+
+  if (rc > 0) {
+    const enum llama_pooling_type pooling_type = llama_pooling_type(g_state.ctx);
+    float * embedding_ptr = nullptr;
+    if (pooling_type == LLAMA_POOLING_TYPE_NONE) {
+      embedding_ptr = llama_get_embeddings_ith(g_state.ctx, batch.n_tokens - 1);
+      if (embedding_ptr == nullptr) {
+        embedding_ptr = llama_get_embeddings(g_state.ctx);
+      }
+    } else {
+      embedding_ptr = llama_get_embeddings_seq(g_state.ctx, 0);
+      if (embedding_ptr == nullptr) {
+        embedding_ptr = llama_get_embeddings(g_state.ctx);
+      }
+    }
+
+    if (embedding_ptr == nullptr) {
+      set_error("Embedding output is unavailable");
+      rc = -9;
+    } else {
+      std::vector<float> embedding(
+          embedding_ptr,
+          embedding_ptr + static_cast<size_t>(embedding_size));
+      if (normalize != 0) {
+        normalize_embedding_inplace(embedding);
+      }
+
+      g_last_embedding_json = serialize_embedding_json(embedding);
+    }
+  }
+
+  {
+    llama_set_embeddings(g_state.ctx, false);
+    llama_batch_free(batch);
+  }
+
+  return rc;
+}
+
+EMSCRIPTEN_KEEPALIVE const char * llamadart_webgpu_last_embedding_json() {
+  return g_last_embedding_json.c_str();
+}
+
 EMSCRIPTEN_KEEPALIVE int32_t llamadart_webgpu_generate(
     const char * prompt,
     int32_t n_predict,