fix(wasm): update INT4 quantization to use matmul_nbits_quantizer API

jdalton · jdalton · commit 96df9457c55b · 2025-10-31T15:56:55.000-04:00
The onnxruntime API changed from matmul_4bits_quantizer to matmul_nbits_quantizer
with more generic n-bit quantization support.

API Changes:
- matmul_4bits_quantizer → matmul_nbits_quantizer module
- DefaultWeightOnlyQuantConfig → RTNWeightOnlyQuantConfig
- MatMul4BitsQuantizer → MatMulNBitsQuantizer

This fixes the ImportError: cannot import name 'matmul_4bits_quantizer' that
was preventing AI model INT4 quantization from working with onnxruntime &gt;=1.20.
diff --git a/.github/workflows/build-wasm.yml b/.github/workflows/build-wasm.yml
@@ -169,7 +169,7 @@ jobs:
           pip list | grep -E "(onnx|optimum|torch)"
           echo ""
           python3 -c "import onnxruntime; print(f'ONNX Runtime version: {onnxruntime.__version__}')"
-          python3 -c "from onnxruntime.quantization import matmul_4bits_quantizer; print('✓ INT4 quantization available')"
+          python3 -c "from onnxruntime.quantization.matmul_nbits_quantizer import MatMulNBitsQuantizer, RTNWeightOnlyQuantConfig; print('✓ INT4 quantization available')"
           echo "::endgroup::"
 
       - name: Install dependencies
diff --git a/packages/models/scripts/build.mjs b/packages/models/scripts/build.mjs
@@ -229,15 +229,16 @@ async function quantizeModel(modelKey) {
     try {
       await execAsync(
         `python3 -c "` +
-        `from onnxruntime.quantization import matmul_4bits_quantizer, quant_utils; ` +
+        `from onnxruntime.quantization.matmul_nbits_quantizer import MatMulNBitsQuantizer, RTNWeightOnlyQuantConfig; ` +
+        `from onnxruntime.quantization import quant_utils; ` +
         `from pathlib import Path; ` +
-        `quant_config = matmul_4bits_quantizer.DefaultWeightOnlyQuantConfig(` +
+        `quant_config = RTNWeightOnlyQuantConfig(` +
         `  block_size=128, ` +
         `  is_symmetric=True, ` +
         `  accuracy_level=4` +
         `); ` +
         `model = quant_utils.load_model_with_shape_infer(Path('${onnxPath}')); ` +
-        `quant = matmul_4bits_quantizer.MatMul4BitsQuantizer(model, algo_config=quant_config); ` +
+        `quant = MatMulNBitsQuantizer(model, algo_config=quant_config); ` +
         `quant.process(); ` +
         `quant.model.save_model_to_file('${quantPath}', True)` +
         `"`,