docs: update model size and inference time tables for LLMs

barhanc · barhanc · commit b8d2aeffbb97 · 2026-04-20T16:31:39.000+02:00
diff --git a/docs/docs/02-benchmarks/inference-time.md b/docs/docs/02-benchmarks/inference-time.md
@@ -106,14 +106,44 @@ The values below represent the averages across all runs for the benchmark image.
 
 ## LLMs
 
-| Model                 | iPhone 16 Pro (XNNPACK) [tokens/s] | iPhone 13 Pro (XNNPACK) [tokens/s] | iPhone SE 3 (XNNPACK) [tokens/s] | Samsung Galaxy S24 (XNNPACK) [tokens/s] | OnePlus 12 (XNNPACK) [tokens/s] |
-| --------------------- | :--------------------------------: | :--------------------------------: | :------------------------------: | :-------------------------------------: | :-----------------------------: |
-| LLAMA3_2_1B           |                16.1                |                11.4                |                ❌                |                  15.6                   |              19.3               |
-| LLAMA3_2_1B_SPINQUANT |                40.6                |                16.7                |               16.5               |                  40.3                   |              48.2               |
-| LLAMA3_2_1B_QLORA     |                31.8                |                11.4                |               11.2               |                  37.3                   |              44.4               |
-| LLAMA3_2_3B           |                 ❌                 |                 ❌                 |                ❌                |                   ❌                    |               7.1               |
-| LLAMA3_2_3B_SPINQUANT |                17.2                |                8.2                 |                ❌                |                  16.2                   |              19.4               |
-| LLAMA3_2_3B_QLORA     |                14.5                |                 ❌                 |                ❌                |                  14.8                   |              18.1               |
+| Model                          | Google Pixel 10 (XNNPACK) [tokens/s] | iPhone 17 Pro (XNNPACK) [tokens/s] | OnePlus 12 (XNNPACK) [tokens/s] | iPhone SE 3 (XNNPACK) [tokens/s] |
+| ------------------------------ | :----------------------------------: | :--------------------------------: | :-----------------------------: | :------------------------------: |
+| LLAMA3_2_1B                    |                  8                   |                 8                  |               15                |               N/A                |
+| LLAMA3_2_1B_QLORA              |                  22                  |                 22                 |               45                |                19                |
+| LLAMA3_2_1B_SPINQUANT          |                  24                  |                 36                 |               48                |                17                |
+| LLAMA3_2_3B                    |                  2                   |                 3                  |                6                |               N/A                |
+| LLAMA3_2_3B_QLORA              |                  8                   |                 7                  |               17                |               N/A                |
+| LLAMA3_2_3B_SPINQUANT          |                  11                  |                 12                 |               18                |               N/A                |
+| QWEN3_0_6B                     |                  7                   |                 9                  |               15                |                9                 |
+| QWEN3_0_6B_QUANTIZED           |                  20                  |                 27                 |               37                |                35                |
+| QWEN3_1_7B                     |                  3                   |                 5                  |                8                |               N/A                |
+| QWEN3_1_7B_QUANTIZED           |                  10                  |                 14                 |               20                |                13                |
+| QWEN3_4B                       |                  2                   |                N/A                 |                4                |               N/A                |
+| QWEN3_4B_QUANTIZED             |                  5                   |                 7                  |               10                |               N/A                |
+| HAMMER2_1_0_5B                 |                  13                  |                 13                 |               25                |                16                |
+| HAMMER2_1_0_5B_QUANTIZED       |                  34                  |                 97                 |               72                |                56                |
+| HAMMER2_1_1_5B                 |                  5                   |                 5                  |               10                |               N/A                |
+| HAMMER2_1_1_5B_QUANTIZED       |                  14                  |                 16                 |               36                |                22                |
+| HAMMER2_1_3B                   |                  2                   |                 3                  |                5                |               N/A                |
+| HAMMER2_1_3B_QUANTIZED         |                  9                   |                 10                 |               20                |               N/A                |
+| SMOLLM2_1_135M                 |                  25                  |                 24                 |               33                |                42                |
+| SMOLLM2_1_135M_QUANTIZED       |                  20                  |                 32                 |               64                |                47                |
+| SMOLLM2_1_360M                 |                  12                  |                 13                 |               20                |                15                |
+| SMOLLM2_1_360M_QUANTIZED       |                  12                  |                 15                 |               29                |                18                |
+| SMOLLM2_1_1_7B                 |                  3                   |                 5                  |                7                |               N/A                |
+| SMOLLM2_1_1_7B_QUANTIZED       |                  12                  |                 14                 |               27                |                23                |
+| QWEN2_5_0_5B                   |                  12                  |                 12                 |               21                |                15                |
+| QWEN2_5_0_5B_QUANTIZED         |                  33                  |                 31                 |               55                |                48                |
+| QWEN2_5_1_5B                   |                  5                   |                 5                  |                9                |               N/A                |
+| QWEN2_5_1_5B_QUANTIZED         |                  15                  |                 15                 |               28                |                16                |
+| QWEN2_5_3B                     |                  2                   |                 3                  |                5                |               N/A                |
+| QWEN2_5_3B_QUANTIZED           |                  9                   |                 10                 |               18                |               N/A                |
+| PHI_4_MINI_4B                  |                  2                   |                 3                  |                4                |               N/A                |
+| PHI_4_MINI_4B_QUANTIZED        |                  4                   |                 7                  |               10                |               N/A                |
+| LFM2_5_350M                    |                  16                  |                 26                 |               34                |                21                |
+| LFM2_5_350M_QUANTIZED          |                  58                  |                 67                 |               103               |                51                |
+| LFM2_5_1_2B_INSTRUCT           |                  6                   |                 10                 |               13                |               N/A                |
+| LFM2_5_1_2B_INSTRUCT_QUANTIZED |                  8                   |                 26                 |               47                |                24                |
 
 ❌ - Insufficient RAM.
 
diff --git a/docs/docs/02-benchmarks/model-size.md b/docs/docs/02-benchmarks/model-size.md
@@ -60,14 +60,44 @@ title: Model Size
 
 ## LLMs
 
-| Model                 | XNNPACK [GB] |
-| --------------------- | :----------: |
-| LLAMA3_2_1B           |     2.47     |
-| LLAMA3_2_1B_SPINQUANT |     1.14     |
-| LLAMA3_2_1B_QLORA     |     1.18     |
-| LLAMA3_2_3B           |     6.43     |
-| LLAMA3_2_3B_SPINQUANT |     2.55     |
-| LLAMA3_2_3B_QLORA     |     2.65     |
+| Model                          | XNNPACK [GB] |
+| ------------------------------ | :----------: |
+| LLAMA3_2_1B                    |     2.47     |
+| LLAMA3_2_1B_SPINQUANT          |     1.14     |
+| LLAMA3_2_1B_QLORA              |     1.18     |
+| LLAMA3_2_3B                    |     6.43     |
+| LLAMA3_2_3B_SPINQUANT          |     2.55     |
+| LLAMA3_2_3B_QLORA              |     2.65     |
+| QWEN3_0.6B                     |     1.11     |
+| QWEN3_0.6B_QUANTIZED           |     0.47     |
+| QWEN3_1.7B                     |     3.21     |
+| QWEN3_1.7B_QUANTIZED           |     1.21     |
+| QWEN3_4B                       |     7.49     |
+| QWEN3_4B_QUANTIZED             |     2.50     |
+| QWEN2_5_0.5B                   |     0.92     |
+| QWEN2_5_0.5B_QUANTIZED         |     0.39     |
+| QWEN2_5_1.5B                   |     2.88     |
+| QWEN2_5_1.5B_QUANTIZED         |     1.06     |
+| QWEN2_5_3B                     |     5.75     |
+| QWEN2_5_3B_QUANTIZED           |     1.95     |
+| HAMMER2_1_0.5B                 |     0.92     |
+| HAMMER2_1_0.5B_QUANTIZED       |     0.39     |
+| HAMMER2_1_1.5B                 |     2.88     |
+| HAMMER2_1_1.5B_QUANTIZED       |     1.06     |
+| HAMMER2_1_3B                   |     5.75     |
+| HAMMER2_1_3B_QUANTIZED         |     1.91     |
+| PHI4_MINI                      |     7.15     |
+| PHI4_MINI_QUANTIZED            |     2.62     |
+| SMOLLM2_135M                   |     0.25     |
+| SMOLLM2_135M_QUANTIZED         |     0.52     |
+| SMOLLM2_360M                   |     0.67     |
+| SMOLLM2_360M_QUANTIZED         |     1.27     |
+| SMOLLM2_1.7B                   |     3.19     |
+| SMOLLM2_1.7B_QUANTIZED         |     0.95     |
+| LFM2_5_1.2B_INSTRUCT           |     2.43     |
+| LFM2_5_1.2B_INSTRUCT_QUANTIZED |     0.74     |
+| LFM2_5_350M_FP16               |     0.79     |
+| LFM2_5_350M_QUANTIZED          |     0.26     |
 
 ## Speech to text