Add v3 local models (#4180)

sophies927 · web-flow · commit e5c12be5cdfd · 2025-05-13T20:02:15.000-07:00
* Update v3 local models

* Update v3 model paths
diff --git a/assets/models/system/DeepSeek-R1-Distill-Qwen-1.5B-cuda-gpu/model.yaml b/assets/models/system/DeepSeek-R1-Distill-Qwen-1.5B-cuda-gpu/model.yaml
@@ -1,6 +1,6 @@
 path:
   container_name: models
-  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-qwen-1.5b/onnx/cuda/cuda-int4-kquant-block-128-mixed/v2
+  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-qwen-1.5b/onnx/cuda/cuda-int4-kquant-block-128-mixed/v3
   storage_name: automlcesdkdataresources
   type: azureblob
 publish:
diff --git a/assets/models/system/DeepSeek-R1-Distill-Qwen-1.5B-cuda-gpu/spec.yaml b/assets/models/system/DeepSeek-R1-Distill-Qwen-1.5B-cuda-gpu/spec.yaml
@@ -1,6 +1,6 @@
 $schema: https://azuremlschemas.azureedge.net/latest/model.schema.json
 name: deepseek-r1-distill-qwen-1.5b-cuda-gpu
-version: 2
+version: 3
 path: ./
 tags:
   foundryLocal: ""
@@ -12,7 +12,7 @@ tags:
   task: chat-completion
   maxOutputTokens: 2048
   alias: deepseek-r1-1.5b
-  directoryPath: v2
+  directoryPath: v3
   promptTemplate: "{\"assistant\": \"{Content}\", \"prompt\": \"\\\\u003C\\\\uFF5CUser\\\\uFF5C\\\\u003E{Content}\\\\u003C\\\\uFF5CAssistant\\\\uFF5C\\\\u003E\"}"
   parameterSchema: "{\"enabled\": [{\"name\": \"temperature\", \"default\": 0.6}, {\"name\": \"top_p\", \"default\": 0.95}, {\"name\": \"top_k\", \"default\": 40}, {\"name\": \"presence_penalty\", \"default\": 1.3}]}"
 type: custom_model
diff --git a/assets/models/system/DeepSeek-R1-Distill-Qwen-1.5B-generic-cpu/model.yaml b/assets/models/system/DeepSeek-R1-Distill-Qwen-1.5B-generic-cpu/model.yaml
@@ -1,6 +1,6 @@
 path:
   container_name: models
-  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-qwen-1.5b/onnx/cpu_and_mobile/cpu-int4-kquant-block-128-mixed-acc-level-4/v2
+  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-qwen-1.5b/onnx/cpu_and_mobile/cpu-int4-kquant-block-128-mixed-acc-level-4/v3
   storage_name: automlcesdkdataresources
   type: azureblob
 publish:
diff --git a/assets/models/system/DeepSeek-R1-Distill-Qwen-1.5B-generic-cpu/spec.yaml b/assets/models/system/DeepSeek-R1-Distill-Qwen-1.5B-generic-cpu/spec.yaml
@@ -1,6 +1,6 @@
 $schema: https://azuremlschemas.azureedge.net/latest/model.schema.json
 name: deepseek-r1-distill-qwen-1.5b-generic-cpu
-version: 2
+version: 3
 path: ./
 tags:
   foundryLocal: ""
@@ -12,7 +12,7 @@ tags:
   task: chat-completion
   maxOutputTokens: 2048
   alias: deepseek-r1-1.5b
-  directoryPath: v2
+  directoryPath: v3
   promptTemplate: "{\"assistant\": \"{Content}\", \"prompt\": \"\\\\u003C\\\\uFF5CUser\\\\uFF5C\\\\u003E{Content}\\\\u003C\\\\uFF5CAssistant\\\\uFF5C\\\\u003E\"}"
   parameterSchema: "{\"enabled\": [{\"name\": \"temperature\", \"default\": 0.6}, {\"name\": \"top_p\", \"default\": 0.95}, {\"name\": \"top_k\", \"default\": 40}, {\"name\": \"presence_penalty\", \"default\": 1.1}]}"
 type: custom_model
diff --git a/assets/models/system/DeepSeek-R1-Distill-Qwen-1.5B-generic-gpu/model.yaml b/assets/models/system/DeepSeek-R1-Distill-Qwen-1.5B-generic-gpu/model.yaml
@@ -1,6 +1,6 @@
 path:
   container_name: models
-  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-qwen-1.5b/onnx/webgpu/webgpu-int4-kquant-block-32-mixed-acc-level-4/v1
+  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-qwen-1.5b/onnx/webgpu/webgpu-int4-kquant-block-32-mixed-acc-level-4/v3
   storage_name: automlcesdkdataresources
   type: azureblob
 publish:
diff --git a/assets/models/system/DeepSeek-R1-Distill-Qwen-1.5B-generic-gpu/spec.yaml b/assets/models/system/DeepSeek-R1-Distill-Qwen-1.5B-generic-gpu/spec.yaml
@@ -1,6 +1,6 @@
 $schema: https://azuremlschemas.azureedge.net/latest/model.schema.json
 name: deepseek-r1-distill-qwen-1.5b-generic-gpu
-version: 2
+version: 3
 path: ./
 tags:
   foundryLocal: ""
@@ -12,7 +12,7 @@ tags:
   task: chat-completion
   maxOutputTokens: 2048
   alias: deepseek-r1-1.5b
-  directoryPath: v1
+  directoryPath: v3
   promptTemplate: "{\"assistant\": \"{Content}\", \"prompt\": \"\\\\u003C\\\\uFF5CUser\\\\uFF5C\\\\u003E{Content}\\\\u003C\\\\uFF5CAssistant\\\\uFF5C\\\\u003E\"}"
   parameterSchema: "{\"enabled\": [{\"name\": \"temperature\", \"default\": 0.6}, {\"name\": \"top_p\", \"default\": 0.95}, {\"name\": \"top_k\", \"default\": 40}, {\"name\": \"presence_penalty\", \"default\": 1.3}]}"
 type: custom_model
diff --git a/assets/models/system/DeepSeek-R1-Distill-Qwen-7B-cuda-gpu/model.yaml b/assets/models/system/DeepSeek-R1-Distill-Qwen-7B-cuda-gpu/model.yaml
@@ -1,6 +1,6 @@
 path:
   container_name: models
-  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-qwen-7b/onnx/cuda/cuda-int4-kquant-block-128-mixed/v2
+  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-qwen-7b/onnx/cuda/cuda-int4-kquant-block-128-mixed/v3
   storage_name: automlcesdkdataresources
   type: azureblob
 publish:
diff --git a/assets/models/system/DeepSeek-R1-Distill-Qwen-7B-cuda-gpu/spec.yaml b/assets/models/system/DeepSeek-R1-Distill-Qwen-7B-cuda-gpu/spec.yaml
@@ -1,6 +1,6 @@
 $schema: https://azuremlschemas.azureedge.net/latest/model.schema.json
 name: deepseek-r1-distill-qwen-7b-cuda-gpu
-version: 2
+version: 3
 path: ./
 tags:
   foundryLocal: ""
@@ -12,7 +12,7 @@ tags:
   task: chat-completion
   maxOutputTokens: 2048
   alias: deepseek-r1-7b
-  directoryPath: v2
+  directoryPath: v3
   promptTemplate: "{\"assistant\": \"{Content}\", \"prompt\": \"\\\\u003C\\\\uFF5CUser\\\\uFF5C\\\\u003E{Content}\\\\u003C\\\\uFF5CAssistant\\\\uFF5C\\\\u003E\"}"
 type: custom_model
 variantInfo:
diff --git a/assets/models/system/DeepSeek-R1-Distill-Qwen-7B-generic-cpu/model.yaml b/assets/models/system/DeepSeek-R1-Distill-Qwen-7B-generic-cpu/model.yaml
@@ -1,6 +1,6 @@
 path:
   container_name: models
-  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-qwen-7b/onnx/cpu_and_mobile/cpu-int4-kquant-block-128-mixed-acc-level-4/v2
+  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-qwen-7b/onnx/cpu_and_mobile/cpu-int4-kquant-block-128-mixed-acc-level-4/v3
   storage_name: automlcesdkdataresources
   type: azureblob
 publish:
diff --git a/assets/models/system/DeepSeek-R1-Distill-Qwen-7B-generic-cpu/spec.yaml b/assets/models/system/DeepSeek-R1-Distill-Qwen-7B-generic-cpu/spec.yaml
@@ -1,6 +1,6 @@
 $schema: https://azuremlschemas.azureedge.net/latest/model.schema.json
 name: deepseek-r1-distill-qwen-7b-generic-cpu
-version: 2
+version: 3
 path: ./
 tags:
   foundryLocal: ""
@@ -12,7 +12,7 @@ tags:
   task: chat-completion
   maxOutputTokens: 2048
   alias: deepseek-r1-7b
-  directoryPath: v2
+  directoryPath: v3
   promptTemplate: "{\"assistant\": \"{Content}\", \"prompt\": \"\\\\u003C\\\\uFF5CUser\\\\uFF5C\\\\u003E{Content}\\\\u003C\\\\uFF5CAssistant\\\\uFF5C\\\\u003E\"}"
 type: custom_model
 variantInfo:
diff --git a/assets/models/system/DeepSeek-R1-Distill-Qwen-7B-generic-gpu/model.yaml b/assets/models/system/DeepSeek-R1-Distill-Qwen-7B-generic-gpu/model.yaml
@@ -1,6 +1,6 @@
 path:
   container_name: models
-  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-qwen-7b/onnx/webgpu/webgpu-int4-kquant-block-32-mixed-acc-level-4/v2
+  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-qwen-7b/onnx/webgpu/webgpu-int4-kquant-block-32-mixed-acc-level-4/v3
   storage_name: automlcesdkdataresources
   type: azureblob
 publish:
diff --git a/assets/models/system/DeepSeek-R1-Distill-Qwen-7B-generic-gpu/spec.yaml b/assets/models/system/DeepSeek-R1-Distill-Qwen-7B-generic-gpu/spec.yaml
@@ -1,6 +1,6 @@
 $schema: https://azuremlschemas.azureedge.net/latest/model.schema.json
 name: deepseek-r1-distill-qwen-7b-generic-gpu
-version: 2
+version: 3
 path: ./
 tags:
   foundryLocal: ""
@@ -12,7 +12,7 @@ tags:
   task: chat-completion
   maxOutputTokens: 2048
   alias: deepseek-r1-7b
-  directoryPath: v2
+  directoryPath: v3
   promptTemplate: "{\"assistant\": \"{Content}\", \"prompt\": \"\\\\u003C\\\\uFF5CUser\\\\uFF5C\\\\u003E{Content}\\\\u003C\\\\uFF5CAssistant\\\\uFF5C\\\\u003E\"}"
 type: custom_model
 variantInfo:
diff --git a/assets/models/system/deepseek-r1-distill-llama-8b-cuda-gpu/model.yaml b/assets/models/system/deepseek-r1-distill-llama-8b-cuda-gpu/model.yaml
@@ -1,6 +1,6 @@
 path:
   container_name: models
-  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-llama-8b/onnx/cuda/cuda-int4-kquant-block-128-mixed/v2
+  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-llama-8b/onnx/cuda/cuda-int4-kquant-block-128-mixed/v3
   storage_name: automlcesdkdataresources
   type: azureblob
 publish:
diff --git a/assets/models/system/deepseek-r1-distill-llama-8b-cuda-gpu/spec.yaml b/assets/models/system/deepseek-r1-distill-llama-8b-cuda-gpu/spec.yaml
@@ -1,6 +1,6 @@
 $schema: https://azuremlschemas.azureedge.net/latest/model.schema.json
 name: deepseek-r1-distill-llama-8b-cuda-gpu
-version: 2
+version: 3
 path: ./
 tags:
   foundryLocal: ""
@@ -12,7 +12,7 @@ tags:
   task: chat-completion
   maxOutputTokens: 2048
   alias: deepseek-r1-8b
-  directoryPath: v2
+  directoryPath: v3
   promptTemplate: "{\"assistant\": \"{Content}\", \"prompt\": \"\\\\u003C\\\\uFF5CUser\\\\uFF5C\\\\u003E{Content}\\\\u003C\\\\uFF5CAssistant\\\\uFF5C\\\\u003E\"}"
 type: custom_model
 variantInfo:
diff --git a/assets/models/system/deepseek-r1-distill-llama-8b-generic-cpu/model.yaml b/assets/models/system/deepseek-r1-distill-llama-8b-generic-cpu/model.yaml
@@ -1,6 +1,6 @@
 path:
   container_name: models
-  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-llama-8b/onnx/cpu_and_mobile/cpu-int4-kquant-block-128-mixed-acc-level-4/v2
+  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-llama-8b/onnx/cpu_and_mobile/cpu-int4-kquant-block-128-mixed-acc-level-4/v3
   storage_name: automlcesdkdataresources
   type: azureblob
 publish:
diff --git a/assets/models/system/deepseek-r1-distill-llama-8b-generic-cpu/spec.yaml b/assets/models/system/deepseek-r1-distill-llama-8b-generic-cpu/spec.yaml
@@ -1,6 +1,6 @@
 $schema: https://azuremlschemas.azureedge.net/latest/model.schema.json
 name: deepseek-r1-distill-llama-8b-generic-cpu
-version: 2
+version: 3
 path: ./
 tags:
   foundryLocal: ""
@@ -12,7 +12,7 @@ tags:
   task: chat-completion
   maxOutputTokens: 2048
   alias: deepseek-r1-8b
-  directoryPath: v2
+  directoryPath: v3
   promptTemplate: "{\"assistant\": \"{Content}\", \"prompt\": \"\\\\u003C\\\\uFF5CUser\\\\uFF5C\\\\u003E{Content}\\\\u003C\\\\uFF5CAssistant\\\\uFF5C\\\\u003E\"}"
 type: custom_model
 variantInfo:
diff --git a/assets/models/system/deepseek-r1-distill-llama-8b-generic-gpu/model.yaml b/assets/models/system/deepseek-r1-distill-llama-8b-generic-gpu/model.yaml
@@ -1,6 +1,6 @@
 path:
   container_name: models
-  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-llama-8b/onnx/webgpu/webgpu-int4-kquant-block-32-mixed-acc-level-4/v2
+  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-llama-8b/onnx/webgpu/webgpu-int4-kquant-block-32-mixed-acc-level-4/v3
   storage_name: automlcesdkdataresources
   type: azureblob
 publish:
diff --git a/assets/models/system/deepseek-r1-distill-llama-8b-generic-gpu/spec.yaml b/assets/models/system/deepseek-r1-distill-llama-8b-generic-gpu/spec.yaml
@@ -1,6 +1,6 @@
 $schema: https://azuremlschemas.azureedge.net/latest/model.schema.json
 name: deepseek-r1-distill-llama-8b-generic-gpu
-version: 2
+version: 3
 path: ./
 tags:
   foundryLocal: ""
@@ -12,7 +12,7 @@ tags:
   task: chat-completion
   maxOutputTokens: 2048
   alias: deepseek-r1-8b
-  directoryPath: v2
+  directoryPath: v3
   promptTemplate: "{\"assistant\": \"{Content}\", \"prompt\": \"\\\\u003C\\\\uFF5CUser\\\\uFF5C\\\\u003E{Content}\\\\u003C\\\\uFF5CAssistant\\\\uFF5C\\\\u003E\"}"
 type: custom_model
 variantInfo:
diff --git a/assets/models/system/deepseek-r1-distill-qwen-14b-cuda-gpu/model.yaml b/assets/models/system/deepseek-r1-distill-qwen-14b-cuda-gpu/model.yaml
@@ -1,6 +1,6 @@
 path:
   container_name: models
-  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-qwen-14b/onnx/cuda/cuda-int4-kquant-block-128-mixed/v2
+  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-qwen-14b/onnx/cuda/cuda-int4-kquant-block-128-mixed/v3
   storage_name: automlcesdkdataresources
   type: azureblob
 publish:
diff --git a/assets/models/system/deepseek-r1-distill-qwen-14b-cuda-gpu/spec.yaml b/assets/models/system/deepseek-r1-distill-qwen-14b-cuda-gpu/spec.yaml
@@ -1,6 +1,6 @@
 $schema: https://azuremlschemas.azureedge.net/latest/model.schema.json
 name: deepseek-r1-distill-qwen-14b-cuda-gpu
-version: 2
+version: 3
 path: ./
 tags:
   foundryLocal: ""
@@ -12,7 +12,7 @@ tags:
   task: chat-completion
   maxOutputTokens: 2048
   alias: deepseek-r1-14b
-  directoryPath: v2
+  directoryPath: v3
   promptTemplate: "{\"assistant\": \"{Content}\", \"prompt\": \"\\\\u003C\\\\uFF5CUser\\\\uFF5C\\\\u003E{Content}\\\\u003C\\\\uFF5CAssistant\\\\uFF5C\\\\u003E\"}"
 type: custom_model
 variantInfo:
diff --git a/assets/models/system/deepseek-r1-distill-qwen-14b-generic-cpu/model.yaml b/assets/models/system/deepseek-r1-distill-qwen-14b-generic-cpu/model.yaml
@@ -1,6 +1,6 @@
 path:
   container_name: models
-  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-qwen-14b/onnx/cpu_and_mobile/cpu-int4-kquant-block-128-mixed-acc-level-4/v2
+  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-qwen-14b/onnx/cpu_and_mobile/cpu-int4-kquant-block-128-mixed-acc-level-4/v3
   storage_name: automlcesdkdataresources
   type: azureblob
 publish:
diff --git a/assets/models/system/deepseek-r1-distill-qwen-14b-generic-cpu/spec.yaml b/assets/models/system/deepseek-r1-distill-qwen-14b-generic-cpu/spec.yaml
@@ -1,6 +1,6 @@
 $schema: https://azuremlschemas.azureedge.net/latest/model.schema.json
 name: deepseek-r1-distill-qwen-14b-generic-cpu
-version: 2
+version: 3
 path: ./
 tags:
   foundryLocal: ""
@@ -12,7 +12,7 @@ tags:
   task: chat-completion
   maxOutputTokens: 2048
   alias: deepseek-r1-14b
-  directoryPath: v2
+  directoryPath: v3
   promptTemplate: "{\"assistant\": \"{Content}\", \"prompt\": \"\\\\u003C\\\\uFF5CUser\\\\uFF5C\\\\u003E{Content}\\\\u003C\\\\uFF5CAssistant\\\\uFF5C\\\\u003E\"}"
 type: custom_model
 variantInfo:
diff --git a/assets/models/system/deepseek-r1-distill-qwen-14b-generic-gpu/model.yaml b/assets/models/system/deepseek-r1-distill-qwen-14b-generic-gpu/model.yaml
@@ -1,6 +1,6 @@
 path:
   container_name: models
-  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-qwen-14b/onnx/webgpu/webgpu-int4-kquant-block-32-mixed-acc-level-4/v2
+  container_path: foundrylocal/fl-perf-improvements/deepseek-r1-distill-qwen-14b/onnx/webgpu/webgpu-int4-kquant-block-32-mixed-acc-level-4/v3
   storage_name: automlcesdkdataresources
   type: azureblob
 publish:
diff --git a/assets/models/system/deepseek-r1-distill-qwen-14b-generic-gpu/spec.yaml b/assets/models/system/deepseek-r1-distill-qwen-14b-generic-gpu/spec.yaml
@@ -1,6 +1,6 @@
 $schema: https://azuremlschemas.azureedge.net/latest/model.schema.json
 name: deepseek-r1-distill-qwen-14b-generic-gpu
-version: 2
+version: 3
 path: ./
 tags:
   foundryLocal: ""
@@ -12,7 +12,7 @@ tags:
   task: chat-completion
   maxOutputTokens: 2048
   alias: deepseek-r1-14b
-  directoryPath: v2
+  directoryPath: v3
   promptTemplate: "{\"assistant\": \"{Content}\", \"prompt\": \"\\\\u003C\\\\uFF5CUser\\\\uFF5C\\\\u003E{Content}\\\\u003C\\\\uFF5CAssistant\\\\uFF5C\\\\u003E\"}"
 type: custom_model
 variantInfo:
diff --git a/assets/models/system/phi-4-mini-instruct-cuda-gpu/model.yaml b/assets/models/system/phi-4-mini-instruct-cuda-gpu/model.yaml
@@ -1,6 +1,6 @@
 path:
   container_name: models
-  container_path: foundrylocal/fl-perf-improvements/phi-4-mini-instruct/onnx/cuda/cuda-int4-kquant-block-128-mixed/v2
+  container_path: foundrylocal/fl-perf-improvements/phi-4-mini-instruct/onnx/cuda/cuda-int4-kquant-block-128-mixed/v3
   storage_name: automlcesdkdataresources
   type: azureblob
 publish:
diff --git a/assets/models/system/phi-4-mini-instruct-cuda-gpu/spec.yaml b/assets/models/system/phi-4-mini-instruct-cuda-gpu/spec.yaml
@@ -1,6 +1,6 @@
 $schema: https://azuremlschemas.azureedge.net/latest/model.schema.json
 name: Phi-4-mini-instruct-cuda-gpu
-version: 2
+version: 3
 path: ./
 tags:
   foundryLocal: ""
@@ -12,7 +12,7 @@ tags:
   task: chat-completion
   maxOutputTokens: 2048
   alias: phi-4-mini
-  directoryPath: v2
+  directoryPath: v3
   promptTemplate: "{\"system\": \"<|system|>{Content}<|end|>\", \"user\": \"<|user|>{Content}<|end|>\", \"assistant\": \"<|assistant|>{Content}<|end|>\", \"prompt\": \"<|user|>{Content}<|end|><|assistant|>\"}"
 type: custom_model
 variantInfo:
diff --git a/assets/models/system/phi-4-mini-instruct-generic-cpu/model.yaml b/assets/models/system/phi-4-mini-instruct-generic-cpu/model.yaml
@@ -1,6 +1,6 @@
 path:
   container_name: models
-  container_path: foundrylocal/fl-perf-improvements/phi-4-mini-instruct/onnx/cpu_and_mobile/cpu-int4-kquant-block-128-mixed-acc-level-4/v2
+  container_path: foundrylocal/fl-perf-improvements/phi-4-mini-instruct/onnx/cpu_and_mobile/cpu-int4-kquant-block-128-mixed-acc-level-4/v3
   storage_name: automlcesdkdataresources
   type: azureblob
 publish:
diff --git a/assets/models/system/phi-4-mini-instruct-generic-cpu/spec.yaml b/assets/models/system/phi-4-mini-instruct-generic-cpu/spec.yaml
@@ -1,6 +1,6 @@
 $schema: https://azuremlschemas.azureedge.net/latest/model.schema.json
 name: Phi-4-mini-instruct-generic-cpu
-version: 2
+version: 3
 path: ./
 tags:
   foundryLocal: ""
@@ -12,7 +12,7 @@ tags:
   task: chat-completion
   maxOutputTokens: 2048
   alias: phi-4-mini
-  directoryPath: v2
+  directoryPath: v3
   promptTemplate: "{\"system\": \"<|system|>{Content}<|end|>\", \"user\": \"<|user|>{Content}<|end|>\", \"assistant\": \"<|assistant|>{Content}<|end|>\", \"prompt\": \"<|user|>{Content}<|end|><|assistant|>\"}"
 type: custom_model
 variantInfo:
diff --git a/assets/models/system/phi-4-mini-instruct-generic-gpu/model.yaml b/assets/models/system/phi-4-mini-instruct-generic-gpu/model.yaml
@@ -1,6 +1,6 @@
 path:
   container_name: models
-  container_path: foundrylocal/fl-perf-improvements/phi-4-mini-instruct/onnx/webgpu/webgpu-int4-kquant-block-32-mixed-acc-level-4/v2
+  container_path: foundrylocal/fl-perf-improvements/phi-4-mini-instruct/onnx/webgpu/webgpu-int4-kquant-block-32-mixed-acc-level-4/v3
   storage_name: automlcesdkdataresources
   type: azureblob
 publish:
diff --git a/assets/models/system/phi-4-mini-instruct-generic-gpu/spec.yaml b/assets/models/system/phi-4-mini-instruct-generic-gpu/spec.yaml
@@ -1,6 +1,6 @@
 $schema: https://azuremlschemas.azureedge.net/latest/model.schema.json
 name: Phi-4-mini-instruct-generic-gpu
-version: 2
+version: 3
 path: ./
 tags:
   foundryLocal: ""
@@ -12,7 +12,7 @@ tags:
   task: chat-completion
   maxOutputTokens: 2048
   alias: phi-4-mini
-  directoryPath: v2
+  directoryPath: v3
   promptTemplate: "{\"system\": \"<|system|>{Content}<|end|>\", \"user\": \"<|user|>{Content}<|end|>\", \"assistant\": \"<|assistant|>{Content}<|end|>\", \"prompt\": \"<|user|>{Content}<|end|><|assistant|>\"}"
 type: custom_model
 variantInfo: