apullin
diff --git a/‎backends/qualcomm/quantizer/annotators.py‎
Lines changed: 10 additions & 1 deletion b/‎backends/qualcomm/quantizer/annotators.py‎
Lines changed: 10 additions & 1 deletion
diff --git a/‎backends/qualcomm/quantizer/qconfig.py‎
Lines changed: 37 additions & 13 deletions b/‎backends/qualcomm/quantizer/qconfig.py‎
Lines changed: 37 additions & 13 deletions
diff --git a/‎backends/qualcomm/quantizer/quant_recipe.py‎
Lines changed: 13 additions & 0 deletions b/‎backends/qualcomm/quantizer/quant_recipe.py‎
Lines changed: 13 additions & 0 deletions
diff --git a/‎backends/qualcomm/quantizer/quantizer.py‎
Lines changed: 19 additions & 5 deletions b/‎backends/qualcomm/quantizer/quantizer.py‎
Lines changed: 19 additions & 5 deletions
diff --git a/‎backends/qualcomm/tests/models.py‎
Lines changed: 8 additions & 0 deletions b/‎backends/qualcomm/tests/models.py‎
Lines changed: 8 additions & 0 deletions
diff --git a/‎backends/qualcomm/tests/test_passes.py‎
Lines changed: 1 addition & 0 deletions b/‎backends/qualcomm/tests/test_passes.py‎
Lines changed: 1 addition & 0 deletions
@@ -780,7 +780,16 @@ def annotate_sign(node: Node, quantization_config: QuantizationConfig) -> None:
 
 @register_annotator([torch.ops.aten.slice.Tensor])
 def annotate_slice(node: Node, quantization_config: QuantizationConfig) -> None:
-    annotate_single_in_share_out(node, quantization_config)
+    annotate_in_out_obs_sharing_op(node, quantization_config)
+    if not _is_annotated([node]):
+        annotate_single_in_share_out(node, quantization_config)
+
+
+@register_annotator([torch.ops.aten.narrow.default])
+def annotate_narrow(node: Node, quantization_config: QuantizationConfig) -> None:
+    annotate_in_out_obs_sharing_op(node, quantization_config)
+    if not _is_annotated([node]):
+        annotate_single_in_share_out(node, quantization_config)
 
 
 @register_annotator([torch.ops.aten.slice_scatter.default])
 
@@ -151,7 +151,7 @@ def get_8a8w_qnn_ptq_config(
 
 
 def get_8a4w_qnn_ptq_config(
-    act_symmetric: bool = True,
+    act_symmetric: bool = False,
     act_observer=MovingAverageMinMaxObserver,
     eps: float = None,
 ) -> QuantizationConfig:
@@ -210,15 +210,19 @@ def get_8a4w_qnn_ptq_config(
 
 # 4 bits quantization only supports specific ops.
 def get_16a4w_qnn_ptq_config(
-    act_observer=MovingAverageMinMaxObserver, eps: float = None
+    act_symmetric: bool = False,
+    act_observer=MovingAverageMinMaxObserver,
+    eps: float = None,
 ) -> QuantizationConfig:
     # the smallest defaults to DEFAULT_EPS_16BIT
     extra_args: Dict[str, Any] = {"eps": eps if eps else DEFAULT_EPS_16BIT}
     act_quantization_spec = QuantizationSpec(
         dtype=torch.int32,
         quant_min=torch.iinfo(torch.uint16).min,
         quant_max=torch.iinfo(torch.uint16).max,
-        qscheme=torch.per_tensor_affine,
+        qscheme=(
+            torch.per_tensor_symmetric if act_symmetric else torch.per_tensor_affine
+        ),
         observer_or_fake_quant_ctr=act_observer.with_args(**extra_args),
     )
 
@@ -250,15 +254,19 @@ def get_16a4w_qnn_ptq_config(
 
 
 def get_16a8w_qnn_ptq_config(
-    act_observer=MovingAverageMinMaxObserver, eps: float = None
+    act_symmetric: bool = False,
+    act_observer=MovingAverageMinMaxObserver,
+    eps: float = None,
 ) -> QuantizationConfig:
     # the smallest defaults to DEFAULT_EPS_16BIT
     extra_args: Dict[str, Any] = {"eps": eps if eps else DEFAULT_EPS_16BIT}
     act_quantization_spec = QuantizationSpec(
         dtype=torch.int32,
         quant_min=torch.iinfo(torch.uint16).min,
         quant_max=torch.iinfo(torch.uint16).max,
-        qscheme=torch.per_tensor_affine,
+        qscheme=(
+            torch.per_tensor_symmetric if act_symmetric else torch.per_tensor_affine
+        ),
         observer_or_fake_quant_ctr=act_observer.with_args(**extra_args),
     )
 
@@ -288,15 +296,19 @@ def get_16a8w_qnn_ptq_config(
 
 
 def get_16a16w_qnn_ptq_config(
-    act_observer=MovingAverageMinMaxObserver, eps: float = None
+    act_symmetric: bool = False,
+    act_observer=MovingAverageMinMaxObserver,
+    eps: float = None,
 ) -> QuantizationConfig:
     # the smallest defaults to DEFAULT_EPS_16BIT
     extra_args: Dict[str, Any] = {"eps": eps if eps else DEFAULT_EPS_16BIT}
     act_quantization_spec = QuantizationSpec(
         dtype=torch.int32,
         quant_min=torch.iinfo(torch.uint16).min,
         quant_max=torch.iinfo(torch.uint16).max,
-        qscheme=torch.per_tensor_affine,
+        qscheme=(
+            torch.per_tensor_symmetric if act_symmetric else torch.per_tensor_affine
+        ),
         observer_or_fake_quant_ctr=act_observer.with_args(**extra_args),
     )
 
@@ -330,22 +342,28 @@ def get_16a16w_qnn_ptq_config(
 
 # TODO merge qat and ptq to a function, and use a bool flag to control it
 def get_16a8w_qnn_qat_config(
-    act_observer=MovingAverageMinMaxObserver, eps: float = None
+    act_symmetric: bool = False,
+    act_observer=MovingAverageMinMaxObserver,
+    eps: float = None,
 ) -> QuantizationConfig:
     # the smallest defaults to DEFAULT_EPS_16BIT
     extra_args: Dict[str, Any] = {"eps": eps if eps else DEFAULT_EPS_16BIT}
     act_fake_quant_ctr = FusedMovingAvgObsFakeQuantize.with_args(
         dtype=torch.int32,
         quant_min=torch.iinfo(torch.uint16).min,
         quant_max=torch.iinfo(torch.uint16).max,
-        qscheme=torch.per_tensor_affine,
+        qscheme=(
+            torch.per_tensor_symmetric if act_symmetric else torch.per_tensor_affine
+        ),
         observer=act_observer.with_args(**extra_args),
     )
     act_quantization_spec = QuantizationSpec(
         dtype=torch.int32,
         quant_min=torch.iinfo(torch.uint16).min,
         quant_max=torch.iinfo(torch.uint16).max,
-        qscheme=torch.per_tensor_affine,
+        qscheme=(
+            torch.per_tensor_symmetric if act_symmetric else torch.per_tensor_affine
+        ),
         observer_or_fake_quant_ctr=act_fake_quant_ctr,
     )
 
@@ -648,22 +666,28 @@ def get_8a8w_qnn_qat_config(
 
 
 def get_16a4w_qnn_qat_config(
-    act_observer=MovingAverageMinMaxObserver, eps: float = None
+    act_symmetric: bool = False,
+    act_observer=MovingAverageMinMaxObserver,
+    eps: float = None,
 ) -> QuantizationConfig:
     # the smallest defaults to DEFAULT_EPS_16BIT
     extra_args: Dict[str, Any] = {"eps": eps if eps else DEFAULT_EPS_16BIT}
     act_fake_quant_ctr = FusedMovingAvgObsFakeQuantize.with_args(
         dtype=torch.int32,
         quant_min=torch.iinfo(torch.uint16).min,
         quant_max=torch.iinfo(torch.uint16).max,
-        qscheme=torch.per_tensor_affine,
+        qscheme=(
+            torch.per_tensor_symmetric if act_symmetric else torch.per_tensor_affine
+        ),
         observer=act_observer.with_args(**extra_args),
     )
     act_quantization_spec = QuantizationSpec(
         dtype=torch.int32,
         quant_min=torch.iinfo(torch.uint16).min,
         quant_max=torch.iinfo(torch.uint16).max,
-        qscheme=torch.per_tensor_affine,
+        qscheme=(
+            torch.per_tensor_symmetric if act_symmetric else torch.per_tensor_affine
+        ),
         observer_or_fake_quant_ctr=act_fake_quant_ctr,
     )
 
 
@@ -73,6 +73,7 @@ def __init__(
         is_qat: bool,
         granularity: QuantGranularity,
         act_observer: UniformQuantizationObserverBase,
+        act_symmetric: bool,
         extra_kwargs: Dict,
         note: str,
         priority: int,
@@ -81,6 +82,7 @@ def __init__(
         self.is_qat = is_qat
         self.granularity = granularity
         self.act_observer = act_observer
+        self.act_symmetric = act_symmetric
         self.extra_kwargs = extra_kwargs
         self.note = note
         self.priority = priority
@@ -91,6 +93,7 @@ def __init__(
             is_conv_per_channel=True,
             is_linear_per_channel=True,
             act_observer=self.act_observer,
+            act_symmetric=self.act_symmetric,
         )
 
     @abstractmethod
@@ -143,6 +146,7 @@ def __init__(
         is_qat,
         granularity,
         act_observer,
+        act_symmetric,
         extra_kwargs,
         note,
         priority,
@@ -153,6 +157,7 @@ def __init__(
             is_qat,
             granularity,
             act_observer,
+            act_symmetric,
             extra_kwargs,
             note,
             priority,
@@ -179,6 +184,7 @@ def __init__(
         is_qat,
         granularity,
         act_observer,
+        act_symmetric,
         extra_kwargs,
         note,
         priority,
@@ -189,6 +195,7 @@ def __init__(
             is_qat,
             granularity,
             act_observer,
+            act_symmetric,
             extra_kwargs,
             note,
             priority,
@@ -228,6 +235,7 @@ def __init__(
         is_qat,
         act_observer: UniformQuantizationObserverBase,
         granularity: QuantGranularity,
+        act_symmetric: bool = False,
         note: str = "",
         extra_kwargs: Optional[dict] = None,
         verbose: bool = False,
@@ -257,6 +265,7 @@ def __init__(
             is_qat,
             granularity,
             act_observer,
+            act_symmetric,
             extra_kwargs or {},
             note,
             priority=1,
@@ -311,6 +320,7 @@ def add_node_target(
         is_qat,
         act_observer: UniformQuantizationObserverBase,
         granularity: QuantGranularity,
+        act_symmetric: bool = False,
         note: str = "",
         priority: int = 1,
         extra_kwargs: Optional[dict] = None,
@@ -321,6 +331,7 @@ def add_node_target(
                 is_qat,
                 granularity,
                 act_observer,
+                act_symmetric,
                 extra_kwargs or {},
                 note,
                 priority,
@@ -336,6 +347,7 @@ def add_regex(
         is_qat,
         act_observer: UniformQuantizationObserverBase,
         granularity: QuantGranularity,
+        act_symmetric: bool = False,
         note: str = "",
         priority: int = 1,
         extra_kwargs: Optional[dict] = None,
@@ -359,6 +371,7 @@ def add_regex(
                 is_qat,
                 granularity,
                 act_observer,
+                act_symmetric,
                 extra_kwargs or {},
                 note,
                 priority,
 
@@ -160,6 +160,7 @@ class ModuleQConfig:
     is_conv_per_channel: bool = False
     is_linear_per_channel: bool = False
     act_observer: Optional[UniformQuantizationObserverBase] = None
+    act_symmetric: bool = False
     eps: Optional[float] = None
 
     def __post_init__(self):
@@ -173,9 +174,13 @@ def __post_init__(self):
             per_block_quant_config_func,
         ) = QUANT_CONFIG_DICT[(self.quant_dtype, self.is_qat)]
         self.quant_config = (
-            quant_config_func(act_observer=self.act_observer, eps=self.eps)
+            quant_config_func(
+                act_symmetric=self.act_symmetric,
+                act_observer=self.act_observer,
+                eps=self.eps,
+            )
             if self.act_observer
-            else quant_config_func(eps=self.eps)
+            else quant_config_func(act_symmetric=self.act_symmetric, eps=self.eps)
         )
 
         # Assume per_channel_quant/per_block_quant only happen on axis_0 or axis_1, increase the range if there's a need
@@ -186,12 +191,15 @@ def __post_init__(self):
             self.per_channel_quant_config_list.append(
                 (
                     per_channel_quant_config_func(
+                        act_symmetric=self.act_symmetric,
                         act_observer=self.act_observer,
                         ch_axis=i,
                         eps=self.eps,
                     )
                     if self.act_observer
-                    else per_channel_quant_config_func(ch_axis=i, eps=self.eps)
+                    else per_channel_quant_config_func(
+                        act_symmetric=self.act_symmetric, ch_axis=i, eps=self.eps
+                    )
                 )
             )
 
@@ -229,10 +237,14 @@ def __post_init__(self):
                 self.per_block_quant_config_list.append(
                     (
                         per_block_quant_config_func(
-                            act_observer=self.act_observer, ch_axis=i
+                            act_symmetric=self.act_symmetric,
+                            act_observer=self.act_observer,
+                            ch_axis=i,
                         )
                         if self.act_observer
-                        else per_block_quant_config_func(ch_axis=i)
+                        else per_block_quant_config_func(
+                            act_symmetric=self.act_symmetric, ch_axis=i
+                        )
                     )
                 )
 
@@ -412,6 +424,7 @@ def set_default_quant_config(
         is_conv_per_channel=False,
         is_linear_per_channel=False,
         act_observer=None,
+        act_symmetric=False,
         eps=None,
     ) -> None:
         """
@@ -432,6 +445,7 @@ def set_default_quant_config(
             is_conv_per_channel=is_conv_per_channel,
             is_linear_per_channel=is_linear_per_channel,
             act_observer=act_observer,
+            act_symmetric=act_symmetric,
             eps=eps,
         )
 
 
@@ -1632,6 +1632,14 @@ def forward(self, x):
         return attn_output
 
 
+class Narrow(torch.nn.Module):
+    def __init__(self):
+        super().__init__()
+
+    def forward(self, x):
+        return (x.narrow(1, 4, 32),)
+
+
 class Neg(torch.nn.Module):
     def __init__(self):
         super().__init__()
 
@@ -70,6 +70,7 @@ def test_mha_to_sha(self):
         # Initailize model config
         args = ModelArgs()
         args.max_seq_len = 128
+        args.max_context_len = 128
         args.ar_len = 32
         args.use_kv_cache = True
         args.dim = 32