refactor: use SkipTransformer with pointer assignment for Reshape, avoiding unnecessary DMA and memcpy

lee2716 · lee2716 · commit fc8ea3f2dd86 · 2026-02-18T17:38:22.000+01:00
diff --git a/Deeploy/Targets/Snitch/Bindings.py b/Deeploy/Targets/Snitch/Bindings.py
@@ -7,7 +7,7 @@
 from Deeploy.AbstractDataTypes import PointerClass
 from Deeploy.CommonExtensions.CodeTransformationPasses.Closure import ClosureGeneration, MemoryAwareClosureGeneration
 from Deeploy.CommonExtensions.CodeTransformationPasses.MemoryAllocation import ArgumentStructGeneration, \
-    MemoryManagementGeneration
+    MemoryManagementGeneration, MemoryPassthroughGeneration
 from Deeploy.CommonExtensions.DataTypes import float32_t, int8_t, int32_t, uint8_t
 from Deeploy.DeeployTypes import CodeTransformation, NodeBinding
 from Deeploy.FutureExtension.CodeTransformationPasses.FutureCodeTransformation import FutureGeneration
@@ -43,6 +43,13 @@
      MemoryManagementGeneration(),
      FutureGeneration()])
 
+SkipTransformer = CodeTransformation(
+    [SnitchSynchCoresPass(),
+     ArgumentStructGeneration(),
+     MemoryPassthroughGeneration("L.*"),
+     MemoryPassthroughGeneration(),
+     FutureGeneration()])
+
 TiledTransformer = CodeTransformation([
     SnitchCoreFilterPass("compute"),
     TilingVariableReplacement("L1"),
@@ -184,10 +191,10 @@
                 TransposeTemplate.referenceTemplate, BasicTransformer)
 ]
 
-# Reshape Bindings (Tiled)
+# Reshape Bindings (pointer passthrough, no DMA needed)
 SnitchReshapeBindings = [
     NodeBinding(ReshapeChecker([PointerClass(float32_t)], [PointerClass(float32_t)]), ReshapeTemplate.referenceTemplate,
-                TiledTransformer)
+                SkipTransformer)
 ]
 
 # Gather Bindings (Tiled)
diff --git a/Deeploy/Targets/Snitch/Templates/ReshapeTemplate.py b/Deeploy/Targets/Snitch/Templates/ReshapeTemplate.py
@@ -4,8 +4,6 @@
 
 from typing import Dict, List, Tuple
 
-import numpy as np
-
 from Deeploy.DeeployTypes import NetworkContext, OperatorRepresentation, VariableBuffer
 from Deeploy.Targets.Generic.Templates.ReshapeTemplate import _ReshapeTemplate
 
@@ -17,28 +15,20 @@ def alignToContext(self, ctxt: NetworkContext,
 
         ctxt, operatorRepresentation, _ = super().alignToContext(ctxt, operatorRepresentation)
 
-        # Calculate size for multi-core parallel copy
         bufferIn = ctxt.lookup(operatorRepresentation['data_in'])
         assert isinstance(bufferIn, VariableBuffer)
-        operatorRepresentation['size'] = int(np.prod(bufferIn.shape))
+        bufferOut = ctxt.lookup(operatorRepresentation['data_out'])
+        assert isinstance(bufferOut, VariableBuffer)
+
+        # Set alias so input and output share the same memory
+        bufferOut._alias = bufferIn.name
 
         return ctxt, operatorRepresentation, []
 
 
-# Reshape uses multi-core parallel copy
-# When aliases work (internal nodes), this copies between same memory (no-op effect)
-# When aliases don't work (global I/O), this copies data correctly
+# Reshape only reinterprets tensor shape without modifying data.
+# Uses SkipTransformer (no DMA), consistent with PULPOpen.
 referenceTemplate = _SnitchReshapeTemplate("""
 // Reshape (Name: ${nodeName}, Op: ${nodeOp})
-{
-    uint32_t core_id = snrt_cluster_core_idx();
-    uint32_t num_cores = snrt_cluster_compute_core_num();
-    uint32_t total = ${size};
-    uint32_t chunk = total / num_cores;
-    uint32_t start = core_id * chunk;
-    uint32_t end = (core_id == num_cores - 1) ? total : start + chunk;
-    for (uint32_t i = start; i < end; i++) {
-        ${data_out}[i] = ${data_in}[i];
-    }
-}
+${data_out} = ${data_in};
 """)