runwangdl
diff --git a/‎.gitignore‎
Lines changed: 10 additions & 1 deletion b/‎.gitignore‎
Lines changed: 10 additions & 1 deletion
diff --git a/‎Deeploy/Targets/Generic/TileConstraints/TransposeTileConstraint.py‎
Lines changed: 18 additions & 4 deletions b/‎Deeploy/Targets/Generic/TileConstraints/TransposeTileConstraint.py‎
Lines changed: 18 additions & 4 deletions
diff --git a/‎Deeploy/Targets/PULPOpen/Bindings.py‎
Lines changed: 2 additions & 2 deletions b/‎Deeploy/Targets/PULPOpen/Bindings.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎Deeploy/Targets/PULPOpen/Templates/FloatConvGradTemplate.py‎
Lines changed: 3 additions & 3 deletions b/‎Deeploy/Targets/PULPOpen/Templates/FloatConvGradTemplate.py‎
Lines changed: 3 additions & 3 deletions
@@ -41,7 +41,16 @@ docs/_build
 DeeployTest/TestFiles/
 DeeployTest/Tests/**/*.txt
 DeeployTest/**/BUILD/*
-DeeployTest/TEST_*/*
+DeeployTest/TEST_*/
+DeeployTest/CMakeCache.txt
+DeeployTest/CMakeFiles/
+DeeployTest/Makefile
+DeeployTest/cmake_install.cmake
+DeeployTest/lib/
+DeeployTest/bin/
+DeeployTest/TargetLibraries/
+DeeployTest/DeeployTest/
+DeeployTest/build_*/
 DeeployTest/deeployStates*/*
 DeeployTest/DeeployState*
 DeeployTest/testUtils/graphDebug.py
 
@@ -28,11 +28,25 @@ def addGeometricalConstraint(tilerModel: TilerModel, parseDict: Dict, ctxt: Netw
         for bufferName in [inputBufferName, outputBufferName]:
             tilerModel.addTensorDimToModel(ctxt, bufferName)
 
-        # Map output dims to inputs dims
-        for idx, perm_idx in enumerate(parseDict["perm"]):
+        inputShape = ctxt.lookup(inputBufferName).shape
+        outputShape = ctxt.lookup(outputBufferName).shape
+        perm = parseDict["perm"]
+
+        # When output has extra leading batch dims compared to input
+        # (e.g. weight Transpose [K,N] -> [1,N,K] injected by MatMulLayer),
+        # the perm only covers the spatial (last len(perm)) dims of the output.
+        # Pin the extra leading output dims to their full size (they are batch=1)
+        # and apply the perm constraints with shifted output indices.
+        numExtra = len(outputShape) - len(perm)
+
+        for i in range(numExtra):
             tilerModel.addConstraint(
-                tilerModel.getTensorDimVar(tensorName = outputBufferName, dimIdx = idx) == tilerModel.getTensorDimVar(
-                    tensorName = inputBufferName, dimIdx = perm_idx))
+                tilerModel.getTensorDimVar(tensorName = outputBufferName, dimIdx = i) == outputShape[i])
+
+        for idx, perm_idx in enumerate(perm):
+            tilerModel.addConstraint(
+                tilerModel.getTensorDimVar(tensorName = outputBufferName, dimIdx = numExtra + idx) ==
+                tilerModel.getTensorDimVar(tensorName = inputBufferName, dimIdx = perm_idx))
 
         return tilerModel
 
 
@@ -252,7 +252,7 @@
 
 PULPFloatConvGradX2DBindings = [
     NodeBinding(ConvChecker([PointerClass(float32_t), PointerClass(float32_t)], [PointerClass(float32_t)]),
-                FloatConvGradTemplate.referenceConvGradX2DIm2ColTiledTemplate, ForkTransformer)
+                FloatConvGradTemplate.referenceConvGradX2DTemplate, ForkTransformer)
 ]
 
 PULPFloatDWConv2DBindings = [
@@ -265,7 +265,7 @@
 
 PULPFloatDWConvGradX2DBindings = [
     NodeBinding(ConvChecker([PointerClass(float32_t), PointerClass(float32_t)], [PointerClass(float32_t)]),
-                FloatConvGradTemplate.referenceDWConvGradX2DTiledTemplate, ForkTransformer)
+                FloatConvGradTemplate.referenceDWConvGradX2DTiledTemplate, ClusterTransformer)
 ]
 
 PULPFloatDWConvGradW2DBindings = [
 
@@ -150,7 +150,7 @@ def hoistTransientBuffers(self, ctxt: NetworkContext,
 ${grad_in_type.typeName} ref_${grad_in}       = ${grad_in};  // dX
 
 for (uint32_t n=0; n<${batch}; ++n) {
-    PULP_ConvGradX2d_fp${grad_out_type.referencedType.typeWidth}_fp${weight_type.referencedType.typeWidth}_fp${grad_in_type.referencedType.typeWidth}_CHW_tiled(
+    PULP_ConvGradX2d_fp${grad_out_type.referencedType.typeWidth}_fp${weight_type.referencedType.typeWidth}_fp${grad_in_type.referencedType.typeWidth}_CHW_scatter_tiled(
         ref_${grad_out},
         ${dim_im_out_x}, ${dim_im_out_y}, ${ch_im_out},
         ref_${weight},
@@ -322,13 +322,13 @@ def hoistTransientBuffers(self, ctxt: NetworkContext,
 """)
 
 referenceDWConvGradX2DTiledTemplate = NodeTemplate("""
-// 2D FP DW ConvGradX (dX) CHW tiled (Name: ${nodeName}, Op: ${nodeOp})
+// 2D FP DW ConvGradX (dX) CHW tiled — trainlib gather kernel (Name: ${nodeName}, Op: ${nodeOp})
 ${grad_out_type.typeName}  ref_${grad_out} = ${grad_out};   // dY
 ${weight_type.typeName}   ref_${weight}  = ${weight};    // W
 ${grad_in_type.typeName}  ref_${grad_in}_out = ${grad_in};  // dX
 
 for (uint32_t n=0; n<${batch}; ++n) {
-    PULP_DWConvGradX2d_fp${grad_out_type.referencedType.typeWidth}_fp${weight_type.referencedType.typeWidth}_fp${grad_in_type.referencedType.typeWidth}_CHW_tiled(
+    PULP_DWConvGradX2d_fp${grad_out_type.referencedType.typeWidth}_fp${weight_type.referencedType.typeWidth}_fp${grad_in_type.referencedType.typeWidth}_CHW_trainlib_tiled(
         ref_${grad_out},
         ${dim_im_out_x}, ${dim_im_out_y}, ${ch_im_out},
         ref_${weight},
Original file line number	Diff line number	Diff line change
`@@ -252,7 +252,7 @@`
`252`	`252`
`253`	`253`	`PULPFloatConvGradX2DBindings = [`
`254`	`254`	`NodeBinding(ConvChecker([PointerClass(float32_t), PointerClass(float32_t)], [PointerClass(float32_t)]),`
`255`		`- FloatConvGradTemplate.referenceConvGradX2DIm2ColTiledTemplate, ForkTransformer)`
	`255`	`+ FloatConvGradTemplate.referenceConvGradX2DTemplate, ForkTransformer)`
`256`	`256`	`]`
`257`	`257`
`258`	`258`	`PULPFloatDWConv2DBindings = [`
`@@ -265,7 +265,7 @@`
`265`	`265`
`266`	`266`	`PULPFloatDWConvGradX2DBindings = [`
`267`	`267`	`NodeBinding(ConvChecker([PointerClass(float32_t), PointerClass(float32_t)], [PointerClass(float32_t)]),`
`268`		`- FloatConvGradTemplate.referenceDWConvGradX2DTiledTemplate, ForkTransformer)`
	`268`	`+ FloatConvGradTemplate.referenceDWConvGradX2DTiledTemplate, ClusterTransformer)`
`269`	`269`	`]`
`270`	`270`
`271`	`271`	`PULPFloatDWConvGradW2DBindings = [`