runwangdl
diff --git a/‎Deeploy/Targets/PULPOpen/Bindings.py‎
Lines changed: 23 additions & 1 deletion b/‎Deeploy/Targets/PULPOpen/Bindings.py‎
Lines changed: 23 additions & 1 deletion
diff --git a/‎Deeploy/Targets/PULPOpen/Parsers.py‎
Lines changed: 247 additions & 1 deletion b/‎Deeploy/Targets/PULPOpen/Parsers.py‎
Lines changed: 247 additions & 1 deletion
diff --git a/‎Deeploy/Targets/PULPOpen/Platform.py‎
Lines changed: 8 additions & 3 deletions b/‎Deeploy/Targets/PULPOpen/Platform.py‎
Lines changed: 8 additions & 3 deletions
diff --git a/‎Deeploy/Targets/PULPOpen/Templates/FloatConvTemplate.py‎
Lines changed: 61 additions & 0 deletions b/‎Deeploy/Targets/PULPOpen/Templates/FloatConvTemplate.py‎
Lines changed: 61 additions & 0 deletions
@@ -35,7 +35,7 @@
     SGDTemplate, SoftmaxCrossEntropyLossTemplate, TallGEMMTemplate, TransposeTemplate, UniformRequantShiftTemplate, \
     iRMSNormTemplate, iSoftmaxTemplate, FloatAveragePoolTemplate
 from Deeploy.Targets.PULPOpen.TypeCheckers import PULPConvChecker, PULPLinearChecker, PULPMaxPoolChecker, \
-    PULPRequantShiftChecker
+    PULPRequantShiftChecker, PULPConvGradBChecker
 from Deeploy.TilingExtension.CodeTransformationPasses.TilingVariableReplacement import TilingVariableReplacement, \
     TilingVariableReplacementUpdate
 
@@ -258,6 +258,28 @@
         ForkTransformer)
 ]
 
+PULPFloatDWConvTrans2DBindings = [
+    NodeBinding(
+        ConvChecker([PointerClass(float32_t), PointerClass(float32_t)],
+                    [PointerClass(float32_t)]), FloatConvTemplate.referenceDWConvTrans2DTemplate,
+        ForkTransformer)
+]
+
+PULPFloatConvGradW2DBindings = [
+    NodeBinding(
+        ConvChecker([PointerClass(float32_t), PointerClass(float32_t)],
+                    [PointerClass(float32_t)]), FloatConvTemplate.referenceConvGradW2DTemplate,
+        ForkTransformer)
+]
+
+PULPFloatConvGradB2DBindings = [
+    NodeBinding(
+        PULPConvGradBChecker([PointerClass(float32_t)],  # Only one input: output_grad
+                             [PointerClass(float32_t)]), # Output: bias_grad
+        FloatConvTemplate.referenceConvGradB2DTemplate,
+        ForkTransformer)
+]
+
 PULPRQSMatrixVecBindings = [
     NodeBinding(
         PULPLinearChecker([PointerClass(type1),
 
@@ -466,4 +466,250 @@ def parseNodeCtxt(self,
 class PULPConvTrans2DParser(PULPFPConv2DParser):
 
     def __init__(self, noBiasHoisting = True):
-            super().__init__(noBiasHoisting)
+        super().__init__(noBiasHoisting)
+    
+    def parseNode(self, node: gs.Node) -> bool:
+        """Override to recognize ConvGradX instead of Conv"""
+        # Temporarily change op to Conv for parent parsing
+        original_op = node.op
+        if node.op == 'ConvGradX':
+            node.op = 'Conv'
+        
+        # Call parent parseNode
+        wellFormed = super().parseNode(node)
+        
+        # Restore original op
+        node.op = original_op
+        
+        # Additional validation for ConvGradX
+        if wellFormed and original_op == 'ConvGradX':
+            # ConvGradX should have 2 inputs: output_grad and weight
+            return len(node.inputs) == 2
+        
+        return wellFormed
+    
+    def parseNodeCtxt(self,
+                      ctxt: NetworkContext,
+                      node: gs.Node,
+                      channels_first: bool = True) -> Tuple[NetworkContext, bool]:
+        """Override for ConvGradX - swap input/output semantics"""
+        
+        if node.op == 'ConvGradX':
+            # For ConvGradX: inputs are [output_grad, weight], output is input_grad
+            # But parent expects: inputs are [input, weight], output is output
+            # So we need to swap the semantics
+            
+            # Temporarily swap input/output for parent parsing
+            output_grad_name = node.inputs[0].name
+            input_grad_name = node.outputs[0].name
+            
+            # Get tensors
+            output_grad = ctxt.lookup(output_grad_name)
+            weight = ctxt.lookup(node.inputs[1].name)
+            
+            # Create a temporary input tensor with output_grad's info as if it's the output
+            # and output tensor with input_grad's info as if it's the input
+            temp_input = node.inputs[0]
+            temp_output = node.outputs[0]
+            
+            # Swap
+            node.inputs[0] = temp_output
+            node.outputs[0] = temp_input
+            
+            # Call parent
+            newCtxt, ret = super().parseNodeCtxt(ctxt, node, channels_first)
+            
+            # Restore
+            node.inputs[0] = temp_input
+            node.outputs[0] = temp_output
+            
+            if ret:
+                # Fix the tensor names for ConvGradX
+                self.operatorRepresentation['data_in'] = output_grad_name
+                self.operatorRepresentation['data_out'] = input_grad_name
+                self.operatorRepresentation["has_bias"] = "false"
+                self.operatorRepresentation["bias"] = "NULL"
+                
+            return newCtxt, ret
+        else:
+            return super().parseNodeCtxt(ctxt, node, channels_first)
+
+class PULPDWConvTrans2DParser(PULPFPDWConv2DParser):
+
+    def __init__(self, noBiasHoisting = True):
+        super().__init__(noBiasHoisting)
+    
+    def parseNode(self, node: gs.Node) -> bool:
+        """Override to recognize ConvGradX instead of Conv"""
+        # Temporarily change op to Conv for parent parsing
+        original_op = node.op
+        if node.op == 'ConvGradX':
+            node.op = 'Conv'
+        
+        # Call parent parseNode
+        wellFormed = super().parseNode(node)
+        
+        # Restore original op
+        node.op = original_op
+        
+        # Additional validation for ConvGradX
+        if wellFormed and original_op == 'ConvGradX':
+            # ConvGradX should have 2 inputs: output_grad and weight
+            return len(node.inputs) == 2
+        
+        return wellFormed
+    
+    def parseNodeCtxt(self,
+                      ctxt: NetworkContext,
+                      node: gs.Node,
+                      channels_first: bool = True) -> Tuple[NetworkContext, bool]:
+        """Override for ConvGradX - swap input/output semantics"""
+        
+        if node.op == 'ConvGradX':
+            # For ConvGradX: inputs are [output_grad, weight], output is input_grad
+            # Temporarily swap input/output for parent parsing
+            output_grad_name = node.inputs[0].name
+            input_grad_name = node.outputs[0].name
+            
+            # Swap
+            temp_input = node.inputs[0]
+            temp_output = node.outputs[0]
+            node.inputs[0] = temp_output
+            node.outputs[0] = temp_input
+            
+            # Call parent
+            newCtxt, ret = super().parseNodeCtxt(ctxt, node, channels_first)
+            
+            # Restore
+            node.inputs[0] = temp_input
+            node.outputs[0] = temp_output
+            
+            if ret:
+                # Fix the tensor names for ConvGradX
+                self.operatorRepresentation['data_in'] = output_grad_name
+                self.operatorRepresentation['data_out'] = input_grad_name
+                self.operatorRepresentation["weight"] = ctxt.lookup(node.inputs[1].name).name
+                self.operatorRepresentation["has_bias"] = "false"
+                self.operatorRepresentation["bias"] = "NULL"
+                
+            return newCtxt, ret
+        else:
+            return super().parseNodeCtxt(ctxt, node, channels_first)
+
+
+class PULPConvGradW2DParser(PULPFPConv2DParser):
+
+    def __init__(self, noBiasHoisting = True):
+        super().__init__(noBiasHoisting)
+
+    def parseNodeCtxt(self,
+                      ctxt: NetworkContext,
+                      node: gs.Node,
+                      channels_first: bool = True) -> Tuple[NetworkContext, bool]:
+        """Parse ConvGradW - need custom logic for input dimensions"""
+        
+        if not self.parseNode(node):
+            return ctxt, False
+        
+        # Get input tensors
+        grad_out_tensor = ctxt.lookup(node.inputs[0].name)
+        data_in_tensor = ctxt.lookup(node.inputs[1].name)
+        
+        # Extract batch size
+        batch = grad_out_tensor.shape[0]
+        
+        # Extract dimensions
+        C_out, H_out, W_out = grad_out_tensor.shape[1], grad_out_tensor.shape[2], grad_out_tensor.shape[3]
+        C_in, H_in, W_in = data_in_tensor.shape[1], data_in_tensor.shape[2], data_in_tensor.shape[3]
+    
+        # Store batch size
+        self.operatorRepresentation['batch'] = batch
+        
+        # Store dimensions
+        self.operatorRepresentation['ch_im_out'] = C_out
+        self.operatorRepresentation['dim_im_out_x'] = W_out
+        self.operatorRepresentation['dim_im_out_y'] = H_out
+        self.operatorRepresentation['ch_im_in'] = C_in
+        self.operatorRepresentation['dim_im_in_x'] = W_in
+        self.operatorRepresentation['dim_im_in_y'] = H_in
+        
+        # Store kernel dimensions
+        self.operatorRepresentation['dim_kernel_y'] = self.operatorRepresentation['kernel_shape'][0]
+        self.operatorRepresentation['dim_kernel_x'] = self.operatorRepresentation['kernel_shape'][1]
+        
+        # Store strides
+        self.operatorRepresentation['stride_y'] = self.operatorRepresentation['strides'][0]
+        self.operatorRepresentation['stride_x'] = self.operatorRepresentation['strides'][1]
+        
+        # Set tensor names and types
+        self.operatorRepresentation['grad_out'] = node.inputs[0].name
+        self.operatorRepresentation['grad_out_type'] = grad_out_tensor._type
+        self.operatorRepresentation['data_in'] = node.inputs[1].name
+        self.operatorRepresentation['data_in_type'] = data_in_tensor._type
+        self.operatorRepresentation['weight'] = node.outputs[0].name
+        self.operatorRepresentation['weight_type'] = grad_out_tensor._type  # Same as grad_out
+        
+        # No bias for ConvGradW
+        self.operatorRepresentation['has_bias'] = 'false'
+        self.operatorRepresentation['bias'] = 'NULL'
+        
+        return ctxt, True
+
+class PULPConvGradB2DParser(PULPFPConv2DParser):
+
+    def __init__(self):
+        self.operatorRepresentation = {}
+
+    def parseNode(self, node: gs.Node) -> bool:
+        """Parse ConvGradB node attributes"""
+        
+        # Check basic structure
+        if node.op != 'ConvGradB':
+            return False
+        
+        if len(node.inputs) != 1:  # only output_grad
+            return False
+        
+        if len(node.outputs) != 1:  # bias_grad
+            return False
+        
+        return True
+
+    def parseNodeCtxt(self,
+                      ctxt: NetworkContext,
+                      node: gs.Node,
+                      channels_first: bool = True) -> Tuple[NetworkContext, bool]:
+        """Parse ConvGradB node context"""
+
+        # For ConvGradB, the inputs are:
+        # inputs[0]: output_grad [N, C_out, H_out, W_out] (NCHW)
+        # output:    bias_grad [C_out]
+
+        # Get tensors from context
+        output_grad_tensor = ctxt.lookup(node.inputs[0].name)
+        
+        # Extract batch size and dimensions (NCHW)
+        batch = output_grad_tensor.shape[0]
+        C_out = output_grad_tensor.shape[1]
+        H_out = output_grad_tensor.shape[2]
+        W_out = output_grad_tensor.shape[3]
+        
+        # Store batch size
+        self.operatorRepresentation['batch'] = batch
+        
+        # Store dimensions
+        self.operatorRepresentation['ch_im_out'] = C_out
+        self.operatorRepresentation['dim_im_out_x'] = W_out
+        self.operatorRepresentation['dim_im_out_y'] = H_out
+        
+        # Dummy kernel_shape for computeOps (ConvGradB doesn't use kernels)
+        self.operatorRepresentation['kernel_shape'] = [1, 1]
+        self.operatorRepresentation['ch_im_in'] = 1  # Dummy value
+        
+        # Set tensor names and types
+        self.operatorRepresentation['grad_out'] = node.inputs[0].name
+        self.operatorRepresentation['grad_out_type'] = output_grad_tensor._type
+        self.operatorRepresentation['bias'] = node.outputs[0].name
+        self.operatorRepresentation['bias_type'] = output_grad_tensor._type  # Same type as grad_out
+        
+        return ctxt, True
@@ -34,7 +34,7 @@
 from Deeploy.Targets.PULPOpen.Layers import PULPRQSConvLayer, PULPRQSGEMMLayer
 from Deeploy.Targets.PULPOpen.Parsers import PULPConv1DParser, PULPConv2DParser, PULPDWConv1DParser, \
     PULPDWConv2DParser, PULPFPConv2DParser, PULPFPDWConv2DParser, PULPGEMMParser, PULPMatrixVecParser, \
-    PULPTallGEMMParser, PULPConvTrans2DParser
+    PULPTallGEMMParser, PULPConvTrans2DParser, PULPConvGradW2DParser, PULPConvGradB2DParser, PULPDWConvTrans2DParser
 from Deeploy.Targets.PULPOpen.Templates import AllocateTemplate, FreeTemplate
 from Deeploy.Targets.PULPOpen.Tiler import PULPAddTilingReadyBindings, PULPConcatTilingReadyBindings, \
     PULPConv2DTilingReadyBindings, PULPDWConv2DTilingReadyBindings, PULPFlattenTilingReadyBindings, \
@@ -49,7 +49,7 @@
     PULPSGDTilingReadyBindings, PULPSliceTilingReadyBindings, PULPSoftmaxCrossEntropyGradTilingReadyBindings, \
     PULPSoftmaxCrossEntropyTilingReadyBindings, PULPSoftmaxGradTilingReadyBindings, PULPSoftmaxTilingReadyBindings, \
     PULPTransposeTilingReadyBindings, PULPUniformRQSTilingReadyBindings, PULPAveragePool2DTilingReadyBindings, \
-    PULPAveragePoolGrad2DTilingReadyBindings, PULPConvTrans2DTilingReadyBindings
+    PULPAveragePoolGrad2DTilingReadyBindings, PULPConvTrans2DTilingReadyBindings, PULPConvGradW2DTilingReadyBindings, PULPConvGradB2DTilingReadyBindings, PULPDWConvTrans2DTilingReadyBindings
 from Deeploy.Targets.PULPOpen.TopologyOptimizationPasses.Passes import PULPAddRequantMergePass, \
     PULPConvRequantMergePass, PULPGEMMRequantMergePass, PULPMatMulRequantMergePass
 
@@ -80,6 +80,9 @@
 FPConv2DMapper = NodeMapper(PULPFPConv2DParser(), PULPConv2DTilingReadyBindings)
 
 ConvGradXMapper = NodeMapper(PULPConvTrans2DParser(), PULPConvTrans2DTilingReadyBindings)
+DwConvGradxMapper = NodeMapper(PULPDWConvTrans2DParser(), PULPDWConvTrans2DTilingReadyBindings)
+ConvGradWMapper = NodeMapper(PULPConvGradW2DParser(), PULPConvGradW2DTilingReadyBindings)
+ConvGradBMapper = NodeMapper(PULPConvGradB2DParser(), PULPConvGradB2DTilingReadyBindings)
 
 Conv2DMapper = NodeMapper(PULPConv2DParser(), PULPRQSConv2DTilingReadyBindings)
 FPDWConv2DMapper = NodeMapper(PULPFPDWConv2DParser(), PULPDWConv2DTilingReadyBindings)
@@ -117,7 +120,9 @@
 AveragePoolGrad2DMapper = NodeMapper(AveragePool2DParser(), PULPAveragePoolGrad2DTilingReadyBindings)
 PULPMapping = {
     'Conv': ConvLayer([FPConv2DMapper, FPDWConv2DMapper]),
-    'ConvGradX': ConvLayer([ConvGradXMapper]),
+    'ConvGradX': ConvLayer([ConvGradXMapper, DwConvGradxMapper]),
+    'ConvGradW': ConvLayer([ConvGradWMapper]),
+    'ConvGradB': ConvLayer([ConvGradBMapper]),
     'RequantizedConv': PULPRQSConvLayer([Conv2DMapper, DWConv2DMapper, Conv1DMapper, DWConv1DMapper]),
     'RequantizedGemm': PULPRQSGEMMLayer([MatrixVecMapper, TallGEMMMapper, GEMMMapper]),
     'Gemm': GEMMLayer([FloatGEMMMapper, GEMMDequantMapper]),
 
@@ -178,4 +178,65 @@ def hoistTransientBuffers(self, ctxt: NetworkContext,
     ref_${data_out}_${data_in} += ${ch_im_in} * ${dim_im_in_x} * ${dim_im_in_y};
     ref_${data_out}_${data_out} += ${ch_im_out} * ${dim_im_out_x} * ${dim_im_out_y};
 }
+""")
+
+
+
+referenceConvGradW2DTemplate = NodeTemplate("""
+// 2D FP ConvGradW NCHW (Name: ${nodeName}, Op: ${nodeOp})
+${grad_out_type.typeName} ref_${weight}_${grad_out} = ${grad_out};
+${data_in_type.typeName} ref_${weight}_${data_in} = ${data_in};
+${weight_type.typeName} ref_${weight}_out = ${weight};
+
+for (uint32_t n=0; n<${batch}; ++n) {
+    PULP_ConvGradW2d_fp${grad_out_type.referencedType.typeWidth}_fp${data_in_type.referencedType.typeWidth}_fp${weight_type.referencedType.typeWidth}_NCHW(
+        ref_${weight}_${grad_out},
+        ${dim_im_out_y}, ${dim_im_out_x}, ${ch_im_out},
+        ref_${weight}_${data_in},
+        ${dim_im_in_y}, ${dim_im_in_x}, ${ch_im_in},
+        ${dim_kernel_y}, ${dim_kernel_x},
+        ${stride_y}, ${stride_x},
+        ref_${weight}_out,
+        ${padding_y_top}, ${padding_y_bottom}, ${padding_x_left}, ${padding_x_right}
+    );
+
+    ref_${weight}_${grad_out} += ${ch_im_out} * ${dim_im_out_x} * ${dim_im_out_y};
+    ref_${weight}_${data_in} += ${ch_im_in} * ${dim_im_in_x} * ${dim_im_in_y};
+}
+""")
+
+referenceConvGradB2DTemplate = NodeTemplate("""
+// 2D FP ConvGradB NCHW (Name: ${nodeName}, Op: ${nodeOp})
+${grad_out_type.typeName} ref_${bias}_${grad_out} = ${grad_out};
+${bias_type.typeName} ref_${bias}_out = ${bias};
+
+for (uint32_t n=0; n<${batch}; ++n) {
+    PULP_ConvGradB2d_fp${grad_out_type.referencedType.typeWidth}_fp${bias_type.referencedType.typeWidth}_NCHW(
+        ref_${bias}_${grad_out},
+        ${dim_im_out_y}, ${dim_im_out_x}, ${ch_im_out},
+        ref_${bias}_out
+    );
+
+    ref_${bias}_${grad_out} += ${ch_im_out} * ${dim_im_out_x} * ${dim_im_out_y};
+}
+""")
+
+referenceDWConvTrans2DTemplate = NodeTemplate("""
+// 2D FP DW ConvTranspose HWC (Name: ${nodeName}, Op: ${nodeOp})
+${data_in_type.typeName} ref_${data_out}_${data_in} = ${data_in};
+${data_out_type.typeName} ref_${data_out}_${data_out} = ${data_out};
+for (uint32_t n=0; n<${batch}; ++n) {       
+    PULP_DWConvTrans2d_fp${data_in_type.referencedType.typeWidth}_fp${weight_type.referencedType.typeWidth}_fp${data_out_type.referencedType.typeWidth}_HWC(
+        ref_${data_out}_${data_in},
+        ${dim_im_out_y}, ${dim_im_out_x}, ${ch_im_out},
+        ${weight},
+        ${dim_kernel_y}, ${dim_kernel_x},
+        ${stride_y}, ${stride_x},
+        ref_${data_out}_${data_out},
+        ${padding_y_top}, ${padding_y_bottom}, ${padding_x_left}, ${padding_x_right}
+    );
+
+    ref_${data_out}_${data_in} += ${ch_im_out} * ${dim_im_out_x} * ${dim_im_out_y};
+    ref_${data_out}_${data_out} += ${ch_im_in} * ${dim_im_in_x} * ${dim_im_in_y};
+}
 """)