|
2 | 2 | #include <algorithm> |
3 | 3 | #include <numeric> |
4 | 4 | #include <queue> |
5 | | - |
| 5 | +#include "operators/matmul.h" |
| 6 | +#include "operators/transpose.h" |
6 | 7 | namespace infini |
7 | 8 | { |
8 | 9 |
|
@@ -106,6 +107,163 @@ namespace infini |
106 | 107 | // 1. 去除冗余的算子(例如,两个相邻的算子都是 transpose 算子,且做的是相反的操作,可以将其全部删除) |
107 | 108 | // 2. 合并算子(例如,矩阵乘算子中含有属性transA、transB,如果其输入存在transpose,且对最后两个维度做交换,就可以将transpose融入到矩阵乘算子的属性中去) |
108 | 109 | // =================================== 作业 =================================== |
| 110 | + |
| 111 | + // rule1: 删除无用的transpose算子 |
| 112 | + for (size_t i = 0; i < ops.size(); ++i) |
| 113 | + { |
| 114 | + Operator op = ops[i]; |
| 115 | + if (op->getOpType() == OpType::Transpose) |
| 116 | + { |
| 117 | + Tensor tensor = op->getOutput(); |
| 118 | + if (!tensor) |
| 119 | + continue; |
| 120 | + auto targets = tensor->getTargets(); |
| 121 | + if (targets.empty()) |
| 122 | + continue; |
| 123 | + Operator op_next = targets[0]; |
| 124 | + if (op_next->getOpType() == OpType::Transpose) |
| 125 | + { |
| 126 | + TransposeObj *op1 = as<TransposeObj>(op).get(); |
| 127 | + TransposeObj *op2 = as<TransposeObj>(op_next).get(); |
| 128 | + auto op1_permute = op1->getPermute(); |
| 129 | + auto op2_permute = op2->getPermute(); |
| 130 | + if (op1_permute.size() != op2_permute.size()) |
| 131 | + continue; |
| 132 | + bool flag = true; |
| 133 | + for (int j = 0; j < (int)op1_permute.size(); j++) |
| 134 | + { |
| 135 | + if (op1_permute[op2_permute[j]] != j) |
| 136 | + { |
| 137 | + flag = false; |
| 138 | + continue; |
| 139 | + } |
| 140 | + } |
| 141 | + if (!flag) //flag为false说明 无法合并 |
| 142 | + continue; |
| 143 | + // 获取第一个转置算子的输入张量(原始输入数据) |
| 144 | + Tensor originalInput = op->getInputs()[0]; |
| 145 | + |
| 146 | + // 获取第一个转置算子的输出张量(第一次转置结果) |
| 147 | + Tensor firstTransposeOutput = op->getOutput(); |
| 148 | + |
| 149 | + // 获取第二个转置算子的输出张量(最终转置结果) |
| 150 | + Tensor secondTransposeOutput = op_next->getOutput(); |
| 151 | + |
| 152 | + // 获取使用最终结果的消费者算子(如矩阵乘法) |
| 153 | + Operator consumerOp = secondTransposeOutput->getTargets()[0]; |
| 154 | + |
| 155 | + // 保留消费者算子的其他输入(如矩阵乘法的右矩阵) |
| 156 | + Tensor consumerOtherInput = consumerOp->getInputs()[1]; |
| 157 | + |
| 158 | + // 重定向消费者算子的输入:跳过两个转置,直接使用原始输入 |
| 159 | + consumerOp->replaceInput(consumerOp->getInputs()[0], originalInput); |
| 160 | + |
| 161 | + // 更新原始输入的连接关系: |
| 162 | + originalInput->removeTarget(op); // 移除对第一个转置的引用 |
| 163 | + originalInput->addTarget(consumerOp); // 添加对消费者算子的引用 |
| 164 | + originalInput->setSource(nullptr); // 清除可能存在的生产者标记 |
| 165 | + |
| 166 | + // 清理冗余资源 |
| 167 | + removeOperator(op); // 删除第一个转置算子 |
| 168 | + removeOperator(op_next); // 删除第二个转置算子 |
| 169 | + removeTensor(firstTransposeOutput); // 删除中间结果张量 |
| 170 | + removeTensor(secondTransposeOutput); // 删除最终结果张量 |
| 171 | + |
| 172 | + // 更新算子间的拓扑依赖关系 |
| 173 | + consumerOp->removePredecessors(op_next); // 移除与第二个转置的依赖 |
| 174 | + |
| 175 | + // 如果原始输入有生产者,建立新的依赖关系 |
| 176 | + if (originalInput->getSource()) { |
| 177 | + consumerOp->addPredecessors(originalInput->getSource()); |
| 178 | + originalInput->getSource()->addSuccessors(consumerOp); |
| 179 | + } |
| 180 | + } |
| 181 | + } |
| 182 | + } |
| 183 | + |
| 184 | + // 遍历图中的所有算子,寻找可优化的矩阵乘法算子 |
| 185 | + for (size_t opIndex = 0; opIndex < ops.size(); ++opIndex) { |
| 186 | + Operator currentOp = ops[opIndex]; |
| 187 | + |
| 188 | + // 只处理矩阵乘法算子 |
| 189 | + if (currentOp->getOpType() == OpType::MatMul) { |
| 190 | + // 获取矩阵乘法的输入张量列表(左矩阵和右矩阵) |
| 191 | + TensorVec matmulInputs = currentOp->getInputs(); |
| 192 | + int inputIndex = 0; // 用于标识当前是左输入(0)还是右输入(1) |
| 193 | + |
| 194 | + // 检查每个输入张量 |
| 195 | + for (Tensor inputTensor : matmulInputs) { |
| 196 | + inputIndex++; |
| 197 | + |
| 198 | + // 检查输入张量是否有生产者算子 |
| 199 | + if (inputTensor->getSource()) { |
| 200 | + Operator producerOp = inputTensor->getSource(); |
| 201 | + |
| 202 | + // 如果生产者是转置算子 |
| 203 | + if (producerOp->getOpType() == OpType::Transpose) { |
| 204 | + TransposeObj *transposeOp = as<TransposeObj>(producerOp).get(); |
| 205 | + Shape transposePerm = transposeOp->getPermute(); |
| 206 | + bool isLastTwoDimsSwap = true; |
| 207 | + |
| 208 | + /* 验证转置操作是否只交换最后两个维度: |
| 209 | + * 1. 前n-2个维度必须保持原顺序(即perm[j] == j) |
| 210 | + * 2. 最后两个维度必须交换(即perm[-2] == rank-1 且 perm[-1] == rank-2) |
| 211 | + */ |
| 212 | + for (int dim = 0; dim < (int)transposePerm.size() - 2; dim++) { |
| 213 | + if (transposePerm[dim] != dim) { |
| 214 | + isLastTwoDimsSwap = false; |
| 215 | + break; |
| 216 | + } |
| 217 | + } |
| 218 | + if (transposePerm[transposePerm.size() - 2] != (int)transposePerm.size() - 1 || |
| 219 | + transposePerm[transposePerm.size() - 1] != (int)transposePerm.size() - 2) { |
| 220 | + isLastTwoDimsSwap = false; |
| 221 | + } |
| 222 | + |
| 223 | + // 如果不满足条件则跳过优化 |
| 224 | + if (!isLastTwoDimsSwap) continue; |
| 225 | + |
| 226 | + // 获取矩阵乘法算子(用于修改转置属性) |
| 227 | + MatmulObj *matmulOp = as<MatmulObj>(currentOp).get(); |
| 228 | + Tensor transposedTensor; |
| 229 | + |
| 230 | + // 根据输入位置设置对应的转置标志 |
| 231 | + if (inputIndex == 1) { // 左输入 |
| 232 | + matmulOp->setTransA(true); // 启用左矩阵转置 |
| 233 | + transposedTensor = matmulOp->getInputs(0); |
| 234 | + } else { // 右输入 |
| 235 | + matmulOp->setTransB(true); // 启用右矩阵转置 |
| 236 | + transposedTensor = matmulOp->getInputs(1); |
| 237 | + } |
| 238 | + |
| 239 | + // 获取转置算子的输入(原始未转置的张量) |
| 240 | + Operator transposeOperator = transposedTensor->getSource(); |
| 241 | + Tensor originalTensor = transposeOperator->getInputs()[0]; |
| 242 | + |
| 243 | + // 重定向矩阵乘法的输入:跳过转置算子,直接使用原始张量 |
| 244 | + matmulOp->replaceInput(transposedTensor, originalTensor); |
| 245 | + |
| 246 | + // 更新张量连接关系 |
| 247 | + originalTensor->removeTarget(transposeOperator); |
| 248 | + originalTensor->addTarget(currentOp); |
| 249 | + |
| 250 | + // 清理资源:删除转置算子和中间张量 |
| 251 | + removeOperator(transposeOperator); |
| 252 | + removeTensor(transposedTensor); |
| 253 | + |
| 254 | + // 更新拓扑关系:移除转置算子作为前驱 |
| 255 | + currentOp->removePredecessors(transposeOperator); |
| 256 | + |
| 257 | + // 如果原始张量有生产者,建立新的依赖关系 |
| 258 | + if (originalTensor->getSource()) { |
| 259 | + currentOp->addPredecessors(originalTensor->getSource()); |
| 260 | + originalTensor->getSource()->addSuccessors(currentOp); |
| 261 | + } |
| 262 | + } |
| 263 | + } |
| 264 | + } |
| 265 | + } |
| 266 | +} |
109 | 267 | } |
110 | 268 |
|
111 | 269 | Tensor GraphObj::getTensor(int fuid) const |
@@ -152,16 +310,41 @@ namespace infini |
152 | 310 | // TODO:利用 allocator 给计算图分配内存 |
153 | 311 | // HINT: 获取分配好的内存指针后,可以调用 tensor 的 setDataBlob 函数给 tensor 绑定内存 |
154 | 312 | // =================================== 作业 =================================== |
| 313 | + // allocator.info(); |
| 314 | + // void* allocatorPtr = allocator.getPtr(); |
| 315 | + // for(auto it = tensors.begin(); it != tensors.end(); it++){ |
| 316 | + // auto tensor = *it; |
| 317 | + // size_t size = tensor->getBytes(); |
| 318 | + // size_t addr = allocator.alloc(size); |
| 319 | + // char * tmpPtr = reinterpret_cast<char*>(allocatorPtr) + addr; |
| 320 | + // Blob blob = make_ref<BlobObj>(runtime, (void *)tmpPtr); |
| 321 | + // tensor->setDataBlob(blob); |
| 322 | + // } |
| 323 | + // topological sorting first |
| 324 | + IT_ASSERT(topo_sort() == true); |
155 | 325 |
|
156 | | - allocator.info(); |
157 | | - for(auto it = tensors.begin(); it != tensors.end(); it++){ |
158 | | - auto tensor = *it; |
| 326 | + // =================================== 作业 =================================== |
| 327 | + // TODO:利用 allocator 给计算图分配内存 |
| 328 | + // HINT: 获取分配好的内存指针后,可以调用 tensor 的 setDataBlob 函数给 tensor 绑定内存 |
| 329 | + // =================================== 作业 =================================== |
| 330 | + vector<size_t> offsets; |
| 331 | + for (auto tensor : tensors) |
| 332 | + { |
159 | 333 | size_t size = tensor->getBytes(); |
160 | | - size_t addr = allocator.alloc(size); |
161 | | - IT_ASSERT(addr != 0); |
162 | | - Blob blob = make_ref<BlobObj>(tensor->getRuntime(), (void *)(allocator.getPtr() + addr)); |
| 334 | + size_t offset = allocator.alloc(size); |
| 335 | + offsets.push_back(offset); |
| 336 | + } |
| 337 | + auto it = offsets.begin(); |
| 338 | + void *basePtr = allocator.getPtr(); |
| 339 | + for (auto tensor : tensors) |
| 340 | + { |
| 341 | + char *charPtr = reinterpret_cast<char *>(basePtr) + *it; |
| 342 | + void *ptr = charPtr; |
| 343 | + Blob blob = make_ref<BlobObj>(runtime, ptr); |
163 | 344 | tensor->setDataBlob(blob); |
| 345 | + it++; |
164 | 346 | } |
| 347 | + allocator.info(); |
165 | 348 | } |
166 | 349 |
|
167 | 350 | Tensor GraphObj::addTensor(Shape dim, DataType dtype) |
|
0 commit comments