ROCm
diff --git a/‎mlir/lib/Conversion/LinalgToRock/LinalgToRock.cpp‎
Lines changed: 107 additions & 31 deletions b/‎mlir/lib/Conversion/LinalgToRock/LinalgToRock.cpp‎
Lines changed: 107 additions & 31 deletions
diff --git a/‎mlir/lib/Conversion/LinalgToRock/LinalgToRockPass.cpp‎
Lines changed: 5 additions & 0 deletions b/‎mlir/lib/Conversion/LinalgToRock/LinalgToRockPass.cpp‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎mlir/lib/Conversion/MIGraphXToLinalg/MIGraphXToLinalg.cpp‎
Lines changed: 113 additions & 15 deletions b/‎mlir/lib/Conversion/MIGraphXToLinalg/MIGraphXToLinalg.cpp‎
Lines changed: 113 additions & 15 deletions
@@ -18,15 +18,27 @@
 #include "mlir/IR/AffineExpr.h"
 #include "mlir/IR/PatternMatch.h"
 
+#include <tuple>
+
 using namespace mlir;
 
 namespace {
 template <typename LinalgMatOp>
 struct MatmulConverter final : public OpConversionPattern<LinalgMatOp> {
+  struct MatmulContext {
+    Value aMatrix, bMatrix, scaleA, scaleB;
+    UnitAttr aTransposedAttr, bTransposedAttr, aScaleTransposedAttr,
+        bScaleTransposedAttr;
+  };
+
   using OpConversionPattern<LinalgMatOp>::OpConversionPattern;
   using OpConversionPattern<LinalgMatOp>::getTypeConverter;
   using OpAdaptor = typename OpConversionPattern<LinalgMatOp>::OpAdaptor;
 
+  FailureOr<MatmulContext>
+  getRockMatmulContext(LinalgMatOp op, OpAdaptor adaptor,
+                       ConversionPatternRewriter &rewriter) const;
+
   LogicalResult
   matchAndRewrite(LinalgMatOp op, OpAdaptor adaptor,
                   ConversionPatternRewriter &rewriter) const override;
@@ -37,12 +49,9 @@ struct MatmulConverter final : public OpConversionPattern<LinalgMatOp> {
 /// operandIndex is 0 for A matrix and 1 for B matrix
 /// Returns false if identity map, true if last two dims swapped, failure
 /// otherwise.
-template <typename LinalgOp>
-static FailureOr<bool> isMatrixTransposed(LinalgOp op, unsigned operandIndex) {
-  auto indexingMap =
-      dyn_cast<AffineMapAttr>(op.getIndexingMaps()[operandIndex]);
-  if (!indexingMap || (operandIndex != 1 && operandIndex != 0) ||
-      indexingMap.getAffineMap().getNumResults() < 2) {
+static FailureOr<bool> isMatrixTransposed(AffineMapAttr indexingMap,
+                                          bool isAMatrix) {
+  if (!indexingMap || indexingMap.getAffineMap().getNumResults() < 2) {
     // it is possible for the result of the affine map to have one dimension in
     // the case of broadcasting
     return failure();
@@ -79,17 +88,68 @@ static FailureOr<bool> isMatrixTransposed(LinalgOp op, unsigned operandIndex) {
   // B matrix (operandIndex=1):
   //   - Transposed:     (d0, d1, d2, d3) -> (d0, d2, d3)  i.e., (batch, n, k)
   //     Last two results map to positions: d2->2, d3->3 (swapped)
-  unsigned transposedSecond = operandIndex == 0 ? numInputs - 1 : numInputs - 2;
-  unsigned transposedLast = operandIndex == 0 ? numInputs - 3 : numInputs - 1;
+  unsigned transposedSecond = isAMatrix ? numInputs - 1 : numInputs - 2;
+  unsigned transposedLast = isAMatrix ? numInputs - 3 : numInputs - 1;
   bool isTransposed = (secondLast.getPosition() == transposedSecond &&
                        last.getPosition() == transposedLast);
   return isTransposed;
 }
 
 template <typename LinalgMatOp>
-LogicalResult MatmulConverter<LinalgMatOp>::matchAndRewrite(
+FailureOr<typename MatmulConverter<LinalgMatOp>::MatmulContext>
+MatmulConverter<LinalgMatOp>::getRockMatmulContext(
     LinalgMatOp op, OpAdaptor adaptor,
     ConversionPatternRewriter &rewriter) const {
+  // Nice wrapper around isMatrixTransposed to reduce code duplication
+  auto getTransposeAttrs = [&](AffineMapAttr matrixAIndexingMap,
+                               AffineMapAttr matrixBIndexingMap)
+      -> FailureOr<std::tuple<UnitAttr, UnitAttr>> {
+    FailureOr<bool> maybeATransposed =
+        isMatrixTransposed(matrixAIndexingMap, /*isAMatrix=*/true);
+    FailureOr<bool> maybeBTransposed =
+        isMatrixTransposed(matrixBIndexingMap, /*isAMatrix=*/false);
+    if (failed(maybeATransposed) || failed(maybeBTransposed))
+      return failure();
+    UnitAttr aTransposedAttr =
+        *maybeATransposed ? rewriter.getAttr<UnitAttr>() : nullptr;
+    UnitAttr bTransposedAttr =
+        *maybeBTransposed ? rewriter.getAttr<UnitAttr>() : nullptr;
+    return std::make_tuple(aTransposedAttr, bTransposedAttr);
+  };
+
+  MatmulContext context;
+  if (isa<linalg::GenericOp>(op) && op->hasAttr("rock.quant_dot") &&
+      op.getInputs().size() == 4 && op.getOutputs().size() == 1) {
+    // The linalg.generic op from migraphx-to-linalg place this operand in this
+    // way.
+    context.aMatrix = op.getInputs()[0];
+    context.scaleA = op.getInputs()[1];
+    context.bMatrix = op.getInputs()[2];
+    context.scaleB = op.getInputs()[3];
+
+    auto maybeTranspose =
+        getTransposeAttrs(dyn_cast<AffineMapAttr>(op.getIndexingMaps()[0]),
+                          dyn_cast<AffineMapAttr>(op.getIndexingMaps()[2]));
+    auto maybeScaleTranspose =
+        getTransposeAttrs(dyn_cast<AffineMapAttr>(op.getIndexingMaps()[1]),
+                          dyn_cast<AffineMapAttr>(op.getIndexingMaps()[3]));
+    if (failed(maybeTranspose) || failed(maybeScaleTranspose))
+      return op.emitError("cannot determine if input matrix is transposed");
+    auto [aTransposedAttr, bTransposedAttr] = *maybeTranspose;
+    auto [aScaleTransposedAttr, bScaleTransposedAttr] = *maybeScaleTranspose;
+
+    context.aTransposedAttr = aTransposedAttr;
+    context.aScaleTransposedAttr = aScaleTransposedAttr;
+    context.bTransposedAttr = bTransposedAttr;
+    context.bScaleTransposedAttr = bScaleTransposedAttr;
+    return success(context);
+  }
+
+  // only expect either linalg.matmul or linalg.batch_matmul
+  if (!isa<linalg::MatmulOp, linalg::BatchMatmulOp>(op)) {
+    return failure();
+  }
+
   Location loc = op.getLoc();
   Value a = op.getOperand(0);
   Value b = op.getOperand(1);
@@ -101,34 +161,50 @@ LogicalResult MatmulConverter<LinalgMatOp>::matchAndRewrite(
         "expected the output to have RankedTensorType and static shape");
   }
 
-  RankedTensorType outputType = cast<RankedTensorType>(cOriginal.getType());
-  Value c = bufferization::AllocTensorOp::create(rewriter, op.getLoc(),
-                                                 outputType, {});
-
-  // Setting the A and B matrix transpose attribute
-  FailureOr<bool> maybeAMatrixTransposed =
-      isMatrixTransposed<LinalgMatOp>(op, 0);
-  FailureOr<bool> maybeBMatrixTransposed =
-      isMatrixTransposed<LinalgMatOp>(op, 1);
-  if (failed(maybeAMatrixTransposed) || failed(maybeBMatrixTransposed)) {
+  auto maybeTranspose =
+      getTransposeAttrs(dyn_cast<AffineMapAttr>(op.getIndexingMaps()[0]),
+                        dyn_cast<AffineMapAttr>(op.getIndexingMaps()[1]));
+  if (failed(maybeTranspose))
     return op.emitError("cannot determine if input matrix is transposed");
+  auto [aTransposedAttr, bTransposedAttr] = *maybeTranspose;
+
+  context.aMatrix = a;
+  context.scaleA = nullptr;
+  context.bMatrix = b;
+  context.scaleB = nullptr;
+  context.aTransposedAttr = aTransposedAttr;
+  context.bTransposedAttr = bTransposedAttr;
+  return success(context);
+}
+
+template <typename LinalgMatOp>
+LogicalResult MatmulConverter<LinalgMatOp>::matchAndRewrite(
+    LinalgMatOp op, OpAdaptor adaptor,
+    ConversionPatternRewriter &rewriter) const {
+  Location loc = op.getLoc();
+  FailureOr<MatmulContext> maybeContext =
+      getRockMatmulContext(op, adaptor, rewriter);
+  if (failed(maybeContext)) {
+    return failure();
   }
-  UnitAttr aTransposedAttr =
-      (maybeAMatrixTransposed.value()) ? rewriter.getAttr<UnitAttr>() : nullptr;
-  UnitAttr bTransposedAttr =
-      (maybeBMatrixTransposed.value()) ? rewriter.getAttr<UnitAttr>() : nullptr;
+  MatmulContext context = maybeContext.value();
 
   // TODO: handle split K attributes as well
   // TODO: handle broadcasting for matrix A and B
-  // TODO: Scaled GEMM not yet supported (scaleA/scaleB currently null)
+  RankedTensorType outputType =
+      cast<RankedTensorType>(op.getOutputs()[0].getType());
   rock::StoreMethodAttr method =
       rewriter.getAttr<rock::StoreMethodAttr>(rock::StoreMethod::Set);
+  Value c = bufferization::AllocTensorOp::create(rewriter, op.getLoc(),
+                                                 outputType, {});
   rock::GemmOp result = rock::GemmOp::create(
-      rewriter, loc, c.getType(), a, b, c, /*scaleA=*/nullptr,
-      /*scaleB=*/nullptr, /*aTransposed=*/aTransposedAttr,
-      /*bTransposed=*/bTransposedAttr,
-      /*cTransposed=*/nullptr, /*aScaleTransposed=*/nullptr,
-      /*bScaleTransposed=*/nullptr, /*features=*/nullptr,
+      rewriter, loc, c.getType(), context.aMatrix, context.bMatrix, c,
+      /*scaleA=*/context.scaleA,
+      /*scaleB=*/context.scaleB, /*aTransposed=*/context.aTransposedAttr,
+      /*bTransposed=*/context.bTransposedAttr,
+      /*cTransposed=*/nullptr,
+      /*aScaleTransposed=*/context.aScaleTransposedAttr,
+      /*bScaleTransposed=*/context.bScaleTransposedAttr, /*features=*/nullptr,
       /*storeMethod=*/method, /*derivedBlockSize=*/nullptr,
       /*gridSize=*/nullptr, /*params=*/nullptr);
 
@@ -186,6 +262,6 @@ LogicalResult ExpandStrideConverter::matchAndRewrite(
 void mlir::rock::populateLinalgToRockConversionPattern(
     RewritePatternSet &pattern, MLIRContext *context) {
   pattern.add<MatmulConverter<linalg::BatchMatmulOp>,
-              MatmulConverter<linalg::MatmulOp>, ExpandStrideConverter>(
-      context);
+              MatmulConverter<linalg::MatmulOp>, ExpandStrideConverter,
+              MatmulConverter<linalg::GenericOp>>(context);
 }
@@ -54,6 +54,11 @@ static void populateLinalgToRockDialectConversion(ConversionTarget &target) {
         if (!linalgOp) {
           return std::nullopt;
         }
+
+        if (op->hasAttr("rock.quant_dot")) {
+          return false;
+        }
+
         return linalg::isElementwise(linalgOp) || isa<linalg::GenericOp>(op) ||
                isa<linalg::YieldOp>(op);
       });
 
@@ -21,6 +21,7 @@
 #include "mlir/Dialect/Rock/IR/Rock.h"
 #include "mlir/Dialect/Rock/IR/RockTypes.h"
 #include "mlir/Dialect/Tensor/IR/Tensor.h"
+#include "mlir/IR/BuiltinTypeInterfaces.h"
 
 using namespace mlir;
 
@@ -606,25 +607,89 @@ ConvConverter::matchAndRewrite(migraphx::ConvolutionOp op, OpAdaptor adaptor,
   return emitConv(rewriter, op, input, filter);
 }
 
-// TODO: add support for scaled gemms, and migraphx::DeQuantizeLinearConverter
+// TODO: migraphx::DeQuantizeLinearConverter
 //===----------------------------------------------------------------------===//
 // Base kernels (gemm)
 //===----------------------------------------------------------------------===//
 namespace {
-struct DotConverter final : public OpConversionPattern<migraphx::DotOp> {
-  using OpConversionPattern<migraphx::DotOp>::OpConversionPattern;
-  using OpConversionPattern<migraphx::DotOp>::getTypeConverter;
-  using OpAdaptor = typename OpConversionPattern<migraphx::DotOp>::OpAdaptor;
+template <typename MIGXDotOp>
+struct DotConverter final : public OpConversionPattern<MIGXDotOp> {
+  using OpConversionPattern<MIGXDotOp>::OpConversionPattern;
+  using OpConversionPattern<MIGXDotOp>::getTypeConverter;
+  using OpAdaptor = typename OpConversionPattern<MIGXDotOp>::OpAdaptor;
+
+  static_assert(std::is_same_v<MIGXDotOp, migraphx::DotOp> ||
+                    std::is_same_v<MIGXDotOp, migraphx::QuantDotOp>,
+                "MIGXDotOp must be migraphx::DotOp or migraphx::QuantDotOp");
 
   LogicalResult
-  matchAndRewrite(migraphx::DotOp op, OpAdaptor adaptor,
+  matchAndRewrite(MIGXDotOp op, OpAdaptor adaptor,
                   ConversionPatternRewriter &rewriter) const override;
+
+  Value createScaledDotGeneric(OpBuilder &rewriter, Location loc, Value aMatrix,
+                               Value scaleA, Value bMatrix, Value scaleB,
+                               RankedTensorType resultType) const;
 };
 } // namespace
 
-LogicalResult
-DotConverter::matchAndRewrite(migraphx::DotOp op, OpAdaptor adaptor,
-                              ConversionPatternRewriter &rewriter) const {
+template <typename MIGXDotOp>
+Value DotConverter<MIGXDotOp>::createScaledDotGeneric(
+    OpBuilder &rewriter, Location loc, Value aMatrix, Value scaleA,
+    Value bMatrix, Value scaleB, RankedTensorType resultType) const {
+  auto bodyBuilder = [](OpBuilder &b, Location loc, ValueRange blockArgs) {
+    assert(blockArgs.size() == 5 && "expected 5 arguments");
+
+    SmallVector<Value> inputs =
+        llvm::map_to_vector(blockArgs.drop_back(1), [&](Value arg) {
+          if (!arg.getType().isF32()) {
+            return convertScalarToDtype(b, loc, arg, b.getF32Type(),
+                                        /*isUnsignedCast=*/false);
+          }
+          return arg;
+        });
+
+    Value result = arith::createProduct(b, loc, inputs);
+    if (result.getType() != blockArgs[4].getType()) {
+      result = convertScalarToDtype(b, loc, result, blockArgs[4].getType(),
+                                    /*isUnsignedCast=*/false);
+    }
+    // Accumulate the result
+    ArithBuilder arithBuilder(b, loc);
+    result = arithBuilder.add(result, blockArgs[4]);
+    linalg::YieldOp::create(b, loc, result);
+  };
+
+  Value zero = arith::ConstantOp::create(rewriter, loc, resultType,
+                                         rewriter.getZeroAttr(resultType));
+
+  // The input matrix A has dimensions [batch, m, k], and the input matrix B
+  // has dimensions [batch, k, n]. The output matrix C has dimensions [batch,
+  // m, n].
+  AffineExpr batch = getAffineDimExpr(/*position=*/0, rewriter.getContext()),
+             m = getAffineDimExpr(/*position=*/1, rewriter.getContext()),
+             n = getAffineDimExpr(/*position=*/2, rewriter.getContext()),
+             k = getAffineDimExpr(/*position=*/3, rewriter.getContext());
+  AffineMap aMap = AffineMap::get(/*dimCount=*/4, /*symbolCount=*/0,
+                                  {batch, m, k}, rewriter.getContext());
+  AffineMap bMap = AffineMap::get(/*dimCount=*/4, /*symbolCount=*/0,
+                                  {batch, k, n}, rewriter.getContext());
+  AffineMap cMap = AffineMap::get(/*dimCount=*/4, /*symbolCount=*/0,
+                                  {batch, m, n}, rewriter.getContext());
+  SmallVector<utils::IteratorType> iteratorTypes(3,
+                                                 utils::IteratorType::parallel);
+  iteratorTypes.push_back(utils::IteratorType::reduction);
+
+  auto genericOp = linalg::GenericOp::create(
+      rewriter, loc, resultType, {aMatrix, scaleA, bMatrix, scaleB}, {zero},
+      {aMap, aMap, bMap, bMap, cMap}, iteratorTypes, bodyBuilder);
+  genericOp->setAttr("rock.quant_dot", rewriter.getBoolAttr(true));
+  return genericOp->getResult(0);
+}
+
+template <typename MIGXDotOp>
+LogicalResult DotConverter<MIGXDotOp>::matchAndRewrite(
+    MIGXDotOp op, OpAdaptor adaptor,
+    ConversionPatternRewriter &rewriter) const {
   Location loc = op->getLoc();
   Value inA = adaptor.getInA();
   Value inB = adaptor.getInB();
@@ -719,11 +784,43 @@ DotConverter::matchAndRewrite(migraphx::DotOp op, OpAdaptor adaptor,
     inB = reshapeToDimThree(rankB, newBType, inB);
   }
 
-  auto init = arith::ConstantOp::create(rewriter, loc, newOutType,
-                                        rewriter.getZeroAttr(newOutType))
-                  .getResult();
-  Value result = linalg::BatchMatmulOp::create(rewriter, loc, {inA, inB}, init)
-                     .getResult(0);
+  auto emitLinalgBatchMatmul = [&](Value inA, Value inB,
+                                   RankedTensorType newOutType) {
+    auto init = arith::ConstantOp::create(rewriter, loc, newOutType,
+                                          rewriter.getZeroAttr(newOutType))
+                    .getResult();
+    Value result =
+        linalg::BatchMatmulOp::create(rewriter, loc, {inA, inB}, init)
+            .getResult(0);
+    return result;
+  };
+
+  Value result;
+  if constexpr (std::is_same_v<MIGXDotOp, migraphx::QuantDotOp>) {
+    Value scaleA = adaptor.getScaleA();
+    Value scaleB = adaptor.getScaleB();
+    assert(((scaleA && scaleB) || (!scaleA && !scaleB)) &&
+           "Both scaleA and scaleB must be provided or neither.");
+    bool isScaled = scaleA && scaleB;
+    if (needToReshape && isScaled) {
+      // scaleA and scaleB should have the same type as inputA and inputB
+      RankedTensorType scaleAType =
+          RankedTensorType::get(cast<ShapedType>(inA.getType()).getShape(),
+                                getElementTypeOrSelf(scaleA.getType()));
+      RankedTensorType scaleBType =
+          RankedTensorType::get(cast<ShapedType>(inB.getType()).getShape(),
+                                getElementTypeOrSelf(scaleB.getType()));
+      scaleA = reshapeToDimThree(rankA, scaleAType, scaleA);
+      scaleB = reshapeToDimThree(rankB, scaleBType, scaleB);
+    }
+
+    // only emit scaleA and scaleB if they are not null
+    result = (isScaled) ? createScaledDotGeneric(rewriter, loc, inA, scaleA,
+                                                 inB, scaleB, newOutType)
+                        : emitLinalgBatchMatmul(inA, inB, newOutType);
+  } else {
+    result = emitLinalgBatchMatmul(inA, inB, newOutType);
+  }
 
   // Convert optional attributes
   if (auto attr = (*op).template getAttrOfType<StringAttr>("perf_config"))
@@ -1463,7 +1560,8 @@ LiteralConverter::matchAndRewrite(migraphx::LiteralOp op, OpAdaptor adaptor,
 void mlir::migraphx::populateMIGraphXToLinalgConversionPatterns(
     TypeConverter &converter, RewritePatternSet &patterns) {
   patterns
-      .add<DotConverter, ElementwiseConverter<migraphx::AddOp, linalg::AddOp>,
+      .add<DotConverter<migraphx::DotOp>, DotConverter<migraphx::QuantDotOp>,
+           ElementwiseConverter<migraphx::AddOp, linalg::AddOp>,
            ElementwiseConverter<migraphx::SubOp, linalg::SubOp>,
            ElementwiseConverter<migraphx::MulOp, linalg::MulOp>,
            ElementwiseConverter<migraphx::DivOp, linalg::DivOp>,