Added support for ldmatrix migration

TejaX-Alaghari · TejaX-Alaghari · commit b03c62035dbb · 2025-03-06T12:09:25.000-05:00
diff --git a/clang/lib/DPCT/RulesAsm/AsmMigration.cpp b/clang/lib/DPCT/RulesAsm/AsmMigration.cpp
@@ -557,12 +557,15 @@ bool SYCLGenBase::emitVectorType(const InlineAsmVectorType *T) {
   OS() << ", ";
   switch (T->getKind()) {
   case InlineAsmVectorType::v2:
+  case InlineAsmVectorType::x1:
     OS() << 2;
     break;
   case InlineAsmVectorType::v4:
+  case InlineAsmVectorType::x2:
     OS() << 4;
     break;
   case InlineAsmVectorType::v8:
+  case InlineAsmVectorType::x4:
     OS() << 8;
     break;
   }
@@ -591,7 +594,8 @@ bool SYCLGenBase::emitAddressExpr(const InlineAsmAddressExpr *Dst) {
   // Address expression only support ld/st/red & atom instructions.
   if (!CurrInst ||
       !CurrInst->is(asmtok::op_st, asmtok::op_ld, asmtok::op_atom,
-                    asmtok::op_prefetch, asmtok::op_red, asmtok::op_cp)) {
+                    asmtok::op_prefetch, asmtok::op_red, asmtok::op_cp,
+                    asmtok::op_ldmatrix)) {
     return SYCLGenError();
   }
   std::string Type;
@@ -624,6 +628,8 @@ bool SYCLGenBase::emitAddressExpr(const InlineAsmAddressExpr *Dst) {
     if (CurrInst->is(asmtok::op_prefetch, asmtok::op_red) ||
         CanSuppressCast(Dst->getSymbol()))
       OS() << llvm::formatv("{0}", Reg);
+    else if (CurrInst->is(asmtok::op_ldmatrix))
+      OS() << llvm::formatv("(uintptr_t){0}", Reg);
     else
       OS() << llvm::formatv("(({0} *)(uintptr_t){1})", Type, Reg);
     break;
@@ -1290,6 +1296,39 @@ class SYCLGen : public SYCLGenBase {
     return SYCLGenSuccess();
   }
 
+  bool handle_ldmatrix(const InlineAsmInstruction *Inst) override {
+    if (Inst->getNumInputOperands() != 1)
+      return SYCLGenError();
+
+    llvm::SaveAndRestore<const InlineAsmInstruction *> Store(CurrInst);
+    CurrInst = Inst;
+    const auto *Src =
+        dyn_cast_or_null<InlineAsmAddressExpr>(Inst->getInputOperand(0));
+    if (!Src)
+      return false;
+
+    OS() << MapNames::getDpctNamespace() << "experimental::matrix::ldmatrix(";
+    if (emitStmt(Src)) {
+      return SYCLGenError();
+    }
+    OS() << ", ";
+    const auto *VE = dyn_cast<InlineAsmVectorExpr>(Inst->getOutputOperand());
+    for (unsigned Inst = 0, E = VE->getNumElements(); Inst != E; ++Inst) {
+      if (isa<InlineAsmDiscardExpr>(VE->getElement(Inst)))
+        continue;
+      OS() << "&"; 
+      if (emitStmt(VE->getElement(Inst)))
+        return SYCLGenError();
+      OS() << ", ";
+    }
+    OS() << DpctGlobalInfo::getItem(GAS);
+    if (Inst->hasAttr(InstAttr::trans))
+      OS() << ", true";
+    OS() << ");";
+
+    return SYCLGenSuccess();
+  }
+
   bool handle_prefetch(const InlineAsmInstruction *Inst) override {
     if (!DpctGlobalInfo::useExtPrefetch() || Inst->getNumInputOperands() != 1)
       return SYCLGenError();
@@ -2667,6 +2706,16 @@ class SYCLGen : public SYCLGenBase {
   bool handle_ld(const InlineAsmInstruction *Inst) override {
     if (Inst->getNumInputOperands() != 1)
       return SYCLGenError();
+
+    OS() << "Size of input ops: " << Inst->getNumInputOperands() << "\n";
+    OS() << "Input op(0/1): " << Inst->getInputOperand(0) << "\n";
+    llvm::SaveAndRestore<const InlineAsmInstruction *> Store2(CurrInst);
+    CurrInst = Inst;
+    const auto *Src2 =
+        dyn_cast_or_null<InlineAsmAddressExpr>(Inst->getInputOperand(0));
+    OS() << emitStmt(Src2) << "\n";
+    OS() << "Output op: " << emitStmt(Inst->getOutputOperand()) << "\n";
+
     llvm::SaveAndRestore<const InlineAsmInstruction *> Store(CurrInst);
     CurrInst = Inst;
     const auto *Src =
diff --git a/clang/lib/DPCT/RulesAsm/Parser/AsmNodes.h b/clang/lib/DPCT/RulesAsm/Parser/AsmNodes.h
@@ -116,7 +116,7 @@ class InlineAsmBuiltinType : public InlineAsmType {
 // This class is used for device asm vector types.
 class InlineAsmVectorType : public InlineAsmType {
 public:
-  enum VecKind { v2, v4, v8 };
+  enum VecKind { v2, v4, v8, x1, x2, x4 };
 
 private:
   VecKind Kind;
@@ -340,6 +340,8 @@ class InlineAsmInstruction : public InlineAsmStmt {
   /// therest are input operands.
   SmallVector<InlineAsmExpr *, 4> InputOps;
 
+  SmallVector<InlineAsmExpr *, 4> OutputOps;
+
 public:
   InlineAsmInstruction(InlineAsmIdentifierInfo *Op,
                        SmallVector<AsmStateSpace, 4> AsmStateSpaces,
diff --git a/clang/lib/DPCT/RulesAsm/Parser/AsmParser.cpp b/clang/lib/DPCT/RulesAsm/Parser/AsmParser.cpp
@@ -327,7 +327,7 @@ InlineAsmStmtResult InlineAsmParser::ParseInstruction() {
   if (!Tok.getIdentifier() || !Tok.getIdentifier()->isInstruction())
     return AsmStmtError();
 
-  InlineAsmIdentifierInfo *Opcode = Tok.getIdentifier();
+  Opcode = Tok.getIdentifier();
   ConsumeToken();
 
   SmallVector<InstAttr, 4> Attrs;
@@ -736,20 +736,38 @@ InlineAsmExprResult InlineAsmParser::ActOnParenExpr(InlineAsmExpr *SubExpr) {
 InlineAsmExprResult
 InlineAsmParser::ActOnVectorExpr(ArrayRef<InlineAsmExpr *> Vec) {
 
-  // Vector size must be 2, 4, or 8.
+  // Vector size for ldmatrix are 1, 2, 4
+  // size(x) = 2 * sizeof(v).
   InlineAsmVectorType::VecKind Kind;
-  switch (Vec.size()) {
-  case 2:
-    Kind = InlineAsmVectorType::v2;
-    break;
-  case 4:
-    Kind = InlineAsmVectorType::v4;
-    break;
-  case 8:
-    Kind = InlineAsmVectorType::v8;
-    break;
-  default:
-    return AsmExprError();
+  if (Opcode->getTokenID() == asmtok::op_ldmatrix) {
+    switch (Vec.size()) {
+    case 1:
+      Kind = InlineAsmVectorType::x1;
+      break;
+    case 2:
+      Kind = InlineAsmVectorType::x2;
+      break;
+    case 4:
+      Kind = InlineAsmVectorType::x4;
+      break;
+    default:
+      return AsmExprError();
+    }
+  } else {
+    // Vector size must be 2, 4, or 8.
+    switch (Vec.size()) {
+    case 2:
+      Kind = InlineAsmVectorType::v2;
+      break;
+    case 4:
+      Kind = InlineAsmVectorType::v4;
+      break;
+    case 8:
+      Kind = InlineAsmVectorType::v8;
+      break;
+    default:
+      return AsmExprError();
+    }
   }
 
   InlineAsmBuiltinType *ElementType = nullptr;
diff --git a/clang/lib/DPCT/RulesAsm/Parser/AsmParser.h b/clang/lib/DPCT/RulesAsm/Parser/AsmParser.h
@@ -247,6 +247,8 @@ class InlineAsmParser {
   };
 
 public:
+  InlineAsmIdentifierInfo *Opcode;
+
   InlineAsmParser(InlineAsmContext &Ctx, SourceMgr &Mgr)
       : Lexer(*Mgr.getMemoryBuffer(Mgr.getMainFileID())), Context(Ctx),
         SrcMgr(Mgr), CurScope(nullptr) {
diff --git a/clang/lib/DPCT/RulesAsm/Parser/AsmTokenKinds.def b/clang/lib/DPCT/RulesAsm/Parser/AsmTokenKinds.def
@@ -274,6 +274,14 @@ MODIFIER(v2, ".v2")
 MODIFIER(v4, ".v4")
 MODIFIER(v8, ".v8")
 
+// Matrix modifiers
+MODIFIER(x1, ".x1")
+MODIFIER(x2, ".x2")
+MODIFIER(x4, ".x4")
+
+// Matrix shape
+MODIFIER(m8n8, ".m8n8")
+
 STATE_SPACE(reg,    ".reg")
 STATE_SPACE(sreg,   ".sreg")
 STATE_SPACE(const,  ".const")
@@ -412,7 +420,8 @@ MODIFIER(sc, ".sc")
 MODIFIER(gl, ".gl")
 MODIFIER(L1, ".L1")
 MODIFIER(L2, ".L2")
-
+MODIFIER(aligned, ".aligned")
+MODIFIER(trans, ".trans")
 
 #undef LINKAGE
 #undef TARGET
diff --git a/clang/lib/DPCT/SrcAPI/APINames_ASM.inc b/clang/lib/DPCT/SrcAPI/APINames_ASM.inc
@@ -75,7 +75,7 @@ ENTRY("griddepcontrol", "griddepcontrol", false, NO_FLAG, P1, "Comment")
 ENTRY("isspacep", "isspacep", false, NO_FLAG, P1, "Comment")
 ENTRY("istypep", "istypep", false, NO_FLAG, P1, "Comment")
 ENTRY("ld", "ld", true, NO_FLAG, P1, "Partial")
-ENTRY("ldmatrix", "ldmatrix", false, NO_FLAG, P1, "Comment")
+ENTRY("ldmatrix", "ldmatrix", true, NO_FLAG, P1, "Successful")
 ENTRY("ldu", "ldu", false, NO_FLAG, P1, "Comment")
 ENTRY("lg2", "lg2", true, NO_FLAG, P1, "Successful")
 ENTRY("lop3", "lop3", true, NO_FLAG, P1, "Successful")
diff --git a/clang/runtime/dpct-rt/include/dpct/math.hpp b/clang/runtime/dpct-rt/include/dpct/math.hpp
@@ -2047,6 +2047,66 @@ class joint_matrix {
   matrix_accessor x;
   const size_t num_elements;
 };
+
+template <typename T>
+void ldmatrix(uintptr_t addr, T *m,
+              const sycl::nd_item<3> &item_ct1, bool trans = false,
+              unsigned mat = 0) {
+  int lane = item_ct1.get_local_id(2);
+
+  int group = lane / 8;
+  int sub = lane % 8;
+  int src_base = group * 2;
+  int src_lane = (sub / 4) ? (src_base + 1) : src_base;
+
+  if (!trans) {
+    // Broadcast the address from the source lane
+    auto recv_addr_uintp = dpct::select_from_sub_group(
+        item_ct1.get_sub_group(), addr, mat * 8 + src_lane);
+    auto recv_addr = reinterpret_cast<sycl::half *>(recv_addr_uintp);
+
+    // Row-major load
+    int index = (lane % 4) * 2;
+    sycl::half val0 = recv_addr[index];
+    sycl::half val1 = recv_addr[index + 1];
+    uint16_t bits0 = sycl::bit_cast<unsigned short, sycl::half>(val0);
+    uint16_t bits1 = sycl::bit_cast<unsigned short, sycl::half>(val1);
+    *m = ((uint32_t)bits1 << 16) | bits0;
+  } else {
+    // Broadcast the address from the source lane:
+    auto recv_addr_uintp = dpct::select_from_sub_group(
+        item_ct1.get_sub_group(), addr, mat * 8);
+    auto recv_addr = reinterpret_cast<sycl::half *>(recv_addr_uintp);
+    recv_addr += src_lane;
+
+    // Transposed load
+    int index = (lane % 4) * 8 * 2;
+    sycl::half val0 = recv_addr[index];
+    sycl::half val1 = recv_addr[index + 8];
+    uint16_t bits0 = sycl::bit_cast<unsigned short, sycl::half>(val0);
+    uint16_t bits1 = sycl::bit_cast<unsigned short, sycl::half>(val1);
+    *m = ((uint32_t)bits1 << 16) | bits0;
+  }
+}
+
+template <typename T>
+void ldmatrix(uintptr_t addr, T *m1, T *m2,
+              const sycl::nd_item<3> &item_ct1, bool trans = false) {
+  ldmatrix(addr, m1, item_ct1, trans, 0);
+  ldmatrix(addr, m2, item_ct1, trans, 1);
+}
+
+template <typename T>
+void ldmatrix(uintptr_t addr, T *m1, T *m2,
+              T *m3, T *m4,
+              const sycl::nd_item<3> &item_ct1, bool trans = false) {
+  ldmatrix(addr, m1, item_ct1, trans, 0);
+  ldmatrix(addr, m2, item_ct1, trans, 1);
+  ldmatrix(addr, m3, item_ct1, trans, 2);
+  ldmatrix(addr, m4, item_ct1, trans, 3);
+}
+
+
 } // namespace matrix
 } // namespace experimental
 
diff --git a/clang/test/dpct/asm/ldmatrix.cu b/clang/test/dpct/asm/ldmatrix.cu
@@ -0,0 +1,80 @@
+// UNSUPPORTED: cuda-8.0, cuda-9.0, cuda-9.1, cuda-9.2, cuda-10.0, cuda-10.1, cuda-10.2
+// UNSUPPORTED: v8.0, v9.0, v9.1, v9.2, v10.0, v10.1, v10.2
+// RUN: dpct --format-range=none -out-root %T/ldmatrix %s --cuda-include-path="%cuda-path/include" -- -std=c++14 -x cuda --cuda-host-only
+// RUN: FileCheck %s --match-full-lines --input-file %T/ldmatrix/ldmatrix.dp.cpp
+// RUN: %if build_lit %{icpx -c -fsycl %T/ldmatrix/ldmatrix.dp.cpp -o %T/ldmatrix/ldmatrix.dp.o %}
+
+// clang-format off
+#include <cuda_runtime.h>
+
+/*
+ldmatrix.sync.aligned.shape.num{.trans}{.ss}.type r, [p];
+
+Below are the currenly supported configurations:
+.shape = {.m8n8};
+.num   = {.x1, .x2, .x4};
+.ss    = {.shared{::cta}};
+.type  = {.b16};
+*/
+
+__device__ void load_matrix_x1(void *sh_r_addr, int *r) {
+  // CHECK: auto addr = sh_r_addr;
+  uint32_t addr = static_cast<uint32_t>(__cvta_generic_to_shared(sh_r_addr));
+
+  // CHECK: dpct::experimental::matrix::ldmatrix((uintptr_t)addr, &r[0], item_ct1);
+  asm volatile("ldmatrix.sync.aligned.m8n8.x1.shared.b16 {%0}, [%1];\n"
+                : "=r"(r[0])
+                : "r"(addr));
+}
+
+__device__ void load_matrix_x2(void *sh_r_addr, int *r) {
+  // CHECK: auto addr = sh_r_addr;
+  uint32_t addr = static_cast<uint32_t>(__cvta_generic_to_shared(sh_r_addr));
+
+  // CHECK: dpct::experimental::matrix::ldmatrix((uintptr_t)addr, &r[0], &r[1], item_ct1);
+  asm volatile("ldmatrix.sync.aligned.m8n8.x2.shared.b16 {%0, %1}, [%2];\n"
+                : "=r"(r[0]), "=r"(r[1])
+                : "r"(addr));
+}
+
+__device__ void load_matrix_x4(void *sh_r_addr, int *r) {
+  // CHECK: auto addr = sh_r_addr;
+  uint32_t addr = static_cast<uint32_t>(__cvta_generic_to_shared(sh_r_addr));
+
+  // CHECK: dpct::experimental::matrix::ldmatrix((uintptr_t)addr, &r[0], &r[1], &r[2], &r[3], item_ct1);
+  asm volatile("ldmatrix.sync.aligned.m8n8.x4.shared.b16 {%0, %1, %2, %3}, [%4];\n"
+                : "=r"(r[0]), "=r"(r[1]), "=r"(r[2]), "=r"(r[3])
+                : "r"(addr));
+}
+
+__device__ void load_matrix_x1_trans(void *sh_r_addr, int *r) {
+  // CHECK: auto addr = sh_r_addr;
+  uint32_t addr = static_cast<uint32_t>(__cvta_generic_to_shared(sh_r_addr));
+
+  // CHECK: dpct::experimental::matrix::ldmatrix((uintptr_t)addr, &r[0], item_ct1, true);
+  asm volatile("ldmatrix.sync.aligned.m8n8.x1.trans.shared.b16 {%0}, [%1];\n"
+                : "=r"(r[0])
+                : "r"(addr));
+}
+
+__device__ void load_matrix_x2_trans(void *sh_r_addr, int *r) {
+  // CHECK: auto addr = sh_r_addr;
+  uint32_t addr = static_cast<uint32_t>(__cvta_generic_to_shared(sh_r_addr));
+
+  // CHECK: dpct::experimental::matrix::ldmatrix((uintptr_t)addr, &r[0], &r[1], item_ct1, true);
+  asm volatile("ldmatrix.sync.aligned.m8n8.x2.trans.shared.b16 {%0, %1}, [%2];\n"
+                : "=r"(r[0]), "=r"(r[1])
+                : "r"(addr));
+}
+
+__device__ void load_matrix_x4_trans(void *sh_r_addr, int *r) {
+  // CHECK: auto addr = sh_r_addr;
+  uint32_t addr = static_cast<uint32_t>(__cvta_generic_to_shared(sh_r_addr));
+
+  // CHECK: dpct::experimental::matrix::ldmatrix((uintptr_t)addr, &r[0], &r[1], &r[2], &r[3], item_ct1, true);
+  asm volatile("ldmatrix.sync.aligned.m8n8.x4.trans.shared.b16 {%0, %1, %2, %3}, [%4];\n"
+                : "=r"(r[0]), "=r"(r[1]), "=r"(r[2]), "=r"(r[3])
+                : "r"(addr));
+}
+
+// clang-format on
diff --git a/clang/test/dpct/cmake_migration/case_048/input.cmake b/clang/test/dpct/cmake_migration/case_048/input.cmake
@@ -1,19 +1 @@
-add_library(target
-            foo.cpp
-            layer.cudnn.cpp
-            foo.h
-            )
-            
-add_library(bar bar.cpp bar.h)
-
-target_compile_features(${TARGET} PUBLIC cxx_std_14)
-set(CMAKE_CXX_STANDARD 14)
-target_compile_features(culib PRIVATE cxx_std_14)
-set_target_properties(target_one PROPERTIES CXX_STANDARD 17)
-add_compile_options(-std=c++17)
-
-add_library(chash OBJECT deps/chash/chash.c deps/chash/chash.h)
-add_library(cchash OBJECT deps/cchash/cchash.cc deps/cchash/cchash.h)
-add_library(cxxhash OBJECT deps/cxxhash/cxxhash.cxx deps/cxxhash/cxxhash.h)
-add_library(cpphash OBJECT deps/cpphash/cpphash.cpp deps/cpphash/cpphash.h)
-add_library(chash OBJECT deps/chash/foo.c deps/chash/chash.h)
+add_library(target foo.cpp)
diff --git a/clang/test/dpct/cmake_migration/case_048/out/dpct.cmake b/clang/test/dpct/cmake_migration/case_048/out/dpct.cmake
diff --git a/clang/test/dpct/cmake_migration/case_048/out/input.cmake b/clang/test/dpct/cmake_migration/case_048/out/input.cmake
diff --git a/docs/dev_guide/api-mapping-status/ASM_API_migration_status.csv b/docs/dev_guide/api-mapping-status/ASM_API_migration_status.csv