Added QAM support for 4 nvcuda wmma APIs

TejaX-Alaghari · TejaX-Alaghari · commit e6666b455adc · 2025-07-03T16:43:04.000+08:00
diff --git a/clang/examples/DPCT/Runtime/nvcuda$$wmma$$fill_fragment.cu b/clang/examples/DPCT/Runtime/nvcuda$$wmma$$fill_fragment.cu
@@ -0,0 +1,10 @@
+// Option: --use-experimental-features=matrix
+#include <mma.h>
+
+__global__ void test() {
+  // Start
+  nvcuda::wmma::fragment<nvcuda::wmma::accumulator, 16, 16, 16, float> acc_frag;
+  nvcuda::wmma::fill_fragment(acc_frag /* type fragment */,
+                              1.0f /* type value */);
+  // End
+}
diff --git a/clang/examples/DPCT/Runtime/nvcuda$$wmma$$load_matrix_sync.cu b/clang/examples/DPCT/Runtime/nvcuda$$wmma$$load_matrix_sync.cu
@@ -0,0 +1,12 @@
+// Option: --use-experimental-features=matrix
+#include <mma.h>
+
+__global__ void test(half *a, int row, int col, int lda) {
+  // Start
+  nvcuda::wmma::fragment<nvcuda::wmma::matrix_a, 16, 16, 16, half,
+                         nvcuda::wmma::row_major>
+      a_frag;
+  nvcuda::wmma::load_matrix_sync(a_frag /* type fragment */,
+                                 a + col + row * lda, lda);
+  // End
+}
diff --git a/clang/examples/DPCT/Runtime/nvcuda$$wmma$$mma_sync.cu b/clang/examples/DPCT/Runtime/nvcuda$$wmma$$mma_sync.cu
@@ -0,0 +1,17 @@
+// Option: --use-experimental-features=matrix
+#include <mma.h>
+
+__global__ void test() {
+  // Start
+  nvcuda::wmma::fragment<nvcuda::wmma::matrix_a, 16, 16, 16, half,
+                         nvcuda::wmma::row_major>
+      a_frag;
+  nvcuda::wmma::fragment<nvcuda::wmma::matrix_b, 16, 16, 16, half,
+                         nvcuda::wmma::col_major>
+      b_frag;
+  nvcuda::wmma::fragment<nvcuda::wmma::accumulator, 16, 16, 16, float> acc_frag;
+  nvcuda::wmma::mma_sync(acc_frag /* type fragment */,
+                         a_frag /* type fragment */, b_frag /* type fragment */,
+                         acc_frag /* type fragment */);
+  // End
+}
diff --git a/clang/examples/DPCT/Runtime/nvcuda$$wmma$$store_matrix_sync.cu b/clang/examples/DPCT/Runtime/nvcuda$$wmma$$store_matrix_sync.cu
@@ -0,0 +1,14 @@
+// Option: --use-experimental-features=matrix
+#include <mma.h>
+
+__global__ void test(float *c, int row, int col, int ldc) {
+  // Start
+  nvcuda::wmma::fragment<nvcuda::wmma::accumulator, 16, 16, 16, float> acc_frag;
+  nvcuda::wmma::store_matrix_sync(
+      c + col + row * ldc, acc_frag /* type fragment */, ldc,
+      nvcuda::wmma::mem_col_major /* type memory order */);
+  nvcuda::wmma::store_matrix_sync(
+      c + row + col * ldc, acc_frag /* type fragment */, ldc,
+      nvcuda::wmma::mem_row_major /* type memory order */);
+  // End
+}
diff --git a/clang/lib/DPCT/DPCT.cpp b/clang/lib/DPCT/DPCT.cpp
@@ -1070,6 +1070,8 @@ int runDPCT(int argc, const char **argv) {
             Experimentals.addValue(ExperimentalFeatures::Exp_LevelZero);
           else if (Option.ends_with("non-uniform-groups"))
             Experimentals.addValue(ExperimentalFeatures::Exp_NonUniformGroups);
+          else if (Option.ends_with("matrix"))
+            Experimentals.addValue(ExperimentalFeatures::Exp_Matrix);
         } else if (Option == "--no-dry-pattern") {
           NoDRYPattern.setValue(true);
         }
diff --git a/clang/test/dpct/query_api_mapping/Runtime/test_wmma.cu b/clang/test/dpct/query_api_mapping/Runtime/test_wmma.cu
@@ -0,0 +1,57 @@
+// UNSUPPORTED: cuda-8.0, cuda-9.0, cuda-9.1, cuda-9.2, cuda-10.0
+// UNSUPPORTED: v8.0, v9.0, v9.1, v9.2, v10.0
+
+// RUN: dpct --cuda-include-path="%cuda-path/include" --query-api-mapping=nvcuda::wmma::fill_fragment | FileCheck %s -check-prefix=NVCUDA_WMMA_FILL_FRAGMENT
+// NVCUDA_WMMA_FILL_FRAGMENT: CUDA API:
+// NVCUDA_WMMA_FILL_FRAGMENT-NEXT:    nvcuda::wmma::fragment<nvcuda::wmma::accumulator, 16, 16, 16, float> acc_frag;
+// NVCUDA_WMMA_FILL_FRAGMENT-NEXT:    nvcuda::wmma::fill_fragment(acc_frag /* type fragment */,
+// NVCUDA_WMMA_FILL_FRAGMENT-NEXT:                                1.0f /* type value */);
+// NVCUDA_WMMA_FILL_FRAGMENT-NEXT: Is migrated to (with the option --use-experimental-features=matrix):
+// NVCUDA_WMMA_FILL_FRAGMENT-NEXT:    dpct::experimental::matrix::joint_matrix<dpct::experimental::matrix::accumulator, 16, 16, 16, float> acc_frag;
+// NVCUDA_WMMA_FILL_FRAGMENT-NEXT:    sycl::ext::oneapi::experimental::matrix::joint_matrix_fill(sycl::ext::oneapi::this_work_item::get_sub_group(), acc_frag.get(), 1.0f);
+
+// RUN: dpct --cuda-include-path="%cuda-path/include" --query-api-mapping=nvcuda::wmma::load_matrix_sync | FileCheck %s -check-prefix=NVCUDA_WMMA_LOAD_MATRIX_SYNC
+// NVCUDA_WMMA_LOAD_MATRIX_SYNC: CUDA API:
+// NVCUDA_WMMA_LOAD_MATRIX_SYNC-NEXT:    nvcuda::wmma::fragment<nvcuda::wmma::matrix_a, 16, 16, 16, half,
+// NVCUDA_WMMA_LOAD_MATRIX_SYNC-NEXT:                           nvcuda::wmma::row_major>
+// NVCUDA_WMMA_LOAD_MATRIX_SYNC-NEXT:        a_frag;
+// NVCUDA_WMMA_LOAD_MATRIX_SYNC-NEXT:    nvcuda::wmma::load_matrix_sync(a_frag /* type fragment */,
+// NVCUDA_WMMA_LOAD_MATRIX_SYNC-NEXT:                                   a + col + row * lda, lda);
+// NVCUDA_WMMA_LOAD_MATRIX_SYNC-NEXT: Is migrated to (with the option --use-experimental-features=matrix):
+// NVCUDA_WMMA_LOAD_MATRIX_SYNC-NEXT:    dpct::experimental::matrix::joint_matrix<dpct::experimental::matrix::a, 16, 16, 16, sycl::half, dpct::experimental::matrix::row_major>
+// NVCUDA_WMMA_LOAD_MATRIX_SYNC-NEXT:        a_frag;
+// NVCUDA_WMMA_LOAD_MATRIX_SYNC-NEXT:    sycl::ext::oneapi::experimental::matrix::joint_matrix_load(sycl::ext::oneapi::this_work_item::get_sub_group(), a_frag.get(), sycl::address_space_cast<sycl::access::address_space::generic_space, sycl::access::decorated::no, const sycl::half>(a + col + row * lda), lda);
+
+// RUN: dpct --cuda-include-path="%cuda-path/include" --query-api-mapping=nvcuda::wmma::store_matrix_sync | FileCheck %s -check-prefix=NVCUDA_WMMA_STORE_MATRIX_SYNC
+// NVCUDA_WMMA_STORE_MATRIX_SYNC: CUDA API:
+// NVCUDA_WMMA_STORE_MATRIX_SYNC-NEXT:    nvcuda::wmma::fragment<nvcuda::wmma::accumulator, 16, 16, 16, float> acc_frag;
+// NVCUDA_WMMA_STORE_MATRIX_SYNC-NEXT:    nvcuda::wmma::store_matrix_sync(
+// NVCUDA_WMMA_STORE_MATRIX_SYNC-NEXT:        c + col + row * ldc, acc_frag /* type fragment */, ldc,
+// NVCUDA_WMMA_STORE_MATRIX_SYNC-NEXT:        nvcuda::wmma::mem_col_major /* type memory order */);
+// NVCUDA_WMMA_STORE_MATRIX_SYNC-NEXT:    nvcuda::wmma::store_matrix_sync(
+// NVCUDA_WMMA_STORE_MATRIX_SYNC-NEXT:        c + row + col * ldc, acc_frag /* type fragment */, ldc,
+// NVCUDA_WMMA_STORE_MATRIX_SYNC-NEXT:        nvcuda::wmma::mem_row_major /* type memory order */);
+// NVCUDA_WMMA_STORE_MATRIX_SYNC-NEXT: Is migrated to (with the option --use-experimental-features=matrix):
+// NVCUDA_WMMA_STORE_MATRIX_SYNC-NEXT:    dpct::experimental::matrix::joint_matrix<dpct::experimental::matrix::accumulator, 16, 16, 16, float> acc_frag;
+// NVCUDA_WMMA_STORE_MATRIX_SYNC-NEXT:    sycl::ext::oneapi::experimental::matrix::joint_matrix_store(sycl::ext::oneapi::this_work_item::get_sub_group(), acc_frag.get(), sycl::address_space_cast<sycl::access::address_space::generic_space, sycl::access::decorated::no, float>(c + col + row * ldc), ldc, sycl::ext::oneapi::experimental::matrix::layout::col_major);
+// NVCUDA_WMMA_STORE_MATRIX_SYNC-NEXT:    sycl::ext::oneapi::experimental::matrix::joint_matrix_store(sycl::ext::oneapi::this_work_item::get_sub_group(), acc_frag.get(), sycl::address_space_cast<sycl::access::address_space::generic_space, sycl::access::decorated::no, float>(c + row + col * ldc), ldc, sycl::ext::oneapi::experimental::matrix::layout::row_major);
+
+// RUN: dpct --cuda-include-path="%cuda-path/include" --query-api-mapping=nvcuda::wmma::mma_sync | FileCheck %s -check-prefix=NVCUDA_WMMA_MMA_SYNC
+// NVCUDA_WMMA_MMA_SYNC: CUDA API:
+// NVCUDA_WMMA_MMA_SYNC-NEXT:    nvcuda::wmma::fragment<nvcuda::wmma::matrix_a, 16, 16, 16, half,
+// NVCUDA_WMMA_MMA_SYNC-NEXT:                           nvcuda::wmma::row_major>
+// NVCUDA_WMMA_MMA_SYNC-NEXT:        a_frag;
+// NVCUDA_WMMA_MMA_SYNC-NEXT:    nvcuda::wmma::fragment<nvcuda::wmma::matrix_b, 16, 16, 16, half,
+// NVCUDA_WMMA_MMA_SYNC-NEXT:                           nvcuda::wmma::col_major>
+// NVCUDA_WMMA_MMA_SYNC-NEXT:        b_frag;
+// NVCUDA_WMMA_MMA_SYNC-NEXT:    nvcuda::wmma::fragment<nvcuda::wmma::accumulator, 16, 16, 16, float> acc_frag;
+// NVCUDA_WMMA_MMA_SYNC-NEXT:    nvcuda::wmma::mma_sync(acc_frag /* type fragment */,
+// NVCUDA_WMMA_MMA_SYNC-NEXT:                           a_frag /* type fragment */, b_frag /* type fragment */,
+// NVCUDA_WMMA_MMA_SYNC-NEXT:                           acc_frag /* type fragment */);
+// NVCUDA_WMMA_MMA_SYNC-NEXT: Is migrated to (with the option --use-experimental-features=matrix):
+// NVCUDA_WMMA_MMA_SYNC-NEXT:    dpct::experimental::matrix::joint_matrix<dpct::experimental::matrix::a, 16, 16, 16, sycl::half, dpct::experimental::matrix::row_major>
+// NVCUDA_WMMA_MMA_SYNC-NEXT:        a_frag;
+// NVCUDA_WMMA_MMA_SYNC-NEXT:    dpct::experimental::matrix::joint_matrix<dpct::experimental::matrix::b, 16, 16, 16, sycl::half, dpct::experimental::matrix::col_major>
+// NVCUDA_WMMA_MMA_SYNC-NEXT:        b_frag;
+// NVCUDA_WMMA_MMA_SYNC-NEXT:    dpct::experimental::matrix::joint_matrix<dpct::experimental::matrix::accumulator, 16, 16, 16, float> acc_frag;
+// NVCUDA_WMMA_MMA_SYNC-NEXT:    sycl::ext::oneapi::experimental::matrix::joint_matrix_mad(sycl::ext::oneapi::this_work_item::get_sub_group(), acc_frag.get(), a_frag.get(), b_frag.get(), acc_frag.get());
diff --git a/clang/test/dpct/query_api_mapping/test_all.cu b/clang/test/dpct/query_api_mapping/test_all.cu
@@ -2329,6 +2329,10 @@
 // CHECK-NEXT: normcdfinv
 // CHECK-NEXT: normcdfinvf
 // CHECK-NEXT: normf
+// CHECK-NEXT: nvcuda::wmma::fill_fragment
+// CHECK-NEXT: nvcuda::wmma::load_matrix_sync
+// CHECK-NEXT: nvcuda::wmma::mma_sync
+// CHECK-NEXT: nvcuda::wmma::store_matrix_sync
 // CHECK-NEXT: nvshmem_align
 // CHECK-NEXT: nvshmem_calloc
 // CHECK-NEXT: nvshmem_finalize

Original file line number	Diff line number	Diff line change
`@@ -1070,6 +1070,8 @@ int runDPCT(int argc, const char **argv) {`
`1070`	`1070`	`Experimentals.addValue(ExperimentalFeatures::Exp_LevelZero);`
`1071`	`1071`	`else if (Option.ends_with("non-uniform-groups"))`
`1072`	`1072`	`Experimentals.addValue(ExperimentalFeatures::Exp_NonUniformGroups);`
	`1073`	`+ else if (Option.ends_with("matrix"))`
	`1074`	`+ Experimentals.addValue(ExperimentalFeatures::Exp_Matrix);`
`1073`	`1075`	`} else if (Option == "--no-dry-pattern") {`
`1074`	`1076`	`NoDRYPattern.setValue(true);`
`1075`	`1077`	`}`