Attend to copilot review comments and fix some LIT tests

justinrosner · justinrosner · commit 034180c8bf71 · 2026-02-02T22:14:14.000Z
diff --git a/mlir/lib/Dialect/Rock/Transforms/BlockwiseLoadTileToThreadwise.cpp b/mlir/lib/Dialect/Rock/Transforms/BlockwiseLoadTileToThreadwise.cpp
@@ -176,6 +176,12 @@ class LoweringBlockwiseLoadTileOp final
     Value numPagesPerBatchVal =
         b.createOrFold<arith::ConstantIndexOp>(loc, numPagesPerBatch);
 
+    // Get number of batches from page table shape for bounds checking
+    auto pageTableType = cast<MemRefType>(pageTable.getType());
+    int64_t numBatches = pageTableType.getShape()[0];
+    Value numBatchesVal =
+        b.createOrFold<arith::ConstantIndexOp>(loc, numBatches);
+
     // Only threads with tid < numPagesForTile participate in loading.
     // Each such thread either loads from page table or stores 0 to its LDS
     // slot.
@@ -200,10 +206,10 @@ class LoweringBlockwiseLoadTileOp final
               arith::RemUIOp::create(outerThenBuilder, outerThenLoc,
                                      globalPageIdx, numPagesPerBatchVal);
 
-          // Check that local page index is within bounds
+          // Check that batch index is within bounds.
           Value withinTableBound = arith::CmpIOp::create(
               outerThenBuilder, outerThenLoc, arith::CmpIPredicate::ult,
-              localPageIdx, numPagesPerBatchVal);
+              batchIdx, numBatchesVal);
 
           // Select the pointer value: load from page table if in bounds, else 0
           scf::IfOp ptrIfOp = scf::IfOp::create(
diff --git a/mlir/lib/Dialect/Rock/Transforms/ThreadwiseGemmLowering.cpp b/mlir/lib/Dialect/Rock/Transforms/ThreadwiseGemmLowering.cpp
@@ -885,7 +885,13 @@ LogicalResult ThreadwiseReadIntoRewritePattern::matchAndRewrite(
         Value ldsPageIdx =
             arith::SubIOp::create(b, loc, globalPageIdx, firstPageIdx);
 
-        // Clamp to [0, numPagesForTile-1] to prevent LDS out-of-bounds
+        // Clamp to [0, numPagesForTile-1] to prevent LDS out-of-bounds.
+        // We use signed max/min operations intentionally: if globalPageIdx <
+        // firstPageIdx, the subtraction underflows and produces a bit pattern
+        // that represents a negative value in two's complement. Using signed
+        // comparison correctly detects this underflow and clamps to 0. Unsigned
+        // comparison would treat the underflowed value as a large positive
+        // number, failing to clamp it.
         MemRefType ldsType = cast<MemRefType>(ldsPagePtrs.getType());
         int64_t numPagesForTile = ldsType.getShape()[0];
         Value maxValidIdx =
diff --git a/mlir/lib/Dialect/Rock/Transforms/TransformToMemref.cpp b/mlir/lib/Dialect/Rock/Transforms/TransformToMemref.cpp
@@ -207,7 +207,15 @@ struct TransformRewritePattern : public OpRewritePattern<TransformOp> {
             }
           }
         }
-        // Fall back to the last non-empty group
+
+        // Fall back to the last non-empty group. This is semantically correct
+        // because:
+        // 1. AddDim always creates dimensions of size 1
+        // 2. Size-1 dimensions can be grouped with any source dimension without
+        //    changing reshape semantics (product of dimension sizes is
+        //    preserved)
+        // 3. The subsequent sort ensures contiguity, which is required by
+        //    expand_shape
         if (!found) {
           for (int srcDim = merges.size() - 1; srcDim >= 0; srcDim--) {
             if (!merges[srcDim].empty()) {
diff --git a/mlir/test/Dialect/Rock/gridwise_attention_accel_lowering.mlir b/mlir/test/Dialect/Rock/gridwise_attention_accel_lowering.mlir
@@ -1079,4 +1079,5 @@ module {
     memref.copy %alloc, %arg5 : memref<1344000xf16> to memref<1344000xf16>
     return
   }
-}
+}
+
diff --git a/mlir/test/Dialect/Rock/lowering_global_load_store.mlir b/mlir/test/Dialect/Rock/lowering_global_load_store.mlir
@@ -553,58 +553,54 @@ func.func @load_4bit_vector_boundary_case(%mem: memref<4294967295xi4>) -> vector
 }
 
 // CHECK-LABEL: func.func @load_paged_scalar
-// CHECK-SAME: (%[[mem:.*]]: memref<1x64x8192xf16>, %[[pagePtr:.*]]: i64, %[[offset:.*]]: index)
-func.func @load_paged_scalar(%mem: memref<1x64x8192xf16>, %pagePtr: i64, %offset: index) -> f16 attributes {arch = "amdgcn-amd-amdhsa:gfx942"} {
+// CHECK-SAME: (%[[mem:.*]]: memref<8192xf16>, %[[pagePtr:.*]]: i64, %[[offset:.*]]: index)
+func.func @load_paged_scalar(%mem: memref<8192xf16>, %pagePtr: i64, %offset: index) -> f16 attributes {arch = "amdgcn-amd-amdhsa:gfx942"} {
     %true = arith.constant true
-    // Paged load converts page ptr to llvm.ptr, creates buffer resource, and loads
     // CHECK-DAG: %[[pageSizeBytes:.*]] = llvm.mlir.constant(16384 : i64) : i64
     // CHECK: %[[ptr:.*]] = llvm.inttoptr %[[pagePtr]] : i64 to !llvm.ptr<1>
     // CHECK: %[[rsrc:.*]] = rocdl.make.buffer.rsrc %[[ptr]], %{{.*}}, %[[pageSizeBytes]], %{{.*}} : <1> to <8>
     // CHECK: rocdl.raw.ptr.buffer.load %[[rsrc]]
     %ret = rock.global_load %mem[%offset] if %true paged %pagePtr {pageSize = 8192 : i64}
-        : memref<1x64x8192xf16> -> f16
+        : memref<8192xf16> -> f16
     return %ret : f16
 }
 
 // CHECK-LABEL: func.func @load_paged_vector
-// CHECK-SAME: (%[[mem:.*]]: memref<1x64x8192xf16>, %[[pagePtr:.*]]: i64, %[[offset:.*]]: index)
-func.func @load_paged_vector(%mem: memref<1x64x8192xf16>, %pagePtr: i64, %offset: index) -> vector<2xf16> attributes {arch = "amdgcn-amd-amdhsa:gfx942"} {
+// CHECK-SAME: (%[[mem:.*]]: memref<8192xf16>, %[[pagePtr:.*]]: i64, %[[offset:.*]]: index)
+func.func @load_paged_vector(%mem: memref<8192xf16>, %pagePtr: i64, %offset: index) -> vector<2xf16> attributes {arch = "amdgcn-amd-amdhsa:gfx942"} {
     %true = arith.constant true
-    // Paged vector load converts page ptr to llvm.ptr, creates buffer resource, and loads
     // CHECK-DAG: %[[pageSizeBytes:.*]] = llvm.mlir.constant(16384 : i64) : i64
     // CHECK: %[[ptr:.*]] = llvm.inttoptr %[[pagePtr]] : i64 to !llvm.ptr<1>
     // CHECK: %[[rsrc:.*]] = rocdl.make.buffer.rsrc %[[ptr]], %{{.*}}, %[[pageSizeBytes]], %{{.*}} : <1> to <8>
     // CHECK: rocdl.raw.ptr.buffer.load %[[rsrc]]
     %ret = rock.global_load %mem[%offset] if %true paged %pagePtr {pageSize = 8192 : i64}
-        : memref<1x64x8192xf16> -> vector<2xf16>
+        : memref<8192xf16> -> vector<2xf16>
     return %ret : vector<2xf16>
 }
 
 // CHECK-LABEL: func.func @load_paged_vector_maybe_oob
-// CHECK-SAME: (%[[mem:.*]]: memref<1x64x8192xf16>, %[[pagePtr:.*]]: i64, %[[offset:.*]]: index, %[[valid:.*]]: i1)
-func.func @load_paged_vector_maybe_oob(%mem: memref<1x64x8192xf16>, %pagePtr: i64, %offset: index, %valid: i1) -> vector<2xf16> attributes {arch = "amdgcn-amd-amdhsa:gfx942"} {
-    // Paged load with validity check - scf.if guards the buffer load
+// CHECK-SAME: (%[[mem:.*]]: memref<8192xf16>, %[[pagePtr:.*]]: i64, %[[offset:.*]]: index, %[[valid:.*]]: i1)
+func.func @load_paged_vector_maybe_oob(%mem: memref<8192xf16>, %pagePtr: i64, %offset: index, %valid: i1) -> vector<2xf16> attributes {arch = "amdgcn-amd-amdhsa:gfx942"} {
     // CHECK-DAG: %[[pageSizeBytes:.*]] = llvm.mlir.constant(16384 : i64) : i64
     // CHECK: %[[ptr:.*]] = llvm.inttoptr %[[pagePtr]] : i64 to !llvm.ptr<1>
     // CHECK: %[[rsrc:.*]] = rocdl.make.buffer.rsrc %[[ptr]], %{{.*}}, %[[pageSizeBytes]], %{{.*}} : <1> to <8>
     // CHECK: scf.if %[[valid]]
     // CHECK:   rocdl.raw.ptr.buffer.load %[[rsrc]]
     %ret = rock.global_load %mem[%offset] if %valid paged %pagePtr {pageSize = 8192 : i64}
-        : memref<1x64x8192xf16> -> vector<2xf16>
+        : memref<8192xf16> -> vector<2xf16>
     return %ret : vector<2xf16>
 }
 
 // CHECK-LABEL: func.func @load_paged_vector_large_page
-// CHECK-SAME: (%[[mem:.*]]: memref<1x64x16384xf32>, %[[pagePtr:.*]]: i64, %[[offset:.*]]: index)
-func.func @load_paged_vector_large_page(%mem: memref<1x64x16384xf32>, %pagePtr: i64, %offset: index) -> vector<4xf32> attributes {arch = "amdgcn-amd-amdhsa:gfx942"} {
+// CHECK-SAME: (%[[mem:.*]]: memref<16384xf32>, %[[pagePtr:.*]]: i64, %[[offset:.*]]: index)
+func.func @load_paged_vector_large_page(%mem: memref<16384xf32>, %pagePtr: i64, %offset: index) -> vector<4xf32> attributes {arch = "amdgcn-amd-amdhsa:gfx942"} {
     %true = arith.constant true
-    // Larger page size (16384 elements * 4 bytes = 65536 bytes)
     // CHECK-DAG: %[[pageSizeBytes:.*]] = llvm.mlir.constant(65536 : i64) : i64
     // CHECK: %[[ptr:.*]] = llvm.inttoptr %[[pagePtr]] : i64 to !llvm.ptr<1>
     // CHECK: %[[rsrc:.*]] = rocdl.make.buffer.rsrc %[[ptr]], %{{.*}}, %[[pageSizeBytes]], %{{.*}} : <1> to <8>
     // CHECK: rocdl.raw.ptr.buffer.load %[[rsrc]]
     %ret = rock.global_load %mem[%offset] if %true paged %pagePtr {pageSize = 16384 : i64}
-        : memref<1x64x16384xf32> -> vector<4xf32>
+        : memref<16384xf32> -> vector<4xf32>
     return %ret : vector<4xf32>
 }
 }
diff --git a/mlir/test/Dialect/Rock/toblockwise_attention_accel_lowering.mlir b/mlir/test/Dialect/Rock/toblockwise_attention_accel_lowering.mlir
@@ -208,3 +208,27 @@ func.func @gridwise_attn_schedulev2(%arg0: memref<1x384x64xf32>, %arg1: memref<1
   } : memref<1x64x384xf32>, memref<1x64x384xf32>, memref<1x384x64xf32>, memref<1x384x64xf32>
   return
 }
+
+// -----
+
+// CHECK-LABEL: func.func @paged_attention_disables_direct_to_lds
+// CHECK-NOT: DirectToLDSDefault
+// CHECK: rock.blockwise_load_tile
+// CHECK-SAME: loadType = #rock<GemmLoadTileType Default>
+func.func @paged_attention_disables_direct_to_lds(%arg0: memref<1x64x384xf16>, %arg1: memref<1x64x384xf16>, %arg2: memref<1x384x64xf16>, %arg3: memref<1x384x64xf16>, %pageTable: memref<1x64x1xi64>) attributes {block_size = 64 : i32, features = #rock<GemmFeatures mfma|dot|atomic_add|direct_to_lds_128b>, grid_size = 24 : i32, kernel, mhal.arch = "amdgcn-amd-amdhsa:gfx950:sramecc+:xnack-"} {
+  %0 = rock.transform %arg0 by <affine_map<(d0, d1, d2) -> (d0, d2, d1)> by [<PassThrough ["gemmG"] at [0] -> ["gemmG"] at [0]>, <PassThrough ["gemm0K", "gemm0M"] at [1, 2] -> ["gemm0K", "gemm0M"] at [2, 1]>] bounds = [1, 64, 384] -> [1, 384, 64]> : memref<1x64x384xf16> to memref<1x64x384xf16>
+  %keyAddrs = rock.deref %pageTable : memref<1x64x1xi64> -> memref<1x64x8192xf16>
+  %valueAddrs = rock.deref %pageTable : memref<1x64x1xi64> -> memref<1x64x8192xf16>
+  rock.gridwise_attention_accel(%0, %arg1, %arg2, %keyAddrs, %valueAddrs, %arg3) preSoftmaxOps = {} {
+    blockSize = 64 : i32,
+    gridSize = 24 : i32,
+    params0 = #rock.accel_gemm_params<kpackPerBlock = 32, mPerBlock = 32, nPerBlock = 32, kpack = 1, mPerWave = 32, nPerWave = 32, mnPerXdl = 16, splitKFactor = 1, scheduleVersion = 3, outputSwizzle = 2, wavesPerEU = 0, gridGroupSize = 0, forceUnroll = true>,
+    params1 = #rock.accel_gemm_params<kpackPerBlock = 32, mPerBlock = 32, nPerBlock = 32, kpack = 1, mPerWave = 32, nPerWave = 32, mnPerXdl = 16, splitKFactor = 1, scheduleVersion = 3, outputSwizzle = 2, wavesPerEU = 0, gridGroupSize = 0, forceUnroll = true>,
+    firstGemmIndices = array<i64: 0>,
+    splitKV = 1 : i32,
+    storeMethod = #rock<StoreMethod set>,
+    operand_segment_sizes = array<i32: 1, 1, 1, 0, 0, 0, 1, 1, 1, 0>
+  } : memref<1x64x384xf16>, memref<1x64x384xf16>, memref<1x384x64xf16>, memref<1x64x8192xf16>, memref<1x64x8192xf16>, memref<1x384x64xf16>
+  return
+}
+

Original file line number	Diff line number	Diff line change
`@@ -207,7 +207,15 @@ struct TransformRewritePattern : public OpRewritePattern<TransformOp> {`
`207`	`207`	`}`
`208`	`208`	`}`
`209`	`209`	`}`
`210`		`- // Fall back to the last non-empty group`
	`210`	`+`
	`211`	`+ // Fall back to the last non-empty group. This is semantically correct`
	`212`	`+ // because:`
	`213`	`+ // 1. AddDim always creates dimensions of size 1`
	`214`	`+ // 2. Size-1 dimensions can be grouped with any source dimension without`
	`215`	`+ // changing reshape semantics (product of dimension sizes is`
	`216`	`+ // preserved)`
	`217`	`+ // 3. The subsequent sort ensures contiguity, which is required by`
	`218`	`+ // expand_shape`
`211`	`219`	`if (!found) {`
`212`	`220`	`for (int srcDim = merges.size() - 1; srcDim >= 0; srcDim--) {`
`213`	`221`	`if (!merges[srcDim].empty()) {`
Original file line number	Diff line number	Diff line change
`@@ -1079,4 +1079,5 @@ module {`
`1079`	`1079`	`memref.copy %alloc, %arg5 : memref<1344000xf16> to memref<1344000xf16>`
`1080`	`1080`	`return`
`1081`	`1081`	`}`
`1082`		`-}`
	`1082`	`+}`
	`1083`	`+`