hip - set Chipstar modifications off by default

jeremylt · jeremylt · commit f70b67dec8dc · 2026-04-13T11:09:19.000-06:00
diff --git a/backends/hip-gen/ceed-hip-gen-operator-build.cpp b/backends/hip-gen/ceed-hip-gen-operator-build.cpp
@@ -1507,7 +1507,11 @@ extern "C" int CeedOperatorBuildKernel_Hip_gen(CeedOperator op, bool *is_good_bu
   // Loop over all elements
   code << "\n" << tab << "// Element loop\n";
   code << tab << "__syncthreads();\n";
+  code << tab << "#if CEED_HIP_USE_CHIPSTAR\n";
   code << tab << "const CeedInt elem_loop_bound = (gridDim.x*blockDim.z) * ceil(1.0*num_elem/(gridDim.x*blockDim.z));\n\n";
+  code << tab << "#else\n";
+  code << tab << "const CeedInt elem_loop_bound = num_elem;\n\n";
+  code << tab << "#endif\n";
   code << tab << "for (CeedInt e = blockIdx.x*blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x*blockDim.z) {\n";
   tab.push();
   code << tab << "const CeedInt elem = e % num_elem;\n\n";
@@ -1867,7 +1871,11 @@ static int CeedOperatorBuildKernelAssemblyAtPoints_Hip_gen(CeedOperator op, bool
   // Loop over all elements
   code << "\n" << tab << "// Element loop\n";
   code << tab << "__syncthreads();\n";
+  code << tab << "#if CEED_HIP_USE_CHIPSTAR\n";
   code << tab << "const CeedInt elem_loop_bound = (gridDim.x*blockDim.z) * ceil(1.0*num_elem/(gridDim.x*blockDim.z));\n\n";
+  code << tab << "#else\n";
+  code << tab << "const CeedInt elem_loop_bound = num_elem;\n\n";
+  code << tab << "#endif\n";
   code << tab << "for (CeedInt e = blockIdx.x*blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x*blockDim.z) {\n";
   tab.push();
   code << tab << "const CeedInt elem = e % num_elem;\n\n";
diff --git a/backends/hip/ceed-hip-common.c b/backends/hip/ceed-hip-common.c
@@ -38,6 +38,17 @@ int CeedInit_Hip(Ceed ceed, const char *resource) {
     CeedDebug(ceed, "Using unified memory addressing");
   }
   data->opt_block_size = 256;
+
+  // Set CHIPSTAR modifications off by default
+  {
+#ifdef __HIP_PLATFORM_SPIRV__
+    const char *define = "CEED_HIP_USE_CHIPSTAR=true";
+#else
+    const char *define = "CEED_HIP_USE_CHIPSTAR=false";
+#endif
+
+    CeedCallBackend(CeedAddJitDefine(ceed, define));
+  }
   return CEED_ERROR_SUCCESS;
 }
 
diff --git a/include/ceed/jit-source/hip/hip-shared-basis-nontensor.h b/include/ceed/jit-source/hip/hip-shared-basis-nontensor.h
@@ -35,7 +35,11 @@ extern "C" __launch_bounds__(BASIS_INTERP_BLOCK_SIZE) __global__
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -68,7 +72,11 @@ extern "C" __launch_bounds__(BASIS_INTERP_BLOCK_SIZE) __global__
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -101,7 +109,11 @@ extern "C" __launch_bounds__(BASIS_INTERP_BLOCK_SIZE) __global__
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -137,7 +149,11 @@ extern "C" __launch_bounds__(BASIS_INTERP_BLOCK_SIZE) __global__
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -170,7 +186,11 @@ extern "C" __launch_bounds__(BASIS_INTERP_BLOCK_SIZE) __global__
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -203,7 +223,11 @@ extern "C" __launch_bounds__(BASIS_INTERP_BLOCK_SIZE) __global__
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -232,7 +256,11 @@ extern "C" __launch_bounds__(BASIS_INTERP_BLOCK_SIZE) __global__
 
   CeedScalar r_W[1];
 
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
diff --git a/include/ceed/jit-source/hip/hip-shared-basis-tensor-at-points.h b/include/ceed/jit-source/hip/hip-shared-basis-tensor-at-points.h
@@ -43,7 +43,11 @@ extern "C" __launch_bounds__(BASIS_INTERP_BLOCK_SIZE) __global__
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -105,7 +109,11 @@ extern "C" __launch_bounds__(BASIS_INTERP_BLOCK_SIZE) __global__
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -185,7 +193,11 @@ extern "C" __launch_bounds__(BASIS_INTERP_BLOCK_SIZE) __global__
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -257,7 +269,11 @@ extern "C" __launch_bounds__(BASIS_INTERP_BLOCK_SIZE) __global__
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -319,7 +335,11 @@ extern "C" __launch_bounds__(BASIS_INTERP_BLOCK_SIZE) __global__
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -400,7 +420,11 @@ extern "C" __launch_bounds__(BASIS_INTERP_BLOCK_SIZE) __global__
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
diff --git a/include/ceed/jit-source/hip/hip-shared-basis-tensor.h b/include/ceed/jit-source/hip/hip-shared-basis-tensor.h
@@ -35,7 +35,11 @@ extern "C" __launch_bounds__(BASIS_INTERP_BLOCK_SIZE) __global__
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -78,7 +82,11 @@ extern "C" __launch_bounds__(BASIS_INTERP_BLOCK_SIZE) __global__
   CeedScalar r_U[BASIS_NUM_COMP * (BASIS_DIM > 2 ? BASIS_P_1D : 1)];
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -124,7 +132,11 @@ extern "C" __launch_bounds__(BASIS_INTERP_BLOCK_SIZE) __global__
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -167,7 +179,11 @@ extern "C" __launch_bounds__(BASIS_INTERP_BLOCK_SIZE) __global__
   CeedScalar r_U[BASIS_NUM_COMP * (BASIS_DIM > 2 ? BASIS_Q_1D : 1)];
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -213,7 +229,11 @@ extern "C" __launch_bounds__(BASIS_INTERP_BLOCK_SIZE) __global__
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -257,7 +277,11 @@ extern "C" __launch_bounds__(BASIS_INTERP_BLOCK_SIZE) __global__
   CeedScalar r_U[BASIS_NUM_COMP * (BASIS_DIM > 2 ? BASIS_Q_1D : 1)];
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -308,7 +332,11 @@ extern "C" __launch_bounds__(BASIS_GRAD_BLOCK_SIZE) __global__ void Grad(const C
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -360,7 +388,11 @@ extern "C" __launch_bounds__(BASIS_GRAD_BLOCK_SIZE) __global__
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -413,7 +445,11 @@ extern "C" __launch_bounds__(BASIS_GRAD_BLOCK_SIZE) __global__
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -465,7 +501,11 @@ extern "C" __launch_bounds__(BASIS_GRAD_BLOCK_SIZE) __global__
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -518,7 +558,11 @@ extern "C" __launch_bounds__(BASIS_GRAD_BLOCK_SIZE) __global__
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -570,7 +614,11 @@ extern "C" __launch_bounds__(BASIS_GRAD_BLOCK_SIZE) __global__
   __syncthreads();
 
   // Apply basis element by element
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;
@@ -616,7 +664,11 @@ extern "C" __launch_bounds__(BASIS_WEIGHT_BLOCK_SIZE) __global__
 
   CeedScalar r_W[BASIS_DIM > 2 ? BASIS_Q_1D : 1];
 
+#if CEED_HIP_USE_CHIPSTAR
   const CeedInt elem_loop_bound = (gridDim.x * blockDim.z) * ceil(1.0 * num_elem / (gridDim.x * blockDim.z));
+#else
+  const CeedInt elem_loop_bound = num_elem;
+#endif
 
   for (CeedInt e = blockIdx.x * blockDim.z + threadIdx.z; e < elem_loop_bound; e += gridDim.x * blockDim.z) {
     const CeedInt elem = e % num_elem;