Use nsys and rocprofv2 for profiling

OliverRietmann · OliverRietmann · commit 2c730d3a09f9 · 2026-03-25T19:13:36.000+01:00
diff --git a/.github/scripts/csv_to_md.py b/.github/scripts/csv_to_md.py
@@ -35,5 +35,5 @@ def get_emoji(d, stdev):
   emoji = get_emoji(diff, stdev)
   table.append([name, int(mean), f'{stdev:.2f}', int(diff), f'{impact:.2f}', emoji])
 
-header = ['name', 'mean (ms)', 'stdev \u03C3', 'diff \u0394', '\u0394 / \u03C3', '']
+header = ['name', 'mean (\u03BCs)', 'stdev \u03C3', 'diff \u0394', '\u0394 / \u03C3', '']
 print(tab.tabulate(table, header, tablefmt="github"))
diff --git a/.github/scripts/profiler_amd.py b/.github/scripts/profiler_amd.py
@@ -0,0 +1,34 @@
+import argparse
+import csv
+import statistics
+
+parser = argparse.ArgumentParser()
+parser.add_argument('-r', '--runs', type=int, required=True, help='Number of runs')
+parser.add_argument('-i', '--input', required=True, help='Input CSV file')
+parser.add_argument('-o', '--output', required=True, help='Output CSV file')
+args = parser.parse_args()
+
+time_dict = dict({})
+with open(args.input) as csv_file:
+  csv_reader = csv.reader(csv_file)
+  next(csv_reader)
+  for row in csv_reader:
+    full_name = row[13]
+    time = (int(row[15]) - int(row[14])) / 1000.0
+    if len(full_name) > 5 and full_name[:5] == "krnl_":
+      name = full_name[5:-3]
+      if name in time_dict.keys():
+        time_dict[name].append(time)
+      else:
+        time_dict[name] = [time]
+
+data = [["name", "time", "stdev"]]
+for name, time_list in time_dict.items():
+  count = len(time_list) / args.runs
+  mean = statistics.mean(time_list) * count
+  stdev = 0 if args.runs == 1 else statistics.stdev(time_list) * count
+  data.append([name, mean, stdev])
+
+with open(args.output, 'w') as csv_file:
+  csv_writer = csv.writer(csv_file)
+  csv_writer.writerows(data)
diff --git a/.github/scripts/profiler_nvidia.py b/.github/scripts/profiler_nvidia.py
@@ -0,0 +1,38 @@
+import argparse
+import csv
+import statistics
+
+parser = argparse.ArgumentParser()
+parser.add_argument('-r', '--runs', type=int, required=True, help='Number of runs')
+parser.add_argument('-i', '--input', required=True, help='Input CSV file')
+parser.add_argument('-o', '--output', required=True, help='Output CSV file')
+args = parser.parse_args()
+
+ntsi_list = []
+with open(args.input) as csv_file:
+  csv_reader = csv.reader(csv_file)
+  next(csv_reader)
+  next(csv_reader)
+  next(csv_reader)
+  for row in csv_reader:
+    if row:
+      full_name = row[8]
+      instances = int(row[2])
+      time = int(row[1]) / 1000.0
+      sigma = float(row[7]) / 1000.0
+      if len(full_name) > 5 and full_name[:5] == "krnl_":
+        name = full_name[5:]
+        ntsi_list.append([name, time, sigma, instances])
+
+ntsi_list.sort(key = lambda row: row[0])
+
+data = [["name", "time", "stdev"]]
+for name, time, sigma, instances in ntsi_list:
+  count = instances / args.runs
+  mean = time * count
+  stdev = sigma * count
+  data.append([name, mean, stdev])
+
+with open(args.output, 'w') as csv_file:
+  csv_writer = csv.writer(csv_file)
+  csv_writer.writerows(data)
diff --git a/.github/workflows/standalone-benchmark.yml b/.github/workflows/standalone-benchmark.yml
@@ -17,23 +17,36 @@ jobs:
         name: [nvidia-h100, nvidia-l40s, amd-mi300x, amd-w7900]
         include:
           - name: nvidia-h100
+            vendor: nvidia
             runner: cern-nextgen-h100
             cmake_args: -DENABLE_CUDA=1 -DENABLE_HIP=0 -DCUDA_COMPUTETARGET=90
+            profiler: nsys profile -o nvidia-h100
+            profiler_post: nsys stats --report cuda_gpu_kern_sum --force-export=true --format csv nvidia-h100.nsys-rep >
           - name: nvidia-l40s
+            vendor: nvidia
             runner: cern-nextgen-l40s
             cmake_args: -DENABLE_CUDA=1 -DENABLE_HIP=0 -DCUDA_COMPUTETARGET=89
+            profiler: nsys profile -o nvidia-l40s
+            profiler_post: nsys stats --report cuda_gpu_kern_sum --force-export=true --format csv nvidia-l40s.nsys-rep >
           - name: amd-mi300x
+            vendor: amd
             runner: cern-nextgen-mi300x
             cmake_args: -DENABLE_CUDA=0 -DENABLE_HIP=1 -DHIP_AMDGPUTARGET=gfx942
+            profiler: rocprofv2 --basenames --output-directory /root --output-file-name amd-mi300x
+            profiler_post: touch
           - name: amd-w7900
+            vendor: amd
             runner: cern-nextgen-w7900
             cmake_args: -DENABLE_CUDA=0 -DENABLE_HIP=1 -DHIP_AMDGPUTARGET=gfx1100
+            profiler: rocprofv2 --basenames --output-directory /root --output-file-name amd-w7900
+            profiler_post: touch
     env:
       WORK_DIR: /cvmfs/alice.cern.ch
       ALIBUILD_ARCH_PREFIX: el9-x86_64/Packages
       MODULEPATH: /cvmfs/alice.cern.ch/etc/toolchain/modulefiles/el9-x86_64:/cvmfs/alice.cern.ch/el9-x86_64/Modules/modulefiles
       STANDALONE_DIR: /root/standalone
-      BENCHMARK_CSV: /root/${{ matrix.name }}.csv
+      BENCHMARK_CSV: ${{ matrix.name }}.csv
+      PROFILER_CSV: results_${{ matrix.name }}.csv
       LD_LIBRARY_PATH: /usr/local/cuda-13.0/compat
 
     name: ${{ matrix.name }}
@@ -44,11 +57,18 @@ jobs:
       - name: Download Files
         run: |
           mkdir -p ${STANDALONE_DIR}
+          
+          if [[ "${{ matrix.vendor }}" == "nvidia" ]]; then
+            curl -fL --retry 3 -o ${STANDALONE_DIR}/nsys.rpm https://developer.nvidia.com/downloads/assets/tools/secure/nsight-systems/2026_2/NsightSystems-linux-cli-public-2026.2.1.210-3763964.rpm
+            dnf install -y ${STANDALONE_DIR}/nsys.rpm
+            rm -f ${STANDALONE_DIR}/nsys.rpm
+          fi
 
           curl -fL --retry 3 -o ${STANDALONE_DIR}/o2-simple-GPU.out https://cernbox.cern.ch/remote.php/dav/public-files/SfYXgQOHFga2w75/o2-simple-GPU.out
 
           mkdir -p ${STANDALONE_DIR}/baseline
-          curl -fL --retry 3 -o ${STANDALONE_DIR}/baseline/${{ matrix.name }}.csv https://cernbox.cern.ch/remote.php/dav/public-files/SfYXgQOHFga2w75/baseline/${{ matrix.name }}.csv
+          curl -fL --retry 3 -o ${STANDALONE_DIR}/baseline/${PROFILER_CSV} https://cernbox.cern.ch/remote.php/dav/public-files/SfYXgQOHFga2w75/baseline/${PROFILER_CSV}
+          curl -fL --retry 3 -o ${STANDALONE_DIR}/baseline/${BENCHMARK_CSV} https://cernbox.cern.ch/remote.php/dav/public-files/SfYXgQOHFga2w75/baseline/${BENCHMARK_CSV}
 
           mkdir -p ${STANDALONE_DIR}/events
           curl -fL --retry 3 -o ${STANDALONE_DIR}/events/o2-simple.tar.xz https://cernbox.cern.ch/remote.php/dav/public-files/SfYXgQOHFga2w75/events/o2-simple.tar.xz
@@ -87,19 +107,23 @@ jobs:
           source /etc/profile.d/modules.sh
           module load ninja/fortran-v1.11.1.g9-15 Vc/1.4.5-10 boost/v1.83.0-alice2-57 fmt/11.1.2-14 CMake/v3.31.6-10 ms_gsl/4.2.1-3 Clang/v20.1.7-9 TBB/v2022.3.0-3 ROOT/v6-36-04-alice9-15 ONNXRuntime/v1.22.0-71 GLFW/3.3.2-25
           cd ${STANDALONE_DIR}
-          ${STANDALONE_DIR}/ca -e 50kHz -g --memSize 15000000000 --sync --runs 12 --debug 1 --PROCtimingCSV ${BENCHMARK_CSV}
+          ${{ matrix.profiler }} ${STANDALONE_DIR}/ca -e 50kHz -g --memSize 15000000000 --sync --debug 1 --runs 12 --runsInit 2 --PROCresetTimers 1 --PROCtimingCSV /root/${BENCHMARK_CSV}
+          ${{ matrix.profiler_post }} /root/${PROFILER_CSV}
           rm -rf ${STANDALONE_DIR}/events/50kHz ${STANDALONE_DIR}/build
 
       - name: Display table on GitHub web
         run: |
           source /etc/profile.d/modules.sh
           module load ninja/fortran-v1.11.1.g9-15 Vc/1.4.5-10 boost/v1.83.0-alice2-57 fmt/11.1.2-14 CMake/v3.31.6-10 ms_gsl/4.2.1-3 Clang/v20.1.7-9 TBB/v2022.3.0-3 ROOT/v6-36-04-alice9-15 ONNXRuntime/v1.22.0-71 GLFW/3.3.2-25
-          python3 ${GITHUB_WORKSPACE}/.github/scripts/merge_runs.py --discard 2 --input ${BENCHMARK_CSV} --output ${BENCHMARK_CSV}
-          python3 ${GITHUB_WORKSPACE}/.github/scripts/csv_to_md.py --baseline ${STANDALONE_DIR}/baseline/${{ matrix.name }}.csv --current ${BENCHMARK_CSV} >> ${GITHUB_STEP_SUMMARY}
+          python3 ${GITHUB_WORKSPACE}/.github/scripts/profiler_${{ matrix.vendor }}.py --runs 12 --input /root/${PROFILER_CSV} --output /root/${PROFILER_CSV}
+          python3 ${GITHUB_WORKSPACE}/.github/scripts/merge_runs.py --discard 2 --input /root/${BENCHMARK_CSV} --output /root/${BENCHMARK_CSV}
+          python3 ${GITHUB_WORKSPACE}/.github/scripts/csv_to_md.py --baseline ${STANDALONE_DIR}/baseline/${PROFILER_CSV} --current /root/${PROFILER_CSV} >> ${GITHUB_STEP_SUMMARY}
+          echo -e "\n\n" >> ${GITHUB_STEP_SUMMARY}
+          python3 ${GITHUB_WORKSPACE}/.github/scripts/csv_to_md.py --baseline ${STANDALONE_DIR}/baseline/${BENCHMARK_CSV} --current /root/${BENCHMARK_CSV} >> ${GITHUB_STEP_SUMMARY}
           rm -rf ${STANDALONE_DIR}/baseline
 
       - name: Upload Artifact
         uses: actions/upload-artifact@v6
         with:
           name: ${{ matrix.name }}-artifact
-          path: /root/${{ matrix.name }}.csv
+          path: "/root/*.csv"