[Release 2.10] Cherry-picks (#4155)

NicolasHug · pearu · web-flow · commit 5047768f2447 · 2025-12-12T11:33:58.000Z
Co-authored-by: Pearu Peterson &lt;pearu.peterson@gmail.com&gt;
diff --git a/.github/scripts/unittest-linux/run_test.sh b/.github/scripts/unittest-linux/run_test.sh
@@ -27,6 +27,7 @@ fi
     export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MOD_unidecode=true
     export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MOD_inflect=true
     export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MOD_pytorch_lightning=true
+    export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MULTIGPU_CUDA=true
     cd test
     pytest torchaudio_unittest -k "not torchscript and not fairseq and not demucs ${PYTEST_K_EXTRA}" 
 )
diff --git a/.github/workflows/unittest-linux-cpu.yml b/.github/workflows/unittest-linux-cpu.yml
@@ -92,5 +92,7 @@ jobs:
         export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_SOX_DECODER=true
         export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_SOX_ENCODER=true
         export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_FFMPEG=true
+        export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MULTIGPU_CUDA=true
+
         pytest test/torchaudio_unittest -k "not torchscript and not fairseq and not demucs" -x
         echo "::endgroup::"
diff --git a/.github/workflows/unittest-linux-gpu.yml b/.github/workflows/unittest-linux-gpu.yml
@@ -44,6 +44,8 @@ jobs:
         export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_SOX_ENCODER=true
         export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_FFMPEG=true
         export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MOD_demucs=true
+        export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MULTIGPU_CUDA=true
+
         export CUBLAS_WORKSPACE_CONFIG=:16:8
 
         # Set UPLOAD_CHANNEL
diff --git a/.github/workflows/unittest-macos-cpu.yml b/.github/workflows/unittest-macos-cpu.yml
@@ -89,6 +89,7 @@ jobs:
         export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MOD_unidecode=true
         export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MOD_inflect=true
         export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MOD_pytorch_lightning=true
+        export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MULTIGPU_CUDA=true
 
         pytest test/torchaudio_unittest -k "not torchscript and not fairseq and not demucs and not librosa" -x
         echo "::endgroup::"
diff --git a/.github/workflows/unittest-windows-cpu.yml b/.github/workflows/unittest-windows-cpu.yml
@@ -54,6 +54,7 @@ jobs:
         export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MOD_inflect=true
         export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MOD_pytorch_lightning=true
         export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MOD_sentencepiece=true
+        export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MULTIGPU_CUDA=true
 
         .github/scripts/unittest-windows/setup_env.sh
         .github/scripts/unittest-windows/install.sh
diff --git a/.github/workflows/unittest-windows-gpu.yml b/.github/workflows/unittest-windows-gpu.yml
@@ -55,6 +55,7 @@ jobs:
         export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MOD_inflect=true
         export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MOD_pytorch_lightning=true
         export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MOD_sentencepiece=true
+        export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MULTIGPU_CUDA=true
 
         .github/scripts/unittest-windows/setup_env.sh
         .github/scripts/unittest-windows/install.sh
diff --git a/src/libtorchaudio/forced_align/gpu/compute.cu b/src/libtorchaudio/forced_align/gpu/compute.cu
@@ -122,6 +122,7 @@ void forced_align_impl(
     const int64_t blank,
     Tensor& paths) {
   auto device_index = logProbs.get_device_index();
+  const torch::stable::accelerator::DeviceGuard device_guard(device_index);
   auto defaultStream = libtorchaudio::cuda::getCurrentCUDAStream(device_index);
   auto cpuDataTranferStream = libtorchaudio::cuda::getStreamFromPool(false, device_index);
   const scalar_t kNegInfinity = -std::numeric_limits<scalar_t>::infinity();
diff --git a/src/libtorchaudio/lfilter.cpp b/src/libtorchaudio/lfilter.cpp
@@ -24,12 +24,10 @@ void host_lfilter_core_loop(
   int64_t n_samples_input = input_signal_windows.size(2);
   int64_t n_samples_output = padded_output_waveform.size(2);
   int64_t n_order = a_coeff_flipped.size(1);
-  scalar_t* output_data =
-      reinterpret_cast<scalar_t*>(padded_output_waveform.data_ptr());
-  const scalar_t* input_data =
-      reinterpret_cast<scalar_t*>(input_signal_windows.data_ptr());
+  scalar_t* output_data = padded_output_waveform.mutable_data_ptr<scalar_t>();
+  const scalar_t* input_data = input_signal_windows.const_data_ptr<scalar_t>();
   const scalar_t* a_coeff_flipped_data =
-      reinterpret_cast<scalar_t*>(a_coeff_flipped.data_ptr());
+      a_coeff_flipped.const_data_ptr<scalar_t>();
 
   torch::stable::parallel_for(
       0, n_channel * n_batch, 1, [&](int64_t begin, int64_t end) {
diff --git a/src/libtorchaudio/rnnt/cpu/compute.cpp b/src/libtorchaudio/rnnt/cpu/compute.cpp
@@ -1,4 +1,6 @@
 #include <libtorchaudio/rnnt/cpu/cpu_transducer.h>
+#include <libtorchaudio/utils.h>
+
 #include <torch/csrc/stable/library.h>
 #include <torch/csrc/stable/ops.h>
 #include <torch/csrc/stable/tensor.h>
@@ -73,15 +75,11 @@ std::tuple<Tensor, Tensor> compute(
   STD_TORCH_CHECK(
       blank >= 0 && blank < logits.size(-1),
       "blank must be within [0, logits.shape[-1])");
-
-  auto max_ivalue = [](const Tensor& t) {
-    return reinterpret_cast<int32_t*>(torch::stable::amax(t, {}).data_ptr())[0];
-  };
-
   STD_TORCH_CHECK(
-      logits.size(1) == max_ivalue(logit_lengths), "input length mismatch");
+      logits.size(1) == torchaudio::util::max<int64_t>(logit_lengths),
+      "input length mismatch");
   STD_TORCH_CHECK(
-      logits.size(2) == max_ivalue(target_lengths) + 1,
+      logits.size(2) == torchaudio::util::max<int64_t>(target_lengths) + 1,
       "output length mismatch");
   STD_TORCH_CHECK(
       targets.size(1) + 1 == logits.size(2), "target length mismatch");
@@ -110,14 +108,12 @@ std::tuple<Tensor, Tensor> compute(
       {DtypeWorkspace<float>::ComputeSizeFromOptions(options)},
       ScalarType::Float);
 
-  // TODO: use t.mutable_data_ptr<..>() instead of reinterpret_cast
-  // when stable ABI Tensor supports mutable_data_ptr templates.
   Workspace<float> workspace(
       /*options=*/options,
       /*dtype_data=*/
-      reinterpret_cast<float*>(float_workspace.mutable_data_ptr()),
+      float_workspace.mutable_data_ptr<float>(),
       /*dtype_size=*/float_workspace.numel(),
-      /*int_data=*/reinterpret_cast<int*>(int_workspace.mutable_data_ptr()),
+      /*int_data=*/int_workspace.mutable_data_ptr<int>(),
       /*int_size=*/int_workspace.numel());
 
   THO_DISPATCH_V2(
@@ -126,12 +122,12 @@ std::tuple<Tensor, Tensor> compute(
       AT_WRAP([&] {
         (Compute</*DTYPE=*/scalar_t, /*CAST_DTYPE=*/float>(
             /*workspace=*/workspace,
-            /*logits=*/reinterpret_cast<scalar_t*>(logits.data_ptr()),
-            /*targets=*/reinterpret_cast<int*>(targets.data_ptr()),
-            /*srcLengths=*/reinterpret_cast<int*>(logit_lengths.data_ptr()),
-            /*tgtLengths=*/reinterpret_cast<int*>(target_lengths.data_ptr()),
-            /*costs=*/reinterpret_cast<scalar_t*>(costs.data_ptr()),
-            /*gradients=*/reinterpret_cast<scalar_t*>(gradients.data_ptr())));
+            /*logits=*/logits.const_data_ptr<scalar_t>(),
+            /*targets=*/targets.const_data_ptr<int>(),
+            /*srcLengths=*/logit_lengths.const_data_ptr<int>(),
+            /*tgtLengths=*/target_lengths.const_data_ptr<int>(),
+            /*costs=*/costs.mutable_data_ptr<scalar_t>(),
+            /*gradients=*/gradients.mutable_data_ptr<scalar_t>()));
       }),
       ScalarType::Float,
       ScalarType::Half);
diff --git a/src/libtorchaudio/rnnt/gpu/compute.cu b/src/libtorchaudio/rnnt/gpu/compute.cu
@@ -106,9 +106,9 @@ std::tuple<Tensor, Tensor> compute(
 
   Workspace<float> workspace(
       /*options=*/options,
-      /*dtype_data=*/reinterpret_cast<float*>(float_workspace.data_ptr()),
+      /*dtype_data=*/float_workspace.mutable_data_ptr<float>(),
       /*dtype_size=*/float_workspace.numel(),
-      /*int_data=*/reinterpret_cast<int*>(int_workspace.data_ptr()),
+      /*int_data=*/int_workspace.mutable_data_ptr<int>(),
       /*int_size=*/int_workspace.numel());
 
   THO_DISPATCH_V2(
@@ -117,12 +117,12 @@ std::tuple<Tensor, Tensor> compute(
       AT_WRAP([&] {
         (Compute</*DTYPE=*/scalar_t, /*CAST_DTYPE=*/float>(
             /*workspace=*/workspace,
-            /*logits=*/reinterpret_cast<scalar_t*>(logits.data_ptr()),
-            /*targets=*/reinterpret_cast<int*>(targets.data_ptr()),
-            /*srcLengths=*/reinterpret_cast<int*>(logit_lengths.data_ptr()),
-            /*tgtLengths=*/reinterpret_cast<int*>(target_lengths.data_ptr()),
-            /*costs=*/reinterpret_cast<scalar_t*>(costs.data_ptr()),
-            /*gradients=*/reinterpret_cast<scalar_t*>(gradients.data_ptr())));
+            /*logits=*/logits.const_data_ptr<scalar_t>(),
+            /*targets=*/targets.const_data_ptr<int>(),
+            /*srcLengths=*/logit_lengths.const_data_ptr<int>(),
+            /*tgtLengths=*/target_lengths.const_data_ptr<int>(),
+            /*costs=*/costs.mutable_data_ptr<scalar_t>(),
+            /*gradients=*/gradients.mutable_data_ptr<scalar_t>()));
       }),
       ScalarType::Float,
       ScalarType::Half);
diff --git a/test/torchaudio_unittest/common_utils/__init__.py b/test/torchaudio_unittest/common_utils/__init__.py
@@ -18,6 +18,7 @@
     skipIfNoQengine,
     skipIfPy310,
     skipIfRocm,
+    skipIfSingleCuda,
     TempDirMixin,
     TestBaseMixin,
     TorchaudioTestCase,
@@ -65,6 +66,7 @@ def inject_request(self, request):
     "skipIfNoFFmpeg",
     "skipIfNoHWAccel",
     "skipIfPy310",
+    "skipIfSingleCuda",
     "disabledInCI",
     "get_wav_data",
     "normalize_wav",
diff --git a/test/torchaudio_unittest/common_utils/case_utils.py b/test/torchaudio_unittest/common_utils/case_utils.py
@@ -249,6 +249,15 @@ def skipIfNoModule(module, display_name=None):
     reason="Tests are failing on CI consistently. Disabled while investigating.",
     key="TEMPORARY_DISABLED",
 )
+skipIfSingleCuda = _skipIf(
+    not (torch.cuda.is_available() and torch.cuda.device_count() > 1),
+    reason=(
+        "CUDA is not available."
+        if not torch.cuda.is_available()
+        else f"Not a multi-GPU platform (device count is {torch.cuda.device_count()})."
+    ),
+    key="NO_MULTIGPU_CUDA",
+)
 
 
 def skipIfNoHWAccel(name):
diff --git a/test/torchaudio_unittest/functional/functional_cuda_test.py b/test/torchaudio_unittest/functional/functional_cuda_test.py
@@ -1,7 +1,7 @@
 import unittest
 
 import torch
-from torchaudio_unittest.common_utils import PytorchTestCase, skipIfNoCuda
+from torchaudio_unittest.common_utils import PytorchTestCase, skipIfNoCuda, skipIfSingleCuda
 
 from .functional_impl import Functional, FunctionalCUDAOnly
 
@@ -28,6 +28,12 @@ class TestFunctionalCUDAOnlyFloat32(FunctionalCUDAOnly, PytorchTestCase):
     device = torch.device("cuda")
 
 
+@skipIfSingleCuda
+class TestFunctionalMultiGPUCUDAOnlyFloat32(FunctionalCUDAOnly, PytorchTestCase):
+    dtype = torch.float32
+    device = torch.device("cuda:1")
+
+
 @skipIfNoCuda
 class TestFunctionalCUDAOnlyFloat64(FunctionalCUDAOnly, PytorchTestCase):
     dtype = torch.float64

Original file line number	Diff line number	Diff line change
`@@ -27,6 +27,7 @@ fi`
`27`	`27`	`export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MOD_unidecode=true`
`28`	`28`	`export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MOD_inflect=true`
`29`	`29`	`export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MOD_pytorch_lightning=true`
	`30`	`+ export TORCHAUDIO_TEST_ALLOW_SKIP_IF_NO_MULTIGPU_CUDA=true`
`30`	`31`	`cd test`
`31`	`32`	`pytest torchaudio_unittest -k "not torchscript and not fairseq and not demucs ${PYTEST_K_EXTRA}"`
`32`	`33`	`)`