InfiniTensor
diff --git a/‎tests/autograd/CMakeLists.txt‎
Lines changed: 48 additions & 50 deletions b/‎tests/autograd/CMakeLists.txt‎
Lines changed: 48 additions & 50 deletions
diff --git a/‎tests/autograd/test_autograd.cc‎
Lines changed: 23 additions & 29 deletions b/‎tests/autograd/test_autograd.cc‎
Lines changed: 23 additions & 29 deletions
diff --git a/‎tests/common/test_macros.cmake‎
Lines changed: 2 additions & 7 deletions b/‎tests/common/test_macros.cmake‎
Lines changed: 2 additions & 7 deletions
diff --git a/‎tests/common/test_utils.h‎
Lines changed: 48 additions & 12 deletions b/‎tests/common/test_utils.h‎
Lines changed: 48 additions & 12 deletions
@@ -1,56 +1,54 @@
 # ============================================================================
 # Autograd tests
 # ============================================================================
-# 重构版本：使用 infini_train_add_test 宏简化配置
-#
-# 新增测试只需 1 行：
-#   infini_train_add_test(test_name SOURCES test_name.cc LABELS cpu)
+# 重构版本：使用单一 test binary 聚合测试源码，减少 target 膨胀
 # ============================================================================
 
 # -----------------------------------------------------------------------------
-# Elementwise tests
-# -----------------------------------------------------------------------------
-infini_train_add_test(test_autograd_elementwise_forward SOURCES test_autograd_elementwise_forward.cc LABELS cpu)
-infini_train_add_test(test_autograd_elementwise_backward SOURCES test_autograd_elementwise_backward.cc LABELS cpu)
-
-# -----------------------------------------------------------------------------
-# Matmul tests
-# -----------------------------------------------------------------------------
-infini_train_add_test(test_autograd_matmul_forward SOURCES test_autograd_matmul_forward.cc LABELS cpu)
-infini_train_add_test(test_autograd_matmul_backward SOURCES test_autograd_matmul_backward.cc LABELS cpu)
-
-# -----------------------------------------------------------------------------
-# Reduction tests
-# -----------------------------------------------------------------------------
-infini_train_add_test(test_autograd_reduction_forward SOURCES test_autograd_reduction_forward.cc LABELS cpu)
-infini_train_add_test(test_autograd_reduction_backward SOURCES test_autograd_reduction_backward.cc LABELS cpu)
-
-# -----------------------------------------------------------------------------
-# Linear tests
-# -----------------------------------------------------------------------------
-infini_train_add_test(test_autograd_linear_forward SOURCES test_autograd_linear_forward.cc LABELS cpu)
-infini_train_add_test(test_autograd_linear_backward SOURCES test_autograd_linear_backward.cc LABELS cpu)
-
-# -----------------------------------------------------------------------------
-# Softmax tests
-# -----------------------------------------------------------------------------
-infini_train_add_test(test_autograd_softmax_forward SOURCES test_autograd_softmax_forward.cc LABELS cpu)
-infini_train_add_test(test_autograd_softmax_backward SOURCES test_autograd_softmax_backward.cc LABELS cpu)
-
-# -----------------------------------------------------------------------------
-# Transform tests
-# -----------------------------------------------------------------------------
-infini_train_add_test(test_autograd_transform_forward SOURCES test_autograd_transform_forward.cc LABELS cpu)
-infini_train_add_test(test_autograd_transform_backward SOURCES test_autograd_transform_backward.cc LABELS cpu)
-
-# -----------------------------------------------------------------------------
-# Normalization tests
-# -----------------------------------------------------------------------------
-infini_train_add_test(test_autograd_normalization_forward SOURCES test_autograd_normalization_forward.cc LABELS cpu)
-infini_train_add_test(test_autograd_normalization_backward SOURCES test_autograd_normalization_backward.cc LABELS cpu)
-
-# -----------------------------------------------------------------------------
-# Legacy combined tests
-# 注意：使用 gtest_discover_tests，所有 TEST_F 都会被自动发现
-# -----------------------------------------------------------------------------
-infini_train_add_test(test_autograd_legacy SOURCES test_autograd.cc LABELS cpu cuda distributed)
+# Autograd tests (single binary)
+# -----------------------------------------------------------------------------
+set(AUTOGRAD_TEST_DIR "${CMAKE_CURRENT_SOURCE_DIR}")
+set(AUTOGRAD_TEST_SOURCES
+  ${AUTOGRAD_TEST_DIR}/test_autograd_elementwise_forward.cc
+  ${AUTOGRAD_TEST_DIR}/test_autograd_elementwise_backward.cc
+  ${AUTOGRAD_TEST_DIR}/test_autograd_matmul_forward.cc
+  ${AUTOGRAD_TEST_DIR}/test_autograd_matmul_backward.cc
+  ${AUTOGRAD_TEST_DIR}/test_autograd_reduction_forward.cc
+  ${AUTOGRAD_TEST_DIR}/test_autograd_reduction_backward.cc
+  ${AUTOGRAD_TEST_DIR}/test_autograd_linear_forward.cc
+  ${AUTOGRAD_TEST_DIR}/test_autograd_linear_backward.cc
+  ${AUTOGRAD_TEST_DIR}/test_autograd_softmax_forward.cc
+  ${AUTOGRAD_TEST_DIR}/test_autograd_softmax_backward.cc
+  ${AUTOGRAD_TEST_DIR}/test_autograd_transform_forward.cc
+  ${AUTOGRAD_TEST_DIR}/test_autograd_transform_backward.cc
+  ${AUTOGRAD_TEST_DIR}/test_autograd_normalization_forward.cc
+  ${AUTOGRAD_TEST_DIR}/test_autograd_normalization_backward.cc
+  ${AUTOGRAD_TEST_DIR}/test_autograd.cc
+)
+
+add_executable(test_autograd ${AUTOGRAD_TEST_SOURCES})
+target_compile_options(test_autograd PRIVATE -Wno-error)
+link_infini_train_exe(test_autograd)
+target_link_libraries(test_autograd PRIVATE GTest::gtest GTest::gtest_main)
+target_include_directories(test_autograd
+  PRIVATE
+    ${CMAKE_CURRENT_SOURCE_DIR}/../common
+    ${glog_SOURCE_DIR}/src
+)
+
+include(GoogleTest)
+gtest_discover_tests(test_autograd
+  EXTRA_ARGS --gtest_output=xml:%T.xml
+  TEST_FILTER "-AutogradCudaTest.*:AutogradDistributedTest.*"
+  PROPERTIES LABELS "cpu"
+)
+gtest_discover_tests(test_autograd
+  EXTRA_ARGS --gtest_output=xml:%T.xml
+  TEST_FILTER "AutogradCudaTest.*"
+  PROPERTIES LABELS "cuda"
+)
+gtest_discover_tests(test_autograd
+  EXTRA_ARGS --gtest_output=xml:%T.xml
+  TEST_FILTER "AutogradDistributedTest.*"
+  PROPERTIES LABELS "distributed"
+)
@@ -15,6 +15,7 @@
 #include "infini_train/include/autograd/linear.h"
 #include "infini_train/include/autograd/outer.h"
 #include "infini_train/include/autograd/misc.h"
+#include "test_utils.h"
 
 using namespace infini_train;
 
@@ -380,17 +381,16 @@ TEST_F(AutogradForwardTest, NoOpForward) {
 
 #ifdef USE_CUDA
 TEST_F(AutogradCudaTest, AddForwardCUDA) {
+    REQUIRE_CUDA();
     auto a = std::make_shared<Tensor>(std::vector<int64_t>{2, 3}, DataType::kFLOAT32,
                                        Device(Device::DeviceType::kCUDA, 0));
     a->set_requires_grad(true);
-    auto a_data = static_cast<float*>(a->DataPtr());
-    for (int i = 0; i < 6; ++i) a_data[i] = 1.0f;
+    infini_train::test::FillConstantTensor(a, 1.0f);
 
     auto b = std::make_shared<Tensor>(std::vector<int64_t>{2, 3}, DataType::kFLOAT32,
                                        Device(Device::DeviceType::kCUDA, 0));
     b->set_requires_grad(true);
-    auto b_data = static_cast<float*>(b->DataPtr());
-    for (int i = 0; i < 6; ++i) b_data[i] = 2.0f;
+    infini_train::test::FillConstantTensor(b, 2.0f);
 
     auto add_fn = std::make_shared<autograd::Add>();
     auto result = add_fn->Apply({a, b});
@@ -399,17 +399,16 @@ TEST_F(AutogradCudaTest, AddForwardCUDA) {
 }
 
 TEST_F(AutogradCudaTest, MatmulForwardCUDA) {
+    REQUIRE_CUDA();
     auto a = std::make_shared<Tensor>(std::vector<int64_t>{2, 3}, DataType::kFLOAT32,
                                        Device(Device::DeviceType::kCUDA, 0));
     a->set_requires_grad(true);
-    auto a_data = static_cast<float*>(a->DataPtr());
-    for (int i = 0; i < 6; ++i) a_data[i] = 1.0f;
+    infini_train::test::FillConstantTensor(a, 1.0f);
 
     auto b = std::make_shared<Tensor>(std::vector<int64_t>{3, 4}, DataType::kFLOAT32,
                                        Device(Device::DeviceType::kCUDA, 0));
     b->set_requires_grad(true);
-    auto b_data = static_cast<float*>(b->DataPtr());
-    for (int i = 0; i < 12; ++i) b_data[i] = 1.0f;
+    infini_train::test::FillConstantTensor(b, 1.0f);
 
     auto matmul_fn = std::make_shared<autograd::Matmul>();
     auto result = matmul_fn->Apply({a, b});
@@ -418,23 +417,23 @@ TEST_F(AutogradCudaTest, MatmulForwardCUDA) {
 }
 
 TEST_F(AutogradCudaTest, SumForwardCUDA) {
+    REQUIRE_CUDA();
     auto a = std::make_shared<Tensor>(std::vector<int64_t>{2, 3}, DataType::kFLOAT32,
                                        Device(Device::DeviceType::kCUDA, 0));
     a->set_requires_grad(true);
-    auto a_data = static_cast<float*>(a->DataPtr());
-    for (int i = 0; i < 6; ++i) a_data[i] = 1.0f;
+    infini_train::test::FillConstantTensor(a, 1.0f);
 
     auto sum_fn = std::make_shared<autograd::Sum>(1, false);
     auto result = sum_fn->Apply({a});
     EXPECT_EQ(result.size(), 1);
 }
 
 TEST_F(AutogradCudaTest, SoftmaxForwardCUDA) {
+    REQUIRE_CUDA();
     auto a = std::make_shared<Tensor>(std::vector<int64_t>{2, 3}, DataType::kFLOAT32,
                                        Device(Device::DeviceType::kCUDA, 0));
     a->set_requires_grad(true);
-    auto a_data = static_cast<float*>(a->DataPtr());
-    for (int i = 0; i < 6; ++i) a_data[i] = 1.0f;
+    infini_train::test::FillConstantTensor(a, 1.0f);
 
     auto softmax_fn = std::make_shared<autograd::Softmax>(1);
     auto result = softmax_fn->Apply({a});
@@ -443,23 +442,21 @@ TEST_F(AutogradCudaTest, SoftmaxForwardCUDA) {
 }
 
 TEST_F(AutogradCudaTest, LinearForwardCUDA) {
+    REQUIRE_CUDA();
     auto input = std::make_shared<Tensor>(std::vector<int64_t>{2, 3}, DataType::kFLOAT32,
                                           Device(Device::DeviceType::kCUDA, 0));
     input->set_requires_grad(true);
-    auto input_data = static_cast<float*>(input->DataPtr());
-    for (int i = 0; i < 6; ++i) input_data[i] = 1.0f;
+    infini_train::test::FillConstantTensor(input, 1.0f);
 
     auto weight = std::make_shared<Tensor>(std::vector<int64_t>{4, 3}, DataType::kFLOAT32,
                                             Device(Device::DeviceType::kCUDA, 0));
     weight->set_requires_grad(true);
-    auto weight_data = static_cast<float*>(weight->DataPtr());
-    for (int i = 0; i < 12; ++i) weight_data[i] = 1.0f;
+    infini_train::test::FillConstantTensor(weight, 1.0f);
 
     auto bias = std::make_shared<Tensor>(std::vector<int64_t>{4}, DataType::kFLOAT32,
                                           Device(Device::DeviceType::kCUDA, 0));
     bias->set_requires_grad(true);
-    auto bias_data = static_cast<float*>(bias->DataPtr());
-    for (int i = 0; i < 4; ++i) bias_data[i] = 0.0f;
+    infini_train::test::FillConstantTensor(bias, 0.0f);
 
     auto linear_fn = std::make_shared<autograd::Linear>();
     auto result = linear_fn->Apply({input, weight, bias});
@@ -480,10 +477,9 @@ TEST_F(AutogradDistributedTest, AllReduceDistributed) {
     auto a = std::make_shared<Tensor>(std::vector<int64_t>{2, 3}, DataType::kFLOAT32,
                                        Device(Device::DeviceType::kCUDA, 0));
     a->set_requires_grad(true);
-    auto a_data = static_cast<float*>(a->DataPtr());
-    for (int i = 0; i < 6; ++i) a_data[i] = 1.0f;
+    infini_train::test::FillConstantTensor(a, 1.0f);
 
-    EXPECT_TRUE(a->IsCUDA());
+    EXPECT_TRUE(a->GetDevice().IsCUDA());
     EXPECT_TRUE(a->requires_grad());
 }
 
@@ -494,10 +490,9 @@ TEST_F(AutogradDistributedTest, AllGatherDistributed) {
     auto a = std::make_shared<Tensor>(std::vector<int64_t>{4, 4}, DataType::kFLOAT32,
                                        Device(Device::DeviceType::kCUDA, 0));
     a->set_requires_grad(true);
-    auto a_data = static_cast<float*>(a->DataPtr());
-    for (int i = 0; i < 16; ++i) a_data[i] = 1.0f;
+    infini_train::test::FillConstantTensor(a, 1.0f);
 
-    EXPECT_TRUE(a->IsCUDA());
+    EXPECT_TRUE(a->GetDevice().IsCUDA());
     EXPECT_EQ(a->Dims(), (std::vector<int64_t>{4, 4}));
 }
 
@@ -508,10 +503,9 @@ TEST_F(AutogradDistributedTest, ReduceScatterDistributed) {
     auto a = std::make_shared<Tensor>(std::vector<int64_t>{2, 8}, DataType::kFLOAT32,
                                        Device(Device::DeviceType::kCUDA, 0));
     a->set_requires_grad(true);
-    auto a_data = static_cast<float*>(a->DataPtr());
-    for (int i = 0; i < 16; ++i) a_data[i] = 1.0f;
+    infini_train::test::FillConstantTensor(a, 1.0f);
 
-    EXPECT_TRUE(a->IsCUDA());
+    EXPECT_TRUE(a->GetDevice().IsCUDA());
     EXPECT_EQ(a->Dims(), (std::vector<int64_t>{2, 8}));
 }
 
@@ -530,7 +524,7 @@ TEST_F(AutogradDistributedTest, DistributedMatmul) {
     auto result = matmul_fn->Apply({a, b});
 
     EXPECT_EQ(result.size(), 1);
-    EXPECT_TRUE(result[0]->IsCUDA());
+    EXPECT_TRUE(result[0]->GetDevice().IsCUDA());
 }
 
 TEST_F(AutogradDistributedTest, DistributedLinear) {
@@ -552,6 +546,6 @@ TEST_F(AutogradDistributedTest, DistributedLinear) {
 
     EXPECT_EQ(result.size(), 1);
     EXPECT_EQ(result[0]->Dims(), (std::vector<int64_t>{2, 4}));
-    EXPECT_TRUE(result[0]->IsCUDA());
+    EXPECT_TRUE(result[0]->GetDevice().IsCUDA());
 }
 #endif // USE_NCCL
@@ -74,13 +74,8 @@ macro(infini_train_add_test)
     ${glog_SOURCE_DIR}/src
   )
 
-  # 5. 链接项目库（whole-archive 方式解决静态库符号依赖）
-  target_link_libraries(${ARG_TEST_NAME} PRIVATE
-    "-Wl,--whole-archive"
-      infini_train
-      infini_train_cpu_kernels
-    "-Wl,--no-whole-archive"
-  )
+  # 5. 链接项目库（复用框架链接策略，包含 CUDA/静态库依赖处理）
+  link_infini_train_exe(${ARG_TEST_NAME})
 
   # 6. 使用 gtest_discover_tests 自动发现测试用例
   #    这会自动为每个 TEST_F() 创建一个 ctest 测试
 
@@ -55,6 +55,52 @@ inline bool HasDistributedSupport() {
     return HasCudaRuntime() && HasNCCL() && GetCudaDeviceCount() >= 2;
 }
 
+inline void FillSequentialTensor(const std::shared_ptr<Tensor>& tensor, float start = 0.0f) {
+    size_t size = 1;
+    for (auto dim : tensor->Dims()) {
+        size *= static_cast<size_t>(dim);
+    }
+
+    if (tensor->GetDevice().IsCUDA()) {
+        auto cpu_tensor = std::make_shared<Tensor>(tensor->Dims(), tensor->Dtype(),
+                                                   Device(Device::DeviceType::kCPU, 0));
+        auto* cpu_data = static_cast<float*>(cpu_tensor->DataPtr());
+        for (size_t i = 0; i < size; ++i) {
+            cpu_data[i] = start + static_cast<float>(i);
+        }
+        tensor->CopyFrom(cpu_tensor);
+        return;
+    }
+
+    auto* data = static_cast<float*>(tensor->DataPtr());
+    for (size_t i = 0; i < size; ++i) {
+        data[i] = start + static_cast<float>(i);
+    }
+}
+
+inline void FillConstantTensor(const std::shared_ptr<Tensor>& tensor, float value) {
+    size_t size = 1;
+    for (auto dim : tensor->Dims()) {
+        size *= static_cast<size_t>(dim);
+    }
+
+    if (tensor->GetDevice().IsCUDA()) {
+        auto cpu_tensor = std::make_shared<Tensor>(tensor->Dims(), tensor->Dtype(),
+                                                   Device(Device::DeviceType::kCPU, 0));
+        auto* cpu_data = static_cast<float*>(cpu_tensor->DataPtr());
+        for (size_t i = 0; i < size; ++i) {
+            cpu_data[i] = value;
+        }
+        tensor->CopyFrom(cpu_tensor);
+        return;
+    }
+
+    auto* data = static_cast<float*>(tensor->DataPtr());
+    for (size_t i = 0; i < size; ++i) {
+        data[i] = value;
+    }
+}
+
 #define REQUIRE_CUDA()                                                                                                  \
     do {                                                                                                                \
         if (!infini_train::test::HasCudaRuntime()) {                                                                    \
@@ -106,12 +152,7 @@ class TensorTestBase : public InfiniTrainTest {
     }
 
     void fillTensor(std::shared_ptr<Tensor> tensor, float value) {
-        auto data = static_cast<float*>(tensor->DataPtr());
-        size_t size = 1;
-        for (auto dim : tensor->Dims()) size *= dim;
-        for (size_t i = 0; i < size; ++i) {
-            data[i] = value + static_cast<float>(i);
-        }
+        FillSequentialTensor(tensor, value);
     }
 };
 
@@ -140,12 +181,7 @@ class AutogradTestBase : public InfiniTrainTest {
         auto tensor = std::make_shared<Tensor>(shape, DataType::kFLOAT32,
                                                Device(device, device_id));
         tensor->set_requires_grad(true);
-        auto data = static_cast<float*>(tensor->DataPtr());
-        size_t size = 1;
-        for (auto dim : shape) size *= dim;
-        for (size_t i = 0; i < size; ++i) {
-            data[i] = value + static_cast<float>(i);
-        }
+        FillSequentialTensor(tensor, value);
         return tensor;
     }
 };