Recover CINN irrelevant code.

YuhanXu · YuhanXu · commit e9fd1a4ec321 · 2026-03-31T11:58:37.000Z
diff --git a/backends/metax_gpu/build.sh b/backends/metax_gpu/build.sh
@@ -18,13 +18,12 @@
 set -e
 
 # install requirement.txt
-# pip install -r requirement.txt -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
+pip install -r requirement.txt -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
 # uninstall paddle
-# pip  uninstall paddlepaddle -y
+pip  uninstall paddlepaddle -y
 
-
-# python -m pip install --pre paddlepaddle -i https://www.paddlepaddle.org.cn/packages/nightly/cpu/
+python -m pip install --pre paddlepaddle -i https://www.paddlepaddle.org.cn/packages/nightly/cpu/
 
 
 # apply patch
diff --git a/backends/metax_gpu/change_patch.sh b/backends/metax_gpu/change_patch.sh
@@ -24,6 +24,6 @@ cp -r patch/eigen3/ ../../Paddle/third_party/eigen3
 rm -r patch/eigen3
 # cp patch/tmp/mixed_vector* ../../Paddle/paddle/phi/core
 cd ../../Paddle/
-git apply --verbose /home/sw/Baidu-xuyuhan/PaddleCustomDevice/backends/metax_gpu/patch/paddle.patch
+git apply --verbose ../backends/metax_gpu/patch/paddle.patch
 cd -
 # cp -r patch/intrinsics.cuh ../../Paddle/third_party/warpctc/include/contrib/moderngpu/include/device/
diff --git a/backends/metax_gpu/compile.sh b/backends/metax_gpu/compile.sh
@@ -28,7 +28,7 @@ export LD_LIBRARY_PATH=${MACA_PATH}/lib:${MACA_PATH}/mxgpu_llvm/lib:${LD_LIBRARY
 export PADDLE_VERSION="3.3.0.dev$(date +%Y%m%d)"
 export MACA_AI_VERSION=$(cat /opt/maca/Version.txt | cut -d':' -f2)
 if [ ! -d build ]; then
-echo "build directory not found, creating..."
+    echo "build directory not found, creating..."
     mkdir build
 fi
 
diff --git a/backends/metax_gpu/kernels/impl/conv_grad_kernel_impl.h b/backends/metax_gpu/kernels/impl/conv_grad_kernel_impl.h
@@ -160,7 +160,7 @@ void ConvGradKernel(const Context& dev_ctx,
     if (is_expand) {
       set_zero(dev_ctx, &transformed_input_grad, static_cast<T>(0));
     }
-    phi::funcs::Col2ImFunctor<phi::funcs::ColFormat::CFO, Context, T> col2im;
+    phi::funcs::Col2ImFunctor<phi::funcs::ColFormat::kCFO, Context, T> col2im;
     phi::funcs::Col2VolFunctor<Context, T> col2vol;
 
     for (int i = 0; i < batch_size; i++) {
@@ -214,7 +214,7 @@ void ConvGradKernel(const Context& dev_ctx,
     Tensor filter_grad_ = *filter_grad;
     filter_grad_.Resize(filter_matrix_shape);
     set_zero(dev_ctx, filter_grad, static_cast<T>(0));
-    phi::funcs::Im2ColFunctor<phi::funcs::ColFormat::CFO, Context, T> im2col;
+    phi::funcs::Im2ColFunctor<phi::funcs::ColFormat::kCFO, Context, T> im2col;
     phi::funcs::Vol2ColFunctor<Context, T> vol2col;
     for (int i = 0; i < batch_size; i++) {
       DenseTensor out_grad_batch =
@@ -391,7 +391,7 @@ void ConvGradGradKernel(const Context& dev_ctx,
     if (is_expand) {
       set_zero(dev_ctx, &transformed_dX, static_cast<T>(0));
     }
-    phi::funcs::Col2ImFunctor<phi::funcs::ColFormat::CFO, Context, T> col2im;
+    phi::funcs::Col2ImFunctor<phi::funcs::ColFormat::kCFO, Context, T> col2im;
     phi::funcs::Col2VolFunctor<Context, T> col2vol;
 
     for (int i = 0; i < batch_size; i++) {
@@ -436,7 +436,7 @@ void ConvGradGradKernel(const Context& dev_ctx,
     set_zero(dev_ctx, dW, static_cast<T>(0));
     DenseTensor dW_arr = *dW;
     dW_arr.Resize(filter_matrix_shape);
-    phi::funcs::Im2ColFunctor<phi::funcs::ColFormat::CFO, Context, T> im2col;
+    phi::funcs::Im2ColFunctor<phi::funcs::ColFormat::kCFO, Context, T> im2col;
     phi::funcs::Vol2ColFunctor<Context, T> vol2col;
     for (int i = 0; i < batch_size; ++i) {
       DenseTensor dy_batch =
@@ -483,7 +483,7 @@ void ConvGradGradKernel(const Context& dev_ctx,
     }
 
     set_zero(dev_ctx, &transformed_ddY, static_cast<T>(0));
-    phi::funcs::Im2ColFunctor<phi::funcs::ColFormat::CFO, Context, T> im2col;
+    phi::funcs::Im2ColFunctor<phi::funcs::ColFormat::kCFO, Context, T> im2col;
     phi::funcs::Vol2ColFunctor<Context, T> vol2col;
     for (int i = 0; i < batch_size; ++i) {
       DenseTensor ddy_batch =
diff --git a/backends/metax_gpu/kernels/impl/conv_kernel_impl.h b/backends/metax_gpu/kernels/impl/conv_kernel_impl.h
@@ -140,7 +140,7 @@ void ConvKernelImpl(const Context& dev_ctx,
   int in_step = static_cast<int>(transformed_input.dims()[1]) / groups;
   int out_step = static_cast<int>(transformed_output.dims()[1]) / groups;
 
-  phi::funcs::Im2ColFunctor<phi::funcs::ColFormat::CFO, Context, T> im2col;
+  phi::funcs::Im2ColFunctor<phi::funcs::ColFormat::kCFO, Context, T> im2col;
   phi::funcs::Vol2ColFunctor<Context, T> vol2col;
 
   auto blas = phi::funcs::GetBlas<Context, T>(dev_ctx);
diff --git a/backends/metax_gpu/kernels/impl/conv_transpose_kernel_impl.h b/backends/metax_gpu/kernels/impl/conv_transpose_kernel_impl.h
@@ -142,7 +142,7 @@ void ConvTransposeRawKernel(const Context& dev_ctx,
       (data_layout != DataLayout::kNHWC
            ? static_cast<int>(out_dims[1]) / groups
            : static_cast<int>(out_dims[out_dims.size() - 1]) / groups);
-  phi::funcs::Col2ImFunctor<phi::funcs::ColFormat::CFO, Context, T> col2im;
+  phi::funcs::Col2ImFunctor<phi::funcs::ColFormat::kCFO, Context, T> col2im;
   phi::funcs::Col2VolFunctor<Context, T> col2vol;
   funcs::ConcatFunctor<Context, T> concat_functor;
 
diff --git a/backends/metax_gpu/tests/run_test.sh b/backends/metax_gpu/tests/run_test.sh
@@ -23,18 +23,6 @@ TEST_PATH2="${SCRIPT_DIR}/../../../python/tests"
 export PYTHONPATH="${LEGACY_TEST_PATH}:${PYTHONPATH}:${TEST_PATH1}:${TEST_PATH2}"
 export PADDLE_XCCL_BACKEND=metax_gpu
 export CUDA_VISIBLE_DEVICES=0
-
-PYTHONUNBUFFERED=1
-# 以下三条为运行CINN必开
-FLAGS_prim_all=true
-FLAGS_prim_enable_dynamic=true
-FLAGS_use_cinn=true
-# 关闭多线程编译，调试时用
-FLAGS_enable_cinn_compile_cache=false
-# 打印log，调试时用
-FLAGS_print_ir=true
-GLOG_v=1
-
 # export
 # sleep 1000000
 
@@ -93,8 +81,8 @@ done
 export GLOG_v=$TEST_LOG_LEVEL
 
 
-cmake .. -DTEST_LIST_FILE=$TEST_LIST_FILE -DLOG_OUTPUT_DIR=$TEST_LOG_OUTPUT_DIR -DIGNORE_BLOCKS="$IGNORE_BLOCKS" -DWITH_CINN=ON
+cmake .. -DTEST_LIST_FILE=$TEST_LIST_FILE -DLOG_OUTPUT_DIR=$TEST_LOG_OUTPUT_DIR -DIGNORE_BLOCKS="$IGNORE_BLOCKS"
 
 cmake --build .
 
-GLOG_v=1 FLAGS_print_ir=1 ctest -j$TEST_PARALLEL_NUM --output-on-failure
+ctest -j$TEST_PARALLEL_NUM --output-on-failure
diff --git a/backends/metax_gpu/tests/tmp_save/gpudnn/conv_cudnn_v7.h b/backends/metax_gpu/tests/tmp_save/gpudnn/conv_cudnn_v7.h
@@ -227,7 +227,7 @@ struct SearchAlgorithmBase<ConvKind::kForward> {
 
     // auto workspace_handle = dev_ctx.cudnn_workspace_handle();
     auto workspace_handle = GetDnnWorkspace(
-        const_cast<Allocator*>(&(dev_ctx.GetAllocator())), dev_ctx.stream(), dev_ctx.GetPlace());
+        const_cast<Allocator*>(&(dev_ctx.GetAllocator())), dev_ctx.stream());
 
     // auto handle = GetDnnHandle(dev_ctx.stream(), dev_ctx.GetPlace());
 
@@ -416,7 +416,7 @@ struct SearchAlgorithmBase<ConvKind::kBackwardData> {
 
     // auto workspace_handle = dev_ctx.cudnn_workspace_handle();
     auto workspace_handle = GetDnnWorkspace(
-        const_cast<Allocator*>(&(dev_ctx.GetAllocator())), dev_ctx.stream(), dev_ctx.GetPlace());
+        const_cast<Allocator*>(&(dev_ctx.GetAllocator())), dev_ctx.stream());
     workspace_handle.RunFuncSync(
         cudnn_find_func, max_workspace_size, UseFixedWorkspace());
 
@@ -569,7 +569,7 @@ struct SearchAlgorithmBase<ConvKind::kBackwardFilter> {
         CalcWorkspaceLimitInBytes(UseFixedWorkspace());
     // auto workspace_handle = dev_ctx.cudnn_workspace_handle();
     auto workspace_handle = GetDnnWorkspace(
-        const_cast<Allocator*>(&(dev_ctx.GetAllocator())), dev_ctx.stream(), dev_ctx.GetPlace());
+        const_cast<Allocator*>(&(dev_ctx.GetAllocator())), dev_ctx.stream());
     if (phi::backends::gpu::CudnnDataType<T>::type != CUDNN_DATA_HALF) {
       size_t max_workspace_size =
           GetMaxWorkspaceSize(args, workspace_size_limit);