reduce算子16位下的精度问题

想请教一下reduce算子的f16版本和bf16版本是否有精度提升空间
我这边是以torch.sum作为基准测试的，入参是`input = torch.randn(S, K).cuda().half().contiguous()`，通过`torch.testing.assert_close`比较计算精度差异
当数据量上来时，如输入尺寸为(4096, 4096)，中间以16精度计算的算子就会有很明显的差距，以32精度计算的算子精度会有提升但是相比torch.sum还是会有很明显的差异。
想请教下，除了拉高中间计算的精度外是否还有其他手段提高最终计算结果的精度