想请教一下reduce算子的f16版本和bf16版本是否有精度提升空间
我这边是以torch.sum作为基准测试的,入参是input = torch.randn(S, K).cuda().half().contiguous(),通过torch.testing.assert_close比较计算精度差异
当数据量上来时,如输入尺寸为(4096, 4096),中间以16精度计算的算子就会有很明显的差距,以32精度计算的算子精度会有提升但是相比torch.sum还是会有很明显的差异。
想请教下,除了拉高中间计算的精度外是否还有其他手段提高最终计算结果的精度
想请教一下reduce算子的f16版本和bf16版本是否有精度提升空间
我这边是以torch.sum作为基准测试的,入参是
input = torch.randn(S, K).cuda().half().contiguous(),通过torch.testing.assert_close比较计算精度差异当数据量上来时,如输入尺寸为(4096, 4096),中间以16精度计算的算子就会有很明显的差距,以32精度计算的算子精度会有提升但是相比torch.sum还是会有很明显的差异。
想请教下,除了拉高中间计算的精度外是否还有其他手段提高最终计算结果的精度