如题,现在的多模态rewardmodel太少了,好不容易找到一个还很难和rl的框架兼容
如题,现在的多模态rewardmodel太少了,好不容易找到一个还很难和rl的框架兼容