Add open-r1/OpenR1-Math-220k dataset and nvidia/OpenMathReasoning to RL and fix reward function #7226

Job	Run time
Static code-quality checkers	52s
	52s

Provide feedback