你好,我想请教一下,训练时间问题,我训练自己的数据集,epoch为300,有监督训练220个epoch,在有监督训练的过程中为什么每一个epoch的训练时间差距较大呢,在有监督训练过程中不是只训练teacher模型吗,为什么有两行结果,感谢解答 <img width="668" height="349" alt="Image" src="https://github.com/user-attachments/assets/297c100a-f86b-4c2b-9e31-6bf2692b024b" />
你好,我想请教一下,训练时间问题,我训练自己的数据集,epoch为300,有监督训练220个epoch,在有监督训练的过程中为什么每一个epoch的训练时间差距较大呢,在有监督训练过程中不是只训练teacher模型吗,为什么有两行结果,感谢解答