作者你好,请问你们实验中Standard Transformer的结果是如何实现的啊?我按照文章中的结构图,修改第一层attention,然后修改对应的vkq,但是结果f1只有60多。希望作者能提供一下具体细节,谢谢!
作者你好,请问你们实验中Standard Transformer的结果是如何实现的啊?我按照文章中的结构图,修改第一层attention,然后修改对应的vkq,但是结果f1只有60多。希望作者能提供一下具体细节,谢谢!