Standard Transformer

作者你好，请问你们实验中Standard Transformer的结果是如何实现的啊？我按照文章中的结构图，修改第一层attention，然后修改对应的vkq，但是结果f1只有60多。希望作者能提供一下具体细节，谢谢！