breadth attention的实现似乎是有些问题的,从语义上理解是有漏洞的。
将N个节点划分成多个对齐的patch,每个patch内的节点数是P,一共有R个patch,对每一个patch的P个节点之间进行attenion很好理解(对应论文中的depth attention),但是对对齐后的数据在R个patch间进行attention,按照现有的代码实现,实际上是在R个patch的index相同的点之间做了attention(index=0的R个点,index=1的R个点,以此类推),而且由于划分是固定的,所以实际上学到的是固定的一些点之间的关系,这可能和当时想要学到更宏观层面的区域级空间相关性不太一致?另外,这个方式训练出来的模型,可能会导致,即使对于相同的KD-Tree划分,但是使用不同的node排列(改变同一个patch内的node id排序),最后的测试结果有可能会有比较大的差异?
breadth attention的实现似乎是有些问题的,从语义上理解是有漏洞的。
将N个节点划分成多个对齐的patch,每个patch内的节点数是P,一共有R个patch,对每一个patch的P个节点之间进行attenion很好理解(对应论文中的depth attention),但是对对齐后的数据在R个patch间进行attention,按照现有的代码实现,实际上是在R个patch的index相同的点之间做了attention(index=0的R个点,index=1的R个点,以此类推),而且由于划分是固定的,所以实际上学到的是固定的一些点之间的关系,这可能和当时想要学到更宏观层面的区域级空间相关性不太一致?另外,这个方式训练出来的模型,可能会导致,即使对于相同的KD-Tree划分,但是使用不同的node排列(改变同一个patch内的node id排序),最后的测试结果有可能会有比较大的差异?