Skip to content

关于数据集的询问 #19

@21-10-4

Description

@21-10-4

您好,我观察到论文中提到了蛋白质任务中每个子任务的数据个数:

Image

非常感谢您开源了数据集。我通过代码,发现开源数据的个数似乎和论文中的结果不一致。

type = "domain_motif" # 论文中说:46,028,实测:45100
type = "general_function" # 论文中说:88,259  实测:86572
type ="protein_function" # 论文中说:116,458, 实测:114183

另外,开源的数据集中测试集的个数也并不是1k。
验证集是随机从训练集中选择80%吗?提供的json文件中,metadata中貌似只有train和test。

Image

非常期待得到您的回复~

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions