语言 / Language: 中文 | English
这个目录保存了不同模型在 PCBench-LLM-Distilled 数据集上的结果文件,以及对应的语义切分报告。
claude/、deepseek/、gemini/、minimax/、qwen/、default/:不同模型或基线的结果目录。- 每个二级目录对应一个实验版本,例如
v1-rule-null、v4-hybrid-string、v5-hybrid-code。 - 每个实验目录下通常包含:
PCBench-LLM-Distilled/:该实验版本对应的数据集结果目录。semantic-split-report.md:语义相关 / 语义不相关切分统计报告。
exp_data.csv:主要实验设置的总体正确率汇总。semantic_controlled_sample_data.csv:语义相关 / 非语义相关受控对比的样例级数据。每行记录样例组别、综合正确率,以及三个复杂度特征(total_params、changed_params、change_ops),统计口径为 25 次实验运行,不包含 MiniMaxv1.1和v2.1。semantic_controlled_feature_combinations.csv:在语义相关和非语义相关样例中都出现的 13 个特征组合的聚合结果,用于共同特征组合下的受控对比图。
- 报告文件统一命名为
semantic-split-report.md - 数据集目录统一命名为
PCBench-LLM-Distilled - 报告标题统一使用
PCBench-LLM-Distilled 语义切分对比报告 - 报告说明中不再保留绝对路径
Benchmark/**/*.json中的config字段已同步更新为PCBench-LLM-Distilled/...
- 共有 27 份
semantic-split-report.md - 共有 27 个
PCBench-LLM-Distilled实验结果目录
- 若继续批量重命名或替换内容,优先保持报告名、数据集目录名和
config字段路径一致。 - 若后续新增实验版本,建议沿用现有目录层级与命名风格,方便横向比较和批量处理。