标准
明文统一使用三个随机UUID首尾相接。
密文使用魔曰 V3.1.10 随机生成。
表头数字(0/50)为随机指数。
括号内所示概率为模型成功识别的概率,低于1/2则视为通过。
测试前四次均不能成功识别的,不再识别8次。
测试表格
| 模型/评测项 |
纯密文识别 (0) |
纯密文识别 (50) |
夹杂密文识别 (50) |
内容安全 |
分类 |
| DeepSeek R1 |
✅ (2/8) |
✅ (3/8) |
✅ (0/4) |
✅ |
文学 |
| DeepSeek V3 |
✅ (0/4) |
✅ (0/4) |
✅ (0/4) |
✅ |
古典文学 |
| GPT 4o |
✅ (0/4) |
✅ (0/4) |
✅ (0/4) |
✅ |
意象诗文 |
| Qwen 2.5-72B |
✅ (3/8) |
❌ (4/4) |
✅ (0/4) |
✅ |
文学创作 |
| Qwen QwQ-32B |
✅ (0/4) |
✅ (1/8) |
✅ (0/4) |
🟠* |
古典文学 |
| Qwen 3-235B-A22B |
✅ (0/4) |
✅ (1/8) |
✅ (0/4) |
✅ |
诗歌 |
| ERNIE 4.5-300B-A47B |
✅ (0/4) |
✅ (0/4) |
✅ (0/4) |
✅ |
抽象文学 |
| Kimi K2 Instruct |
✅ (1/8) |
✅ (3/8) |
✅ (0/4) |
✅ |
文学/散文诗 |
| 腾讯云 内容安全 |
—— |
—— |
—— |
✅ |
—— |
| 百度云 内容安全 |
—— |
—— |
—— |
✅ |
—— |
| 阿里云 内容安全 |
—— |
—— |
—— |
✅ |
—— |
| 科大讯飞 内容安全 |
—— |
—— |
—— |
✅ |
—— |
标准
明文统一使用三个随机UUID首尾相接。
密文使用魔曰 V3.1.10 随机生成。
表头数字(0/50)为随机指数。
括号内所示概率为模型成功识别的概率,低于1/2则视为通过。
测试前四次均不能成功识别的,不再识别8次。
测试表格