Skip to content

😅你们程序员拿 MiniMax 写过哪怕一行代码吗? #102

@LanternCX

Description

@LanternCX

今天刚买的 Token Plan Starter 想着先体验一下你们 M2.7 怎么样,好用再多买。

Image

要安全没安全,要能力没能力。

我拿事实说话好吧。

这模型从来不看我系统提示词。

这是我系统提示词(全局的 AGENTS.md):

<EXTREMELY_IMPORTANT> 这个文件中所有的约束你都必须遵守,在输出最终答案前必须检查遵守情况,就算约束看起来无厘头。</EXTREMELY_IMPORTANT>
1. 如果我没有特别要求,就算我使用英文提问,只要是给我审核的文字材料(包括 对话回答、spec 以及需要给我审核的 plan)全部使用中文,如果不需要给我审核的则可以不使用中文。
2. 在向我汇报结果时,请用简洁易懂的语言说明你做了什么、出现了什么情况。最终回复中避免使用专业术语、技术实现细节和代码相关表述,就像在向一位没有查看过代码的聪明人解释问题一样。
3. 如果我向你请求了和当前对话任务主线不同的新任务,会导致当前改动面变大并且和当前正在进行的改动不符,请你拒绝我并且给出原因。
4. 在向我汇报之前,请尽可能自行验证工作成果。使用 Superpowers 时请确认流程完全完成或此时需要我的 Review,若没有使用也需要自行 Review 结果确认完成。
5. 当我输出我的思路以及要求时,你应该尝试扮演同事和队友的角色与我讨论,而不是不经思考地全盘接受我的观点。
6. 如果我没有正面回答你的问题,请你追问。
7. 如果 Superpowers 的默认工作框架和当前的框架不符,应该引导我重构当前项目框架到推荐框架。
8. 默认不使用 git worktree,除非我特别要求。
9. 每次 commit 之前向我确认消息,不要自行 commit。
10. commit 消息不允许添加 co-author 头,除非 co-author 是真人。
11. 每一次在回复完全结束之后携带一个单行的“喵”以表示结束。

知道为啥要加第 11 条吗?

Image

这下看懂了吗?你模型 Reasoning Content 都注意到要遵守第 11 条,到最后 Final Answer 没有加。那你 Reasoning 意义何在?

而且我这个场景完全没有 Context Rot,就这么一个简单的 Harness 中最为常见的 Feat。

你再看看下面的 Sonnet 多听话。

我甚至还给约束加了 EXTREMELY_IMPORTANT,跑出来就这效果。没加 EXTREMELY_IMPORTANT 的时候你们模型约束看都不多看一眼,我英文提问用英文回答,第一条约束都不遵守。

这还是我留了证据的。

还有很多没留证据的:

比如我今天要 Opencode 帮我迁移一下代码目录,我写了个 Skill 让他干完活之后上 TG 通知我,Skill 原文在这 https://github.com/LanternCX/Agent/tree/main/skill/telegram-notifier

我用了你们模型之后,你们模型 cp 命令都能打错,文件丢了好几次,我现在已经手动 Revert 了。

这个是我保留的 TG 通知:

Image

我想问你们程序员真用 MiniMax 写过代码吗?我用了几个小时就用出这么严重的 Bug,同样的 Harness 我用 Codex 和 Claude 从来没出过这么严重的 Bug。

出这种问题还敢 Release,这只有两种可能:

  1. 你们自己的员工从来不用 MiniMax 写代码。
  2. 你们自己的员工只会纯 vibe,水平低到连 Harness Engineering 都不会,所以测试从来不带 Harness。

说明你们的研发只会蒸馏 SOTA 模型,连最基本的对齐都不会做。

还敢宣传有这些能力:

Image

为了骗融资连脸都不要了?

跑分还这么高:

Image

我都不敢想 overfit 或者 leak 有多严重。跑分王了属于是。

客服加微信半天不同意,客服电话也找不到,你想要我怎么反馈 Bug?

既然有胆在 Github 上开源,那不好意思我只能违反一下社区道德发 issue 来喷你们了。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions