最后验证:2026-05-23。ROADMAP.md 为最新状态。
这份文档是 Research 研究仓库的综合进度入口。
它不替代 reproduction-status.md 的逐线细节,也不替代 mia-defense-research-index.md 的文献整理;它的职责是把“当前最能讲的攻击线、最缺的防御线、最短执行路径”放到一页里。
治理层更新:当前执行项是 Research governance cleanup,active_gpu_question = none,next_gpu_candidate = none。本轮不新增模型实验、不释放 GPU、不执行历史重写;X-180 已关闭为 positive reselection / GPU hold,治理完成后的下一条 CPU-first research lane 才是 X-181 I-A / cross-box boundary maintenance after H2 comparator block。
当前仓库已从“继续找下一条 GPU 题”切到“报告驱动的长期主线收敛”。PIA + GSA/W-1 仍是当前成熟主线,但最新真实 packet 已经让近端优先级再次收口:06-g1a 的 per-sample H1/H2 都已在真实 256 packet 上 miss,H5 只保留为 internal-only set-level governance fallback;05-cross-box 已在 enlarged GSA + PIA matched packet 上完成更强的 full-overlap repeated holdout,并确认 stable tail-lift;随后第一版 bounded H4 也已落地,但只给出 auxiliary/cost-saver 读法。04-defense 先把 H2 privacy-aware adapter 的 packet-scale 问题走完第一轮最小验证,4 / 4 follow-up 仍显示 baseline 与 defended 四项 delta 都是 0.0;随后 X-156 / X-157 / X-158 / X-159 / X-160 / X-161 / X-162 / X-163 把新的 H3 selective / suspicion-gated all-steps routing 推进到真实 64 / 64 GPU scout、fixed-budget attacker scout 和 post-GPU review。最终读法是 positive but bounded / candidate-only:fixed-budget selective 在 X-162 匹配 all-steps dropout 的低 FPR tail(0.031250 / 0.031250),但 gate-leak falsifier 升到 0.046875 / 0.046875,oracle-route escape 恢复 baseline tail(0.078125 / 0.078125),所以不能提升为 deployable defense 或 admitted result。X-168 已完成 01-black-box H2 strength-response 首轮 64 / 64 GPU scout:H2 logistic 达到 AUC = 0.928955 / ASR = 0.859375 / TPR@1%FPR = 0.218750 / TPR@0.1%FPR = 0.218750,并写出可复用 response cache;X-170 的 H1 response-cloud cache review 有 AUC 信号但低 FPR 失败;X-171 的 frequency-filter ablation 没有把 H2 falsify 成 high-frequency-only;X-172 完成非重叠 128 / 128 GPU validation;X-175 CPU stress 通过后,X-176 又完成非重叠 256 / 256 validation,raw H2 logistic 达到 AUC = 0.913940 / ASR = 0.851562 / TPR@1%FPR = 0.171875 / TPR@0.1%FPR = 0.062500,lowpass_0_5 secondary 保持正向 0.140625 / 0.050781;X-177 已把它冻结为 strong validated candidate。X-178 随后确认 same-packet admitted recon comparator 在 X176 上协议不兼容;X-179 又确认 X176 自带 simple reconstruction-distance sanity comparators 已足够说明 H2 不是单步距离 artifact,但这些 comparator 不是 admitted recon,所以不释放 GPU。当前 active GPU question = none;next_gpu_candidate = none。
2026-04-29 更新:X-141 / X-142 已把 G1-A / X-90 从 TMIA-DM 512-sample gap 中解冻为 two-seed internal auxiliary positive。两次同合同 matched 512 / 512 tri-score review 都通过 kill gate,seed-2 macro 指标为 AUC = 0.859043 / ASR = 0.786133 / TPR@1%FPR = 0.118164 / TPR@0.1%FPR = 0.023438;但合同仍是 headline_use_allowed = false / external_evidence_allowed = false,所以这只改变 Research 内部灰盒辅助证据边界,不替换 PIA headline,也不改变 Runtime/Platform schema。随后 X-145 / X-146 / X-148 / X-150 已完成白盒 activation-subspace scout 序列:基础 top-delta selector 过拟合并在 larger holdout 反向,validation-regularized selector 虽改善 baseline 但仍 weak,same-block cross-layer stability gate 也未改善 holdout。X-151 / X-152 完成 GPU hold 与 I-A 边界刷新;X-153 / X-154 又测试 per-timestep trajectory observable,结果仍为 negative-but-useful;X-156 / X-163 已把 04-H3 selective-gating 收口为 candidate-only positive-hardening / GPU hold;X-164 / X-165 又关闭了一条现有 surface tri-fusion 捷径;X-166 已把这两条边界写硬;X-168 / X-171 / X-172 / X-175 / X-176 / X-177 则把黑盒 H2 从首轮 positive scout 推进到 strong validated positive-but-bounded candidate surface;X-178 / X-179 已连续阻止 admitted replacement 与无假设 GPU 扩大。X-180 已关闭为 positive reselection / GPU hold;当前执行项是治理清理,治理完成后的下一条 CPU-first lane 是 X-181 I-A / cross-box boundary maintenance。
| 维度 | 当前判断 | 备注 |
|---|---|---|
| 黑盒攻击 | 主证据稳定,近端后置 |
recon 是当前最强证据线;black-box 当前更像候选池而不是近端主槽位 |
| 灰盒攻击 | 最成熟 + sidecar可扩展 |
PIA 已进入 real-asset runtime mainline;SimA 已 execution-feasible but weak,且 PIA + SimA logistic_2feature 已给出 bounded AUC / ASR 增益,但最严 TPR@0.1%FPR 没有稳定 lift,因此当前仍只应读作 auxiliary sidecar |
| 白盒攻击 | 主结果稳定,distinct second family 仍缺 |
GSA 已写回 admitted 主结果;activation-subspace fingerprint 是当前最干净的 medium-horizon 缺口 |
| 黑盒防御 | 基本未落地 |
B-1 / B-2 仍在设计层 |
| 灰盒防御 | 已有当前 defended story,下一步应更受控 |
stochastic-dropout 仍是当前 defended story;报告更支持 selective successor,而不是继续 blanket 变体 |
| 白盒防御 | 已有 defended comparator,下一步转 post-training family |
DPDM 仍是当前 defended comparator;更值得长期看的是真正的 subspace edit / unlearning successor |
| 统一评估表 | 已有第一版 |
已新增 admitted main results 的跨盒总表 |
当前阶段追加判断:
white-box same-protocol bridge已完成保持冻结收口- 当前 active 主 GPU 问题已回到
none - 当前
PIA provenance dossier已 closed 为remain long-term blocker PIA 8GB portability ladder已完成probe + preview + GPU128/GPU256 adaptive pair,当前 frontier 固定为GPU128 = quickest portable pair、GPU256 = decision rung with cost warningFinding NeMo + local memorization + FB-Mem不再是decision-grade zero-GPU hold:- 当前已经有一个 real bounded admitted packet
- 当前最诚实口径是
actual bounded falsifier - same-family GPU rescue rerun 继续低于 release
- 白盒 defense breadth 的第一轮 shortlist 也已经收口为负结论:
- 当前 repo 只有
DPDM / W-1这一条可执行 defended family Finding NeMo仍是 observability 路线
- 当前 repo 只有
I-D当前也已收口到更硬边界:local conditional canary contract + bounded CFG packet + negative actual runner-level defense rerun- 当前没有 honest bounded successor lane
- 只有 genuinely new bounded hypothesis 出现时才允许重开
Local Mirror不提供第二防御家族
- 2026-04-10-recon-decision-package 已把黑盒五件套固定为 decision-grade package,本轮 recon-artifact-mainline-public-100-step30-reverify-20260410-round28 又在 CPU 上复算到相同 headline metrics,且不改 admitted 结果
- 2026-04-10-pia-provenance-split-protocol-delta 已把
split shape aligned locally / random-four-split protocol still open / strict redo currently dirty三点固定为新的 provenance supplement X-86→X-89序列原本把 G1-A/X-90 deferred 为needs-assets;X-141→X-142已在当前 GPU 窗口补齐这个缺口,生成两轮 matchedTMIA-DM 512表面并完成两次 positive-but-bounded X-90 review。当前读法不再是G1-A deferred-needs-assets,而是two-seed internal auxiliary positive / not headline;X-143→X-144已把它同步为 internal-only 并明确 GPU hold。之后X-145→X-150把03-H1 activation-subspace走完三轮 GPU-safe scout:same-rule top-delta 过拟合,validation-regularized 仍 weak,cross-layer stability gate 也 negative-but-useful;X-153→X-154的 per-timestep trajectory scout 也未过 holdout fire gate;X-156→X-163已把 live lane 推进并收口到04-H3 selective all-steps gating = candidate-only positive-hardening / GPU hold;X-164→X-165又把现有PIA + GSA + SimAtri-surface consensus 收口为negative but useful,所以当前没有 immediate GPU release。- issue #10 已关闭为
positive hardening:recon现在有独立的 strict Stage 0 paper gate(check-recon-stage0-paper-gate),它会在当前公开 bundle 只证明proxy-shadow-member / local-semantic-chain-ready时明确返回blocked,防止把 local-ready 误读成 paper-alignedAttack-I。 - GPT-5.4 round-2 报告已完成 long-horizon 收敛,而最近真实 packet 又把 active slot 进一步收口为:
05-cross-box= 当前 near-term active 主线04-defense= 当前受控 successor scouting 主线02-gray-box= second-signal sidecar03-white-box= medium-horizon gap01-black-box= parked candidate pool06-g1a= governance fallback preserved after per-sample miss
05-cross-box现在也已有 enlarged full-overlap pairboard:- shared packet =
461 member / 474 nonmember logistic_2feature在AUC上4/5胜,在TPR@1%FPR与TPR@0.1%FPR上5/5全胜weighted_average仍只适合保留为 tail-only auxiliary fusion- 当前最诚实口径是
stable low-FPR tail-lift confirmed on enlarged matched packet - 第一版 bounded
H4现已完成,但只落在 auxiliary/cost-saver 边界上 - 因此
05当前保留 promotedH1/H2结果,active slot 则继续让给04
- shared packet =
- 这意味着未来 30 天不应再把
01-06读成六条平行执行线,而应读成05 -> 04的 active chain +02/03/01的支持链 +06的治理退路
- 主线:
recon - 次主线候选:
variation(对应Towards Black-Box) - 当前能说的话:
- 公开资产上的 black-box 风险已经有可引用主证据
reconstrict paper-faithfulAttack-I入口现在有可执行 Stage 0 gate;当前正确结果仍是blocked / paper_aligned_semantics = falsevariation已能在本地 CPU 上重复跑 synthetic smokevariation的真实 API 资产 probe 已确认 blocked,当前缺 query image root;但这条线现在已经是contract-ready blocked:- 第一硬门槛是
query_image_root / query images - 后续复开仍必须补齐
endpoint/proxy + query budget + frozen parameters
- 第一硬门槛是
CLiD当前边界已从泛化的“local bridge”进一步收紧到evaluator-near local clip-only corroboration:- 目标侧本地 rung 的两个输出文件在跳过首行后可解析成
100 x 5数值矩阵,接近 releasedcal_clid_th.py的输入形状 - 但 full threshold-evaluator 仍缺 shadow train/test pair,且已执行 rung 的文件头仍暴露旧 user-cache
diff_path - 这条判断现在还有 machine-readable 审计锚点:
workspaces/black-box/runs/clid-threshold-compatibility-20260416-r1/summary.json
- 目标侧本地 rung 的两个输出文件在跳过首行后可解析成
- 新归档
TMIA-DM已证明时间相关噪声 / 梯度信号也是正式文献方向,但它当前不属于严格黑盒执行面
- 当前不能说的话:
- 还不能把 black-box 防御讲成已有结果
- 还不能把
variation写成真实 API 闭环 - 还不能把
TMIA-DM写成黑盒新主线
- 当前用途:
- 作为申报和答辩里的“风险存在”主证据
variation适合作为第二黑盒候选线补充进申报叙事- 黑盒最终口径现在应区分
main evidence、best single metric reference和secondary track - 当前高层固定包应同时带出:
main evidence = recon DDIM public-100 step30best single metric reference = recon DDIM public-50 step10secondary track = variation / TowardsCopyMark = boundary only- 频域论文 =
explanation only
- 主线:
PIA - corroboration:
SecMI - 当前能说的话:
PIA已经不是 smoke,而是真实资产 mainlinePIA GPU128 / GPU256 / GPU512已拿到同口径 baseline + defense 对照,且 defense 指标连续三档都低于 baselinePIA GPU512同档 repeat 也继续维持 defense 优于 baseline- round-26 的
GPU128 / GPU256 adaptive portability pair又在RTX4070 8GB上复现了同向下降,其中GPU128是当前 quickest portable pair,GPU256则因 defense cost 升高而保留为 decision rung with cost warning pia_next_run --strict已通过,当前 asset line 已可写成workspace-verified- 当前
PIA攻击分数可以明确解释为epsilon-trajectory consistency信号,而不是泛化的 reconstruction score stochastic-dropout当前最可辩护的作用机理,是在推理时打散这一致性信号- 当前 gray-box 新一轮重点已从“多开 run”切到
off / all_steps / late_steps_only + repeated-query adaptive review + structured quality/cost SecMI已完成 full-split local execution,当前应写成独立 corroboration line,而不是blocked baselineTMIA-DM已不再只是 intake 候选:- 现在是当前最强的 packaged gray-box challenger
- 在 attack-side operating-point comparison 中对
PIA构成真实竞争 - 在 defended side 也保留了
TMIA + temporal-striding这一条 challenger reference
Noise as a Probe已不再只是 paper-side备选:- 当前 local
SD1.5 + celeba_partial_target/checkpoint-25000路径已经跑通 8 / 8 / 8与16 / 16 / 16两档都已 repeat-positive- 当前应写成
strengthened bounded challenger candidate
- 当前 local
CDI当前已不再只是 paper-side collection idea:- first internal canary 已落盘
- repaired
PIA + SecMIpaired2048surface 已落盘 control-z-linear已冻结为 default internal paired scorer- 但它仍只应写成 internal audit-shape extension,而不是 headline scorer 或外部版权级证据
- 新整理的
PIA / TMIA-DM / SimA / MoFit文献轴已经统一到“时间 / 噪声 / 条件信号”叙事上 - 当前最适合把防御压到这条线上做正式比较
- 当前不能说的话:
- 还不能说灰盒防御已经验证有效
- 还不能说
Noise as a Probe已经取代TMIA-DM的 packaged challenger 位置 - 还不能说
Noise as a Probe已经可以替换PIA的 headline 地位
- 当前用途:
- 作为当前算法主讲线
TMIA-DM作为当前最强 packaged gray-box challengerNoise as a Probe作为新 latent-diffusion challenger candidate 的有界补充线- 作为
Runtime-Servercontract-specific best summary 的首要 admitted 消费对象 - 当前只允许写成
workspace-verified + paper-alignment blocked by checkpoint/source provenance - 截至
2026-04-10,PIA provenance dossier已 closed 为remain long-term blocker
- 主线:
GSA - 扩展:
Finding NeMo (executed bounded packet -> non-admitted actual bounded falsifier) - 当前能说的话:
- 白盒闭环已经打通
- 资产根、checkpoint-*、bucket 已进入规范结构
DPDM已从环境阻塞推进到真实 CUDA checkpoint- 当前白盒防御的主要技术问题是评估桥接,不是训练缺失
GSA已跑出第一版强白盒结果- 一条更强配置的
GSA epoch300 rerun1已完成 runtime,并在同协议下显著强于旧20260408 1k-3shadow DPDMtarget-only comparator 当前接近随机,方向上支持防御有效DPDMmulti-shadow comparator 当前也接近随机,方向上继续支持防御有效DPDM在 defended target-member checkpoint 上仍接近随机,白盒防御信号更明确DPDM的 defended-target + defended-shadowsstrong-v2comparator 为AUC = 0.541199,仍显著弱于GSA rerun1 = 0.998192DPDM的strong-v2 max512comparator 为AUC = 0.537201,说明更大评估规模下趋势仍未反转DPDM的strong-v2 3-shadow max512comparator 为AUC = 0.462799,这是当前最接近 defended1k-3shadow结构的本地结果DPDM的strong-v2 3-shadow full-scalecomparator 为AUC = 0.490813,仍明显弱于GSA主线DPDM的strong-v3 3-shadow max128comparator 为AUC = 0.537048,说明 stronger training rung 已经能在 GPU 上稳定出第一条 defended 结果DPDM的strong-v3 3-shadow max256comparator 为AUC = 0.522339,说明这条更强训练 rung 已经推进到中规模 GPU defended 结果DPDM的strong-v3 3-shadow max512comparator 为AUC = 0.5,说明 stronger training rung 已推进到更大规模 GPU defended 结果DPDM的strong-v3 3-shadow full-scalecomparator 为AUC = 0.488783,说明 stronger training rung 已完成 full-scale defended 结果DP-LoRA / SMP-LoRA当前已经不是 intake-only 候选:- 它先拿到了一张 same-asset local comparator board
- 随后在 hardened evaluator 下又得到一张 harmonized local board
- 但这张 harmonized board 不是 clean dominance:
- frozen
SMP-LoRA仍然优于本地W-1 - 但
baseline在本地AUC上优于 frozenSMP-LoRA
- frozen
- 因此当前最诚实口径是:
successor lane alivemetric-split bounded local evidenceno-new-gpu-question
- 当前 same-protocol bridge 的关键训练阻塞已经从“
shadow-02无法落盘”收缩到“较高训练规模不稳定”;在清理 orphanmultiprocessing-fork后,batch_size = 32已让shadow-02 / shadow-03checkpoint 重新可得 - 基于这组 batch32 checkpoint,新的 same-protocol diagnostic comparator 已经产出 dpdm-w1-multi-shadow-comparator-targetmember-sameproto3shadow-batch32-diagnostic-20260409,指标为
auc=0.541199 / asr=0.515625 / tpr@1%fpr=0.0 / tpr@0.1%fpr=0.0 - 这份 batch32 comparator 当前仍是
runtime-smoke级 bridge 诊断结果,不应直接写成新的 admitted 白盒防御主结果 - 当前 same-protocol bridge 已正式以
保持冻结收口;这只是治理与资源排序决策,不是新的 benchmark 结果 - 系统侧对白盒
GSA的 live intake 现在应与 admitted1k-3shadow主结果对齐,而不是继续停在早期 CPU closed-loop - 新的 2026-04-10-finding-nemo-mechanism-intake 现在只应被读作历史 intake gate;当前 branch 已经越过 intake-only 阶段,不能再把它当作当前
Phase E候选 - 新的 2026-04-10-finding-nemo-protocol-reconciliation 已明确:当前 admitted 白盒资产与
Finding NeMo原始Stable Diffusion v1.4 / cross-attention value layers协议面不兼容;这条边界仍然有效,但它现在约束的是 future reconsideration,而不是“当前仍只允许 observability / zero-GPU hold” - 新的 2026-04-10-finding-nemo-observability-smoke-contract 已把未来 smoke 的
checkpoint_root / layer selector / sample binding / output schema / scheduler gate写成可审查合同;本轮又把它落实成read-only contract-probe src/diffaudit/attacks/gsa_observability.py与probe-gsa-observability-contract已在Research内实现零 GPU 的合同解析入口,并已在真实 admitted 资产上返回status = ready- 本轮新增
export-gsa-observability-canary与export_gsa_observability_canary,已在Research内实现 CPU-only 的 sample-pair activation export,并在 finding-nemo-observability-canary-20260410-round24 写出summary.json + records.jsonl + tensor artifacts - 新的 2026-04-10-finding-nemo-activation-export-adapter-review 现在只应被读作历史 adapter boundary;当前 branch 的更强 truth 已经是“一条真实 bounded admitted packet exists”
- 新的 2026-04-17-finding-nemo-first-truly-bounded-admitted-intervention-review-verdict 与 2026-04-17-finding-nemo-post-first-actual-packet-boundary-review 已把
Finding NeMo当前最强诚实口径冻结为non-admitted actual bounded falsifier:- one actual bounded admitted packet now exists
- current branch is not
zero-GPU hold - current branch is not defense-positive
- 2026-04-10-finding-nemo-activation-only-canary-sketch 继续保留为边界文档,但当前不再能写成“尚未开始 activation export”
- 当前不能说的话:
- 还不能说白盒论文级复现成功
- 还不能说白盒 defense 比较已经完成
- 还不能把当前 batch32 bridge diagnostic 写成 benchmark 已完成或 admitted summary 已更新
- 还不能把
DPDMtarget-only comparator写成同口径白盒攻击结果 - 还不能把当前
DPDM strong-v2 defended-target multi-shadow comparator写成最终白盒 defense benchmark - 还不能把
Finding NeMo写成当前执行主线、execution-ready 或 benchmark-ready
- 当前用途:
- 作为技术深度补充线
| 轨道 | 当前最合理防御路线 | 当前判断 |
|---|---|---|
| 黑盒 | B-1 / B-2 |
设计方向成立,但还没有正式实现 |
当前补充判断:
- 第一条更像真实部署层缓解的黑盒 mitigation 已经试过:
served-image-sanitization = JPEG quality 70 + resize 512 -> 448 -> 512- 在本地
CLiD clipbridge 上没有压低攻击指标
- 因此黑盒防御当前应继续写成
not-yet-landed,而不是“完全没试过” | 灰盒 |G-1| 已进入 provisional 形态,并出现三档同口径下降信号与一次同档 repeat;新的 adaptive review 仍支持all_steps,late_steps_only则保留为质量优先消融 | | 白盒 |W-1 = DPDM| 已拿到 strong-v2 主结果,也拿到 strong-v3 的 full-scale GPU defended 结果;当前主讲口径冻结为strong-v3 full-scale|
G-2知识蒸馏代理模型W-2成员信号对抗训练
原因:
- 它们设计空间太大
- 当前仓库还没有稳定的 attack-defense 对比表
- 申报阶段更需要可运行、可对比、可讲清楚的路线
mia-defense-document.docx可以指导防御方向- 但不能直接当作当前执行进度表
- 黑盒
recon证据最强 - 但灰盒
PIA更适合打成“攻击 + 防御”主讲闭环
GSA很重要- 但当前它更适合作为“我们已经打通白盒闭环”的证明,而不是唯一主讲成果
- 继续把
PIA + GSA/W-1固定为成熟主线,并保持 admitted/system narrative 不漂移 - 将
06-H1 temporal QR surrogate固定为当前X-90blocker-resolution 默认路线;只有当它过不了 teacher-calibrated gate 时,才切到06-H2 RMIA/BASE temporal LR- 当前 repo 已经落地
06-H1的真实 packet surface,并在64 -> 128 -> 256上完成 first actual teacher-calibrated validation - 当前固定
H1packet 在256上停在Spearman = 0.748677 / Pearson = 0.790525 / AUC = 0.687477,相对TMIA-DM long_window teacher AUC = 0.850357仍有明显差距 - 第一版固定
H2packet 现也已在真实256calibration packet 上执行,primarylate-window mean仅到AUC = 0.644142 / TPR@1%FPR = 0.007812 / threshold_cv = 0.806137 - 因此
06的当前读法已经从H1 miss -> H2 fallback进一步收敛成per-sample H1/H2 both miss;下一步是H5治理退路或 lane-yield,而不是继续对这两版 packet 做512transfer
- 当前 repo 已经落地
- 将
05-H1/H2固定为当前 cross-box 主执行包:- 一张 canonical
GSA + PIAshared score table best single / weighted average / 2-feature logisticsupport / disconfirm / neutral- repo 内 pairboard infra 已经落地,且
GSA loss-score-export已可直接进入 shared-index intersection - 当前真实
PIA 512 adaptive x GSA bounded actual loss-scoreshared subset 只有3 member + 4 nonmember,因此现在的 next gate 是更大的 matched shared packet,而不是提前写 fusion 结论 tail-gated cascade只在前两者有正增益后再开
- 一张 canonical
- 将
04固定为受控 successor scouting:- 默认只开
H1 risk-targeted SISS
- 默认只开
H2 privacy-aware adapter作为紧邻 fallback,但当前真实状态已更新为prototype-implemented / contract-incompleteH1现在已经不只是口头优先级:repo 内已落地一个 CPU-firstprepare-risk-targeted-unlearning-pilotsurface,并在当前 full-overlapGSA + PIAshared board 上导出了k=16/32/64forget/control lists- 当前
Top10%(GSA) ∩ Top10%(PIA)member overlap 只有8/461,所以第一轮真实 ladder 还不能走纯交集,只能走aggregate-percentile - 第一档真实
k32 / 32-step / CUDAretain+forget pilot 也已经执行,说明这条线不是“只能写 prep”;当前 canonical run 还额外暴露出 target-member 目录的 duplicate-id 事实,因此 live 训练文件数是33 forget / 967 retain,而不是简单的32 / 933 - 第一张挂到 pilot 上的 attack-side
forgotten subset诊断板也已落地,但读数并不乐观:在 borrowed-shadow 的defense-unaware threshold-transfer下,AUC从0.774691掉到0.755401,两档 low-FPRTPR都从0.222222掉到0.027778 retained high-risk companion板也已经存在,但读法仍只是mixed/weak:AUC从0.703431掉到0.670752,两档 low-FPRTPR只从0.083333回到0.111111- 第一张 full-split board 现也已落地在
1000 member / 1000 nonmember上,且 target-wide 读法仍然负向:AUC从0.618043掉到0.596696,ASR从0.5515升到0.5665,两档 low-FPRTPR从0.018 / 0.006掉到0.011 / 0.003 - 因此
04当前最诚实的 attached-read stack 已经不是“只看一个负向 forgotten subset”,而是forgotten negative + retained mixed/weak + full-split negative - 现在 repo 还多了一层更公平的 target-side control:
GSAreview export 支持 same-noise paired rerun - 在这条更强 surface 上,三张板仍然没有翻正:
- forgotten:
AUC 0.845679 -> 0.827932 - retained:
AUC 0.601307 -> 0.597222 - full split:
AUC 0.623331 -> 0.617696
- forgotten:
- paired-noise full-split 的 score shift 也没有显示出强烈的 forgotten-targeted 效应,而更像 broad global shift
- 所以当前不只是“还没有 defense-aware rerun”,而是“当前这个
k32instantiation 本身就还不值得去吃 defense-aware rerun 的成本” - 随后第一档 pure-intersection lower-bound pilot
k8也已真实落地:这是当前第一条不靠aggregate-percentile、而是完全靠Top10%overlap 的 forget set k8的读法是cleaner but too weak:- forgotten subset 基本完全持平
- retained companion 不再保留
k16那种 tail 改善 - full split 依然近中性,但不足以抵消它的过度收紧
- 所以当前
04的最诚实 lead 不是k8,而仍然是k16 - 此后又补了一档最小 changed pilot:
k16,即只把 forget set 从32收到16,其他训练超参数不动 - 这档
k16在 paired-noise 三板上的读法明显优于k32:- forgotten:
AUC仍略降,但 low-FPR tails 从0.315789升到0.368421 - retained:
AUC持平,tails 从0.235294升到0.294118 - full split:接近中性,
AUC 0.623331 -> 0.622141
- forgotten:
- paired-noise full-split 的 shift 也从
k32的~+0.0075global drift 收到k16的~+0.0018level - 因此当前
04的最诚实读法不再是“只有一个弱 pilot”,而是“k32已基本判弱,k16是当前 best working instantiation,但仍未到 defense-positive” - 此后又补了一档单变量
k16 + alpha-upfollow-up(alpha = 0.75,其余不动),但这档结果是negative but useful:- forgotten subset 没有比原始
k16再变好,只是把AUC从0.885965继续压到0.883041 - retained companion 明显回退,原先
k16保留下来的 tails 改善直接消失,AUC也从0.781046掉到0.774510 - full split 虽然
AUC形式上更接近中性,但TPR@1%FPR从0.026掉到0.024,ASR也略变差
- forgotten subset 没有比原始
- 因此当前
04的控制读法再次收紧:原始k16仍是 best working instantiation,而“继续加 forget pressure”已经不再是 open lever;如果同家族继续走,只能先做 CPU-side selective-variable review,而不是立刻再放一个 GPU rerun - 这一层 selective-variable review 现在也已被进一步收成一个具体的 conditional candidate:若
04-H1后续还要在同家族内继续,第一档 honest 候选不再是alpha或k,而是k16 + mixture_lambda-down;当前冻结的第一档中强度参数是mixture_lambda = 0.4375 - 但这档
k16 + mixture_lambda-down现也已经真实执行,而且同样落成negative but useful:- forgotten subset 的 low-FPR tails 从原始
k16的0.368421掉到0.263158 - retained companion 的 tails 也从
0.294118掉到0.176471 - full split 虽然
AUC略升到0.624224、ASR略降到0.5550,但TPR@1%FPR反而从0.026掉到0.021
- forgotten subset 的 low-FPR tails 从原始
- 所以当前
04的更硬结论已经进一步收口为:原始k16仍是唯一保得住的 working instantiation,而同家族 scalar tuning 现在不再是 honest immediate GPU path - post-
H1family review 也已经补齐:- repo 当前只有
04-H1的 canonicaldiffaudit级实现、CLI 与 review contract 04-H2 privacy-aware adapter现在已有 prototype implementation / script / tests / bounded CPU smoke,且 canonicalprobe-h2-assets、prepare-h2-contract、run-h2-defense-pilot、review-h2-defense-pilot都已 landed- 它的第一张 same-packet review 确实是
transfer-only + 1/1 + all-zero - 但最小
4 / 4follow-up 也已经真实执行:target-transfer 不再纯零,却仍然没有任何 defended-vs-baseline delta - 因此
04的当前读法已经变成H2 should yield after one minimal packet-scale follow-up,而不是继续自动放大或提 GPU
- repo 当前只有
- 这对
Runtime/Platform的含义也已经固定:- 当前 sharper
04边界只需要 higher-layer wording 同步 Research -> Runtime -> Platform不需要新增 schema 或协议
- 当前 sharper
H3只允许作为 candidate-only perturbation-exposure sidecar,不许与H1/H2并推或写成 validated defense
- 将
02固定为 sidecar enabling line,而不是独立主槽位:SimA当前只保留为execution-feasible but weakscorer- 不直接重开 plain
SimAscorer rerun SimApacket-score export 已 landed,member_scores / nonmember_scores / indices已可导出- 第一轮
PIA + SimAbounded full-overlap pairboard 已 landed:logistic_2feature在5 / 5repeated holdout 上稳定提升AUC / ASRTPR@1%FPR只给出部分改善TPR@0.1%FPR没有稳定 lift
- 因此
PIA + SimA仍保留为 auxiliary gray-box sidecar,而不是 promoted next lane - H3 已被 X159 收口为 candidate-only;后续只有新 detector / adaptive-attacker contract 才能重开
- 将
03固定为 medium-horizon gap:activation-subspace fingerprint的 mean-profile selector route 已经被X-145 / X-146 / X-148 / X-150收口为 negative-but-useful,下一次重开必须是 genuinely different observable 或 independent-stability contractrisky-subspace pruning是当前最值得保留的 post-training defense 候选- 但它不应抢占
05 -> 04 -> 06的近端槽位
- 将
01固定为 parked black-box candidate pool:- 先冻结
reconcomparator rung - 再保留
response-cloud geometry / strength-response / micro-bag statistical audit - 当前不允许它消耗近端主资源
- 先冻结
- 保持
SecMI = independent corroboration line、TMIA-DM = strongest packaged gray-box challenger、Noise as a Probe = bounded challenger candidate这些既有真值不漂移 - 基于统一表继续补质量 / 成本 / boundary 列,并保持 low-FPR 与 adaptive 解释优先
- 若
06/05/04任一方向改变 exported fields / packet contract / summary logic / runner requirement,允许Researcher对接Platform / Runtime-Server,但默认仍先做 note-level handoff
当前最合理的讲法是:
- 扩散模型存在成员泄露风险
- 我们已经在黑盒、灰盒、白盒三种权限下建立了攻击验证能力
- 当前最成熟的是灰盒
PIA - 我们已经拿到一个
provisional G-1灰盒防御闭环 - 白盒
GSA + W-1已经进入“强攻击结果已出、full-scale defended comparator 已有、same-protocol bridge 已产出第一份 diagnostic summary”的阶段
- 逐线状态:reproduction-status.md
- 主线叙事:mainline-narrative.md
- GPT-5.4 原始结果包:report-bundles/gpt54/round2-results(第二轮) / report-bundles/gpt54/round1-results(第一轮)
- 防御文档索引:mia-defense-research-index.md
- 防御执行清单:mia-defense-execution-checklist.md
- 研究仓路线图:../ROADMAP.md