这份文档把两个来源分开说明:项目发起人的原始方向,以及外部 AI 反馈中适合公开讨论的补充意见。它是面向开源协作的公开摘要,不是原始想法文档全文。
这里不能把整个方向宣称为法律意义上的原创或新颖。公开资料中已经存在不少相关工作:例如带眼动数据采集的 PDF 阅读器、用 gaze 辅助笔记锚定、把 gaze 坐标实时映射到网页文本、用眼动研究阅读理解和学习过程等。因此,MarginMind 不声称“视线追踪 + 阅读分析”这个大方向由本项目首次提出。
本项目应当明确归属的是:项目发起人提出了面向学习阅读笔记的具体产品方向和实现方案,包括把阅读页内容定位、带时间戳的视线轨迹、页级原文映射、用户笔记需求和后续 AI 生成结合起来,先做可运行 MVP,再开源共建。
- 面向阅读学习场景,使用摄像头视线追踪记录阅读过程,让 AI 生成更贴近实际阅读轨迹的笔记、回看建议或自测问题。
- AI 笔记不应只总结全文,而应结合用户的笔记需求、阅读停留、快速跳过、回看和主动标注。
- 用户在开始前应能说明本次需求,因为“记笔记”可能服务于复习、考试、论文精读、建立框架或发现薄弱点等不同目标。
- 视线轨迹应带时间戳,并与阅读页内容对应,形成“哪些内容停留较多、哪些内容可能快速略过、在哪一页发生”的回看线索。
- 阅读页码和原文页码可能不一致,因此需要稳定保存阅读页到原文片段的映射。
- 用户画像应逐步形成,可以来自阅读目的、设置、标注、核对反馈等轻量交互,而不是一开始就做沉重问卷。
- 产品要防止用户过度依赖 AI。AI 应给建议、指出盲区、鼓励复述和思考,而不是一味恭维或替代学习。
- 走神提醒是重要方向,但必须谨慎。长时间停留可能是走神,也可能是有价值的思考,提醒应低频、可关闭、避免打断阅读。
- 笔记形式不必固定为传统提纲,可以根据用户需求和画像生成提问卡、回看清单、概念关系、自测题或其他更适合的形式。
- 鼠标和键盘也应参与阅读过程,例如选中一段文字来提示 AI 额外关注;同时也要允许沉浸式、低打扰阅读模式。
- 隐私和安全要前置考虑。摄像头画面不应进入上传流程,音频默认不采集,公开协作应避免泄露个人材料。
- 阅读过程不应制造过多噪音或配置压力,技术选型应尽量降低硬件负担和启动成本。
- 长期使用视线追踪可能带来眼部疲劳,但这不应草率做成“疲劳检测”。更适合先研究采样时长提示、休息提醒、可关闭策略和无摄像头模式;任何健康相关表述都不能当作医学判断。
- 长期形态可以探索托盘、悬浮窗或更轻量的入口,而不是每次都进入完整工具流程。
- 项目应先做 MVP,再在 GitHub 开源共建;技术选型和依赖需要注意许可边界。
原始方案的核心不是单纯“让 AI 总结文档”,而是先把阅读过程结构化,再把结构化后的阅读证据交给 AI:
- 对阅读页进行识别或渲染,得到和屏幕展示位置对应的文字片段。
- 给每个文字片段保留位置、页码和起止信息,使后续能知道阅读页与原文片段的对应关系。
- 采集带时间戳的视线轨迹,并与页面文字位置叠合,推断哪些区域停留较多、哪些区域可能快速略过。
- 保存每页的阅读行为摘要,例如页码、停留区域、可能略过区域、停留时长和用户主动标注。
- 生成笔记时,不把整篇原文无差别交给 AI,而是提交本次阅读范围内的原文、阅读行为摘要和用户填写的笔记需求。
- 注意阅读页码和原文页码可能不一致,因此需要在发送给 AI 前保留页级起止内容或片段映射。
当前 MVP 采用了这个方案的主体思想,但在工程实现上做了替换:没有使用通用截图 OCR 生成“特殊图片”,而是优先使用 PDF 渲染图 + PyMuPDF 文字框提取;前端提交实际屏幕中的文字框,后端再用 GazeFollower 的坐标和时间戳进行叠合。这样更稳定,也更容易测试和开源维护。
- 先做成本地优先的 Web MVP,支持上传 PDF、DOCX、TXT 和 Markdown。
- 采用固定翻页阅读,降低滚动导致的坐标错位风险。
- PDF 页面显示原文渲染图,同时提取文字框,供视线轨迹和文字内容对应。
- 记录页面浏览、布局变化、选中文本和 gaze 样本,再判断本次实际阅读范围。
- 生成笔记时只提交本次会话中有证据支持的阅读页。
- 主动选中文本作为用户明确动作,视线停留作为系统观察线索,避免把 gaze 坐标直接解释成理解。
- 生成笔记前停止视线追踪并释放摄像头,方便用户核对结果。
- 已实现:本地 Web 阅读器、固定翻页、PDF 页面渲染与文字框提取、GazeFollower 采样、阅读范围裁剪、程序生成证据面板、AI 辅助笔记。
- 半成品/降级能力:没有 gaze 时仍可依靠原文、页面停留和主动选中文本生成结果,但还不是完整的无摄像头手动模式。
- 未实现:长期用户画像、走神提醒、疲劳检测、生成前热区预览、完整证据确认、OCR、公式/表格/图片区域识别、托盘/悬浮窗/浏览器扩展、本地模型、会话管理界面。
- 研究中:眼部舒适度、阅读训练定位、视线追踪相对滚动/标注基线是否真的带来增量。
- 普通摄像头视线追踪更适合页面级、区域级或段落级判断,不适合承诺字级定位。
- 视线停留不等于真正理解或专注。长时间停留可能来自思考、困惑、走神或环境干扰。
- 固定翻页有助于 MVP 阶段稳定坐标映射,但长期仍应探索更自然的滚动、网页和 PDF 阅读方式。
- 摄像头开启会带来心理压力,即使画面不上云,也需要更清晰的状态提示、一键停止和无摄像头模式。
- 生成笔记前可以展示“用户明确动作、系统观察线索、证据缺口”,让用户确认 AI 将依据什么。
- 关闭摄像头后,系统应能降级为纯手动模式,继续依靠选中、标注、提问和用户反馈生成笔记。
- AI 更适合扮演阅读伙伴:帮助回看、提问、发现盲区,而不是直接替用户完成总结。
外部反馈提出的核心问题是合理的:如果滚动行为、停留时间和手动标注已经足够生成好结果,那么摄像头会增加隐私压力、启动成本和工程复杂度。这个问题不能靠口号回避。
保留摄像头路线也有合理性:澜页并不想只做又一个 PDF 标注 + AI 总结工具。摄像头的潜在价值在于更低打扰地获得阅读行为线索,并服务长期用户画像、阅读回溯和阅读训练。用户不一定会主动划线,主动标注也只能反映用户愿意显式表达的部分;如果 gaze 能在足够低成本下提供额外行为线索,它可能比要求用户频繁手动标注更自然。
因此,当前更客观的定位是:摄像头是本项目区别于常规笔记工具的实验性主线,但尚未被证明不可替代。它需要和无摄像头基线比较:同一篇文档下,仅原文 + 滚动/停留 + 主动标注,与加入 gaze 后,笔记质量、回看建议准确度、用户负担和隐私不适是否有可感知差异。如果差异不明显,摄像头应退为可选模块;如果差异明显,项目应强化“阅读行为量化和训练”定位,而不是只宣传 AI 自动生成笔记。
关于“是否移除 AI 笔记生成”:不必二选一。直接放弃笔记生成会让项目更像阅读训练工具,但也会损失最容易让用户理解的入口。更稳妥的做法是把“笔记”降级为一种输出形式,同时提高阅读回溯、证据面板、回看建议、自测问题和用户画像的权重。
- 段落级或区域级 gaze 证据,而不是字级判断。
- 生成前证据预览和用户确认。
- 设计无摄像头基线实验:比较“原文 + 滚动/停留 + 主动标注”和“加入 gaze”后的结果差异。
- 阅读行为量化与用户画像:把 gaze、停留、翻页、标注、核对反馈转成长期可解释的阅读模式,而不是只服务一次性笔记生成。
- 主动标注、疑问按钮、重点/困惑标记。
- 低打扰走神提醒和阅读回溯。
- 无摄像头模式与手动模式。
- 眼部舒适度研究:采样时长、休息提醒、可关闭策略;暂不做医学化疲劳判断。
- 更自然的滚动阅读方案。
- 托盘、悬浮窗或浏览器扩展形态。
- OCR、公式、表格和图片区域识别。
- 用户核对笔记后的反馈闭环。
- 本地模型或更强的隐私保护选项。
这些资料用于界定“已有方向”和“本项目具体方案”的边界,不代表它们与 MarginMind 完全相同:
- PeyeDF:一个带眼动支持的 PDF 阅读器,整合 PDF 阅读行为数据和 gaze 数据,并支持标注、标签和协作。
- GAVIN:使用 gaze 和机器学习把语音笔记隐式锚定到数字文档中的文本片段。
- EyeLiveMetrics:浏览器插件,把原始 gaze 坐标实时映射到网页文本,并计算词/段落级阅读指标。
- Feedback beyond accuracy:讨论阅读中的眼动指标如何作为理解度、兴趣等反馈的间接线索,也提醒 gaze 与认知状态之间不是简单等号。