项目想法与外部反馈

这份文档把两个来源分开说明：项目发起人的原始方向，以及外部 AI 反馈中适合公开讨论的补充意见。它是面向开源协作的公开摘要，不是原始想法文档全文。

原创性边界

这里不能把整个方向宣称为法律意义上的原创或新颖。公开资料中已经存在不少相关工作：例如带眼动数据采集的 PDF 阅读器、用 gaze 辅助笔记锚定、把 gaze 坐标实时映射到网页文本、用眼动研究阅读理解和学习过程等。因此，MarginMind 不声称“视线追踪 + 阅读分析”这个大方向由本项目首次提出。

本项目应当明确归属的是：项目发起人提出了面向学习阅读笔记的具体产品方向和实现方案，包括把阅读页内容定位、带时间戳的视线轨迹、页级原文映射、用户笔记需求和后续 AI 生成结合起来，先做可运行 MVP，再开源共建。

项目发起人的原始方向

面向阅读学习场景，使用摄像头视线追踪记录阅读过程，让 AI 生成更贴近实际阅读轨迹的笔记、回看建议或自测问题。
AI 笔记不应只总结全文，而应结合用户的笔记需求、阅读停留、快速跳过、回看和主动标注。
用户在开始前应能说明本次需求，因为“记笔记”可能服务于复习、考试、论文精读、建立框架或发现薄弱点等不同目标。
视线轨迹应带时间戳，并与阅读页内容对应，形成“哪些内容停留较多、哪些内容可能快速略过、在哪一页发生”的回看线索。
阅读页码和原文页码可能不一致，因此需要稳定保存阅读页到原文片段的映射。
用户画像应逐步形成，可以来自阅读目的、设置、标注、核对反馈等轻量交互，而不是一开始就做沉重问卷。
产品要防止用户过度依赖 AI。AI 应给建议、指出盲区、鼓励复述和思考，而不是一味恭维或替代学习。
走神提醒是重要方向，但必须谨慎。长时间停留可能是走神，也可能是有价值的思考，提醒应低频、可关闭、避免打断阅读。
笔记形式不必固定为传统提纲，可以根据用户需求和画像生成提问卡、回看清单、概念关系、自测题或其他更适合的形式。
鼠标和键盘也应参与阅读过程，例如选中一段文字来提示 AI 额外关注；同时也要允许沉浸式、低打扰阅读模式。
隐私和安全要前置考虑。摄像头画面不应进入上传流程，音频默认不采集，公开协作应避免泄露个人材料。
阅读过程不应制造过多噪音或配置压力，技术选型应尽量降低硬件负担和启动成本。
长期使用视线追踪可能带来眼部疲劳，但这不应草率做成“疲劳检测”。更适合先研究采样时长提示、休息提醒、可关闭策略和无摄像头模式；任何健康相关表述都不能当作医学判断。
长期形态可以探索托盘、悬浮窗或更轻量的入口，而不是每次都进入完整工具流程。
项目应先做 MVP，再在 GitHub 开源共建；技术选型和依赖需要注意许可边界。

项目发起人提出的具体实现方案

原始方案的核心不是单纯“让 AI 总结文档”，而是先把阅读过程结构化，再把结构化后的阅读证据交给 AI：

对阅读页进行识别或渲染，得到和屏幕展示位置对应的文字片段。
给每个文字片段保留位置、页码和起止信息，使后续能知道阅读页与原文片段的对应关系。
采集带时间戳的视线轨迹，并与页面文字位置叠合，推断哪些区域停留较多、哪些区域可能快速略过。
保存每页的阅读行为摘要，例如页码、停留区域、可能略过区域、停留时长和用户主动标注。
生成笔记时，不把整篇原文无差别交给 AI，而是提交本次阅读范围内的原文、阅读行为摘要和用户填写的笔记需求。
注意阅读页码和原文页码可能不一致，因此需要在发送给 AI 前保留页级起止内容或片段映射。

当前 MVP 采用了这个方案的主体思想，但在工程实现上做了替换：没有使用通用截图 OCR 生成“特殊图片”，而是优先使用 PDF 渲染图 + PyMuPDF 文字框提取；前端提交实际屏幕中的文字框，后端再用 GazeFollower 的坐标和时间戳进行叠合。这样更稳定，也更容易测试和开源维护。

当前 MVP 的落地方式

先做成本地优先的 Web MVP，支持上传 PDF、DOCX、TXT 和 Markdown。
采用固定翻页阅读，降低滚动导致的坐标错位风险。
PDF 页面显示原文渲染图，同时提取文字框，供视线轨迹和文字内容对应。
记录页面浏览、布局变化、选中文本和 gaze 样本，再判断本次实际阅读范围。
生成笔记时只提交本次会话中有证据支持的阅读页。
主动选中文本作为用户明确动作，视线停留作为系统观察线索，避免把 gaze 坐标直接解释成理解。
生成笔记前停止视线追踪并释放摄像头，方便用户核对结果。

模块状态边界

已实现：本地 Web 阅读器、固定翻页、PDF 页面渲染与文字框提取、GazeFollower 采样、阅读范围裁剪、程序生成证据面板、AI 辅助笔记。
半成品/降级能力：没有 gaze 时仍可依靠原文、页面停留和主动选中文本生成结果，但还不是完整的无摄像头手动模式。
未实现：长期用户画像、走神提醒、疲劳检测、生成前热区预览、完整证据确认、OCR、公式/表格/图片区域识别、托盘/悬浮窗/浏览器扩展、本地模型、会话管理界面。
研究中：眼部舒适度、阅读训练定位、视线追踪相对滚动/标注基线是否真的带来增量。

外部反馈补充

普通摄像头视线追踪更适合页面级、区域级或段落级判断，不适合承诺字级定位。
视线停留不等于真正理解或专注。长时间停留可能来自思考、困惑、走神或环境干扰。
固定翻页有助于 MVP 阶段稳定坐标映射，但长期仍应探索更自然的滚动、网页和 PDF 阅读方式。
摄像头开启会带来心理压力，即使画面不上云，也需要更清晰的状态提示、一键停止和无摄像头模式。
生成笔记前可以展示“用户明确动作、系统观察线索、证据缺口”，让用户确认 AI 将依据什么。
关闭摄像头后，系统应能降级为纯手动模式，继续依靠选中、标注、提问和用户反馈生成笔记。
AI 更适合扮演阅读伙伴：帮助回看、提问、发现盲区，而不是直接替用户完成总结。

关于摄像头必要性的客观判断

外部反馈提出的核心问题是合理的：如果滚动行为、停留时间和手动标注已经足够生成好结果，那么摄像头会增加隐私压力、启动成本和工程复杂度。这个问题不能靠口号回避。

保留摄像头路线也有合理性：澜页并不想只做又一个 PDF 标注 + AI 总结工具。摄像头的潜在价值在于更低打扰地获得阅读行为线索，并服务长期用户画像、阅读回溯和阅读训练。用户不一定会主动划线，主动标注也只能反映用户愿意显式表达的部分；如果 gaze 能在足够低成本下提供额外行为线索，它可能比要求用户频繁手动标注更自然。

因此，当前更客观的定位是：摄像头是本项目区别于常规笔记工具的实验性主线，但尚未被证明不可替代。它需要和无摄像头基线比较：同一篇文档下，仅原文 + 滚动/停留 + 主动标注，与加入 gaze 后，笔记质量、回看建议准确度、用户负担和隐私不适是否有可感知差异。如果差异不明显，摄像头应退为可选模块；如果差异明显，项目应强化“阅读行为量化和训练”定位，而不是只宣传 AI 自动生成笔记。

关于“是否移除 AI 笔记生成”：不必二选一。直接放弃笔记生成会让项目更像阅读训练工具，但也会损失最容易让用户理解的入口。更稳妥的做法是把“笔记”降级为一种输出形式，同时提高阅读回溯、证据面板、回看建议、自测问题和用户画像的权重。

适合后续拆成 issue 的方向

段落级或区域级 gaze 证据，而不是字级判断。
生成前证据预览和用户确认。
设计无摄像头基线实验：比较“原文 + 滚动/停留 + 主动标注”和“加入 gaze”后的结果差异。
阅读行为量化与用户画像：把 gaze、停留、翻页、标注、核对反馈转成长期可解释的阅读模式，而不是只服务一次性笔记生成。
主动标注、疑问按钮、重点/困惑标记。
低打扰走神提醒和阅读回溯。
无摄像头模式与手动模式。
眼部舒适度研究：采样时长、休息提醒、可关闭策略；暂不做医学化疲劳判断。
更自然的滚动阅读方案。
托盘、悬浮窗或浏览器扩展形态。
OCR、公式、表格和图片区域识别。
用户核对笔记后的反馈闭环。
本地模型或更强的隐私保护选项。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

项目想法与外部反馈

原创性边界

项目发起人的原始方向

项目发起人提出的具体实现方案

当前 MVP 的落地方式

模块状态边界

外部反馈补充

关于摄像头必要性的客观判断

适合后续拆成 issue 的方向

相关公开工作

FilesExpand file tree

IDEA_AND_FEEDBACK.zh.md

Latest commit

History

IDEA_AND_FEEDBACK.zh.md

File metadata and controls

项目想法与外部反馈

原创性边界

项目发起人的原始方向

项目发起人提出的具体实现方案

当前 MVP 的落地方式

模块状态边界

外部反馈补充

关于摄像头必要性的客观判断

适合后续拆成 issue 的方向

相关公开工作