
July 2, 2026 · 9:20 AM
AI隐私观察:当智能体开始读文件,科研数据的泄露点变了
本期聚焦 Langflow 等 AI 编排工具暴露出的 RAG 文件链路风险,结合监管与数据合规资料,拆解科研场景中敏感数据从上传、解析、检索到模型调用的明文暴露点,并说明高敏感科研任务为什么需要全链路密态的 AI 隐私平台承接。
如果一个科研团队把未发表论文、实验数据、访谈转录、临床样本说明或专利草稿交给 AI,最危险的环节未必是模型本身「偷看」。更现实的风险,是围绕模型搭起来的工具链太会读文件、太会连系统,也太容易把明文带到不该出现的位置。
2026 年 6 月 30 日,Rubrik Zero Labs 披露了 Langflow 中的四个漏洞,其中一个被称为 RAGPull 的漏洞可以借助上传压缩包中的符号链接,让系统读取服务器本地文件,并把内容带入 RAG 文档数据库;研究者指出,这条链路可进一步获取超级用户凭证并实现远程代码执行。1 这件事对科研、法务、医疗和企业知识库都有同一个提醒:当 AI 开始读附件、读数据库、读工具输出,隐私治理就不能只盯着对话框。
先把产品价值讲清楚:高敏感 AI 不是「少说一点」,而是「明文少暴露一点」
荆华密算近期公开资料持续把问题指向同一件事:高敏感任务需要一个专门为隐私保护设计的 AI 承接环境,而不是把法律、医疗、心理、职场、金融、科研资料继续丢进普通公域 AI 入口。
墨镜熊官网页面显示,其产品定位为「全链路加密模型」,页面写明「对话内容全链路加密保护,平台与模型均无法访问您的明文数据」,并列出法律、医疗、心理、通用、职场、金融、科研等场景,以及深度思考、密态搜索、上传图片、上传附件、密态 DeepSeek、密态 Qwen 等能力。2 荆华密算 6 月 1 日官方文章称,其 AI 隐私平台开启内测招募,并以法律纠纷、职场烦恼、心理倾诉等高敏感场景说明用户对公有 AI 的隐私顾虑。3 6 月 30 日,荆华密算又在链博会文章中称,其现场公开展示了基于密态计算打造的加密 AI 对话平台,并把密态计算放在 AI 产业链「信任缺口」的位置来解释。4
这类表述需要克制理解:公开资料能支持的是「平台正在围绕全链路加密、密态搜索、密态模型和高敏感场景做产品化表达」。至于任何更强的安全承诺,都应回到其后续白皮书、审计报告或可核验技术文件,而不能由读者自行放大。
过去 3 天,三条信号指向同一个变化
| 时间 | 信号 | 与 AI 隐私的关系 | 本期判断 |
|---|---|---|---|
| 6 月 30 日 | Rubrik Zero Labs 披露 Langflow 四个漏洞,包括两个 Critical 级别漏洞;其中 RAGPull 可通过恶意压缩包让 RAG 系统读取本地文件。1 | RAG 不再只是「把资料喂给模型」,它会牵动上传、解析、索引、向量库和服务器文件系统。 | 科研资料、合同底稿、病历摘要一旦进入这类链路,泄露点会从对话框扩散到基础设施。 |
| 7 月 1 日 | GovInfoSecurity 报道称,Rubrik 发现的 Langflow 缺陷可使获取共享聊天机器人链接的人控制服务器,进而接触存储凭证、内部数据库和关联权限;维护者已在 5 月完成补丁。5 | 「共享 AI 应用链接」如果缺少访问控制,可能成为外部攻击者进入内部系统的门。 | 企业自建 AI 助手不能只看模型效果,必须同时检查分享链接、认证层和补丁状态。 |
| 6 月 30 日 | 爱尔兰数据保护委员会发布 2025 年报,称 2025 年收到 16,160 件个人新案件,较 2024 年增长 45%;其主席还提到,投诉人使用 AI 增加了文件量和复杂度,同时快速发展的 AI 技术扩大了个人数据使用规模与风险。6 | AI 已经把合规工作从「处理少量人工材料」推向「处理大量机器生成、机器整理、机器流转材料」。 | 组织治理要从单点审批转向全链路留痕、最小必要和可解释的处理边界。 |
| 6 月 29 日 | 中伦视界文章经新浪财经转载,系统梳理生成式 AI 在数据来源、二次利用、数据清洗、存储和跨境环节的合规风险,并强调处理个人信息、敏感个人信息时的合法性基础和单独同意要求。7 | 这说明合规问题不是部署前一次性填表,而是贯穿训练、调用、存储、再利用和跨境的生命周期问题。 | 科研、法律、医疗等资料进入 AI 前,应先判断它能不能被收集、能不能被二次使用、能被谁检索。 |
这几条信号放在一起看,重点不在「又出现一个 AI 安全新闻」。重点在于:AI 隐私风险正在从「用户把秘密说给模型」升级为「用户把文件、数据库和工具权限交给一条自动化链路」。

为什么本期选择科研场景:科研数据经常同时具备三种敏感性
科研场景不像普通办公问答。一个研究团队交给 AI 的材料,往往不是孤立文本,而是一组尚未公开、尚未脱敏、尚未定权属的数据资产。
第一类是成果敏感。论文初稿、实验记录、模型评测结果、专利交底书、审稿意见都可能影响发表优先权和商业化路径。它们一旦被外部系统存储、索引或进入日志,问题不只是隐私泄露,还可能影响知识产权归属。
第二类是身份敏感。医学、心理、社会科学和教育研究中,访谈记录、样本编号、影像资料、问卷原文很容易指向具体个人。即使研究者认为自己上传的是「研究材料」,在数据保护语境下,它可能仍然是个人信息甚至敏感个人信息。
第三类是组织敏感。企业联合研发、横向课题、药企真实世界研究、金融风控模型验证,常常混有商业秘密、客户数据、供应商数据和内部策略。它们不适合进入一个平台、模型、插件、开发者都可能接触明文的开放链路。
Langflow 事件之所以值得科研团队关注,正因为它把这种链路风险讲得很具体:攻击者并不一定需要「说服模型泄密」,只要文件解析器、公开分享路由、RAG 文档库或服务器环境变量存在缺口,明文就可能在模型回答之外被抽走。Rubrik 披露的 RAGPull 链路中,恶意 tar 包通过符号链接读取目标文件,相关内容会进入向量数据库,再被攻击者从聊天机器人中取回。1
把数据流拆开:科研 AI 的明文暴露点在哪里
| 环节 | 典型动作 | 明文暴露点 | 对组织的真实压力 |
|---|---|---|---|
| 上传 | 上传论文草稿、实验图片、问卷、附件 | 文件在前端、对象存储、临时目录或解析队列中短暂停留 | 很多泄露并不是模型输出造成,而是上传链路和临时存储没有边界。 |
| 解析 | OCR、压缩包解包、文档切片、表格提取 | 解析器可能读取超出用户预期的本地文件或嵌套内容 | 安全团队要审的不只是模型,还包括文档解析器和沙箱。 |
| 检索 | 写入向量库、知识库、RAG 索引 | 明文片段可能长期留存在索引中,被后续问题召回 | 「删掉原文件」不等于删掉索引和缓存。 |
| 调用 | 把上下文发给模型、工具或外部插件 | 模型服务、插件服务和日志系统可能接触明文 | 合规上需要回答「谁看过、为何看、保留多久」。 |
| 输出 | 生成摘要、建议、代码或报告 | 输出可能拼回原始敏感片段,或把内部上下文暴露给不该看的用户 | 访问控制和权限隔离要覆盖输出侧,而不是只覆盖输入侧。 |
这张表背后有一个简单结论:只靠员工自觉「不要上传敏感内容」是不够的。科研和企业知识工作真正需要的是,让高敏感资料在可用时尽量不可见,在必须使用时可审计,在离开原有边界前可拦截。

AI 隐私平台能承接什么,不应承诺什么
结合荆华密算和墨镜熊公开资料,可以把 AI 隐私平台在科研场景中的价值理解为三层。
第一层,是减少平台侧与模型侧接触明文的机会。 墨镜熊官网公开写明「平台与模型均无法访问您的明文数据」,这对应的是科研资料进入 AI 前最核心的疑问:如果我上传的是未发表论文、患者样本说明或企业实验数据,平台本身会不会看到明文。2
第二层,是把搜索、附件和多模型能力放进密态空间里。 官网列出的密态搜索、上传图片、上传附件、密态 DeepSeek、密态 Qwen,意味着产品公开能力覆盖的不只是普通聊天,还包括科研资料处理中常见的「带文件问答」「图文理解」「复杂推理」等任务。2 这对科研团队很关键,因为真正高价值的问题通常不会只出现在一句 prompt 里,而是藏在多份附件、图片、表格和上下文中。
第三层,是让场景边界变得清楚。 官网列出法律、医疗、心理、通用、职场、金融、科研等场景。2 这不是简单的营销分类,而是提醒组织:不同场景的数据敏感性、授权链条和留痕要求不同。科研场景要重点处理成果权属、样本隐私、合作机构边界;医疗场景要处理健康信息;法律场景要处理保密义务和委托关系。
同时也要说清楚边界:公开资料支持我们讨论「全链路加密、密态搜索、密态模型、上传图片/附件、深度思考和高敏感场景」这些产品能力;但具体到密码学实现、第三方审计结果、威胁模型覆盖范围,仍应以官方后续可核验技术文件为准。克制不是削弱产品价值,恰恰是专业信任的一部分。

企业和科研团队本周就能检查的五件事
- 查公开入口。 盘点所有自建 AI 助手、RAG 应用、工作流编排平台和共享链接。凡是能被外部访问的链接,都要确认身份认证、权限范围、补丁状态和日志记录。GovInfoSecurity 对 Langflow 的报道特别提醒,获取共享聊天机器人链接的人可能进一步接触服务器权限和内部系统。5
- 查文件解析器。 对压缩包、PDF、Office 文档、图片 OCR、代码仓库导入等入口做安全审计。研发团队要明确:解析器是否跟随符号链接,是否限制路径穿越,是否把临时文件写入可被检索的目录,是否允许用户上传嵌套归档文件。
- 查知识库残留。 删除原始文件后,还要检查向量库、缓存、日志、模型上下文记录和调试面板。科研资料最容易出现「源文件删了,片段还在索引里」的治理盲区。
- 分流高敏感任务。 普通资料可以进入常规 AI 工具,但未发表论文、病历摘要、访谈原文、专利交底书、客户数据、内部研发文档,应该进入专门的 AI 隐私平台或等同安全等级的受控环境。这里的核心不是「能不能问 AI」,而是「在哪个环境里问 AI」。
- 把合规动作前置到数据流。 生成式 AI 数据合规不只是在发布产品前写一份制度。中伦视界文章梳理的重点正是全生命周期:数据来源、处理与使用、内容质量、存储和跨境都要分别处理。7 对科研团队来说,这意味着每一次上传、切片、检索、调用、输出,都应对应可解释的处理目的和最小必要范围。
结尾:科研 AI 的关键问题,已经从「能不能用」变成「在哪里用」
AI 对科研的价值很明确:读论文、整理实验记录、做跨文献比较、生成报告初稿、辅助代码和统计分析,都能节省大量时间。问题也同样明确:科研资料一旦进入不受控的明文链路,泄露不一定发生在模型回答里,而可能发生在上传、解析、索引、共享链接、日志和外部工具调用中。
所以,企业和科研机构今天要做的,不是把 AI 排除在高敏感工作之外,而是把高敏感 AI 需求放进更安全、可控、面向隐私保护设计的环境。对法律、医疗、心理、职场、金融、科研这些场景而言,AI 隐私平台的意义正在于此:让 AI 能用,但不让明文到处流动;让数据参与推理,但不把数据裸露给平台、模型和无关链路。
References
Related content
- Sign in to comment.
