
2026. 6. 29. · 17:49
把论文和实验数据交给 AI,谁来保证成果不会先被看见?
本期聚焦科研场景:当论文草稿、实验记录、基因数据和多中心合作材料进入 AI 流程,AI 隐私平台如何用密态计算、最小化处理、权限分级和审计追踪降低泄密风险。
리서치 브리프
一间实验室最怕的泄密,未必发生在论文投稿之后。
更危险的时刻,常常来得很早:课题组把还没发表的实验记录、失败样本、受试者背景、基因测序结果、同行评审意见,一股脑交给 AI 整理。AI 越会读,越能帮研究者从混乱材料里找到线索;可同一批材料里,也可能藏着个人隐私、商业秘密、国家安全相关数据和还没公开的科研成果。
这就是科研场景里的 AI 隐私悖论:如果不给 AI 足够真实、足够细的数据,它很难帮研究者提高效率;如果把真实数据直接暴露给公共模型、外部插件或不透明的云端日志,科研团队可能还没等到成果发表,就先把成果和数据边界交了出去。
科研数据的敏感性,不止在「个人信息」这一层
科研材料不像普通办公文档。它经常把几类高风险信息压在同一个文件夹里:人的信息、机构的秘密、尚未发表的知识产权,以及可能触及国家安全和公共利益的数据。
《个人信息保护法》把医疗健康、生物识别、金融账户、行踪轨迹等列为敏感个人信息,并要求只有在特定目的、充分必要且采取严格保护措施时才能处理;该法还要求个人信息处理者采取分类管理、加密、去标识化、权限控制等措施,防止未经授权访问和泄露。1
《数据安全法》则从数据本身的危害程度出发,要求建立数据分类分级保护制度;对重要数据,还要求明确数据安全负责人和管理机构,并开展风险评估。2这意味着科研团队不能只问「这份数据有没有姓名和身份证号」,还要问它一旦被篡改、泄露、非法获取或非法利用,会不会影响公共利益、产业安全、科研诚信或合作方权益。
在科研现场,这些风险通常不是单独出现的。
| 进入 AI 前的材料 | 真实风险 | 隐私平台要先解决什么 |
|---|---|---|
| 受试者访谈、病例摘要、行为量表 | 可能涉及医疗健康、心理状态、家庭关系等敏感个人信息;处理前要有明确目的、必要性和严格保护措施。1 | 先做数据分级、最小化输入和授权隔离,避免把整份原始材料直接喂给模型。 |
| 基因、基因组数据和样本衍生信息 | 人类遗传资源信息包括利用人类遗传资源材料产生的人类基因、基因组数据等信息资料。3 | 把 AI 辅助分析放进受控环境,不把数据开放给未经审批或未经授权的外部主体。 |
| 政府预算资金支持形成的科学数据 | 《科学数据管理办法》要求科学数据管理遵循分级管理、安全可控、充分利用原则。4 | 在共享和保密之间设权限、目录、脱敏和审计,而不是简单地全开放或全封存。 |
| 未发表论文、专利构思、实验失败记录 | 这些材料未必都属于个人信息,却可能构成商业秘密、课题竞争优势或成果优先权证据。 | 需要把模型调用、复制下载、外发协作都纳入日志和权限边界,防止「为了润色」造成外泄。 |
科研里的隐私保护,不能停在「把姓名删掉」这一步。很多研究材料即使没有姓名,也可能通过疾病类型、地区、罕见表型、时间线、机构信息重新指向某个人、某个团队或某项尚未公开的研究。
AI 隐私平台要改变的是「谁能看见原文」
公共 AI 工具最方便的地方,是复制、粘贴、马上出结果。科研场景最危险的地方,也正在这里。研究者复制进去的,可能不是一段普通文字,而是未来论文的核心实验设计、专利的关键思路,或受试者没有同意外部处理的原始材料。
AI 隐私平台的价值,不在于把科研判断交给机器,而在于重新安排数据进入 AI 流程的方式。公开产品资料中,全链路密态 AI 助手的典型路径是:输入在本地加密,云端在看不见明文的状态下进行推理计算,结果返回后再在本地解密。5
换到科研场景,这条路径可以理解成三个变化。
第一,原始材料先在本地被分级,而不是先被上传
课题组把材料交给 AI 前,平台应当先判断它是什么:公开论文、内部会议纪要、受试者材料、实验记录、基因组数据、合同或知识产权文件。不同等级的材料,不应该进入同一条处理通道。
对低风险公开材料,AI 可以帮助做摘要、比对、翻译和文献综述。对高敏感材料,平台应当默认压缩输入范围,只让模型看到完成任务所必需的片段;如果任务只是生成会议纪要,就不该把完整受试者编号、原始影像链接和样本出入库记录一起送进去。
这和《个人信息保护法》里的最小必要原则是一致的:处理个人信息应当具有明确、合理的目的,并与处理目的直接相关,收集范围也应限于实现处理目的的最小范围。1
第二,模型可以计算,但平台尽量不让后台看见明文
传统加密常常保护「存着的数据」和「传输中的数据」,但 AI 推理的麻烦在于:模型要处理数据时,数据通常会在计算环节被解开。Confidential Computing Consortium 对机密计算的表述是保护使用中的数据,补上静态存储和网络传输加密之外的缺口;它也把协作临床试验、AI 训练和多方数据协作列为典型使用场景。6
科研场景正需要补这个缺口。一个多中心项目想用 AI 汇总各医院的实验数据,各方未必愿意把原始数据交给同一个中心;一个企业联合高校做材料研发,也未必能让对方看到完整配方、失败样本和工艺参数。密态计算、可信执行环境、多方安全计算等技术路线的共同目标,是让计算发生在更可验证、更受限制的边界里。
对使用者来说,这不该被包装成「绝对安全」。更准确的说法是:平台把明文暴露面从「模型服务、日志、运维、第三方插件都可能接触」压缩到更窄的本地和授权边界,并通过加密、隔离、审计来降低被看见的机会。
第三,协作不再等同于复制一份数据出去
科研合作经常卡在一个现实问题上:数据不共享,研究做不深;数据一共享,责任说不清。
《科学数据管理办法》提出,政府预算资金资助形成的科学数据应按照开放为常态、不开放为例外的原则开放共享;但涉及国家秘密、国家安全、社会公共利益、商业秘密和个人隐私的科学数据,不得对外开放共享,确需开放的,要审查利用目的、用户资质和保密条件,并严格控制知悉范围。4
AI 隐私平台在这里能做的,不是绕过这些审查,而是让「可用」和「可见」分开。外部合作方可以得到经授权的分析结果、统计结论或模型输出,却不必拿走完整原始数据。平台记录谁在什么目的下调用了哪些材料、生成了什么结果、是否导出或转发,出了问题也能回到日志里追溯。
生物医药科研是最典型的压力测试
如果要找一个最能暴露科研 AI 隐私风险的场景,生物医药研发大概排在前面。
它同时涉及患者或受试者信息、样本、基因数据、临床试验、跨机构协作和潜在知识产权。《人类遗传资源管理条例》明确,人类遗传资源包括材料和信息;其中信息是利用人类遗传资源材料产生的数据等信息资料。条例还要求采集、保藏、利用、对外提供我国人类遗传资源时,应符合伦理原则,取得事先知情同意,并保护提供者的隐私权和合法权益。7
实施细则进一步要求,采集、保藏、利用、对外提供我国人类遗传资源应尊重和保障提供者的隐私权和个人信息等权益,按规定获取书面知情同意;将人类遗传资源信息向境外组织、个人及其设立或者实际控制的机构提供或开放使用的,还涉及事先报告、信息备份和特定情形下的安全审查。3
这类项目中,AI 能做很多事:整理试验方案,核对纳排标准,辅助写受试者招募材料,提取不良事件线索,比较多中心数据差异,协助生成监管或伦理材料的初稿。问题是,每一个动作都可能碰到不该外流的明文。
AI 隐私平台比较稳妥的做法,是把生物医药科研拆成几层处理:公开文献和法规材料可以进入普通知识库;内部方案和会议纪要进入受控项目空间;受试者和样本数据只在更严格的密态或隔离环境里参与计算;任何跨境、对外提供或开放使用,都不由 AI 自动决定,而是回到伦理、法务、数据治理和项目负责人共同确认的流程里。
换句话说,平台负责把「看得见」变成一项需要被授权、被记录、被解释的动作,而不是默认权限。
它不能替科研团队做合规决定
科研人员容易把 AI 当作更聪明的助理。这个比喻有用,但也危险。助理如果坐在办公室里,至少知道谁能进门、哪份文件不能带走;公共 AI 往往没有这层组织边界。
AI 隐私平台应当明确几条红线。
第一,它不能替代伦理审查。涉及人体、动物、个人敏感信息、心理行为干预、算法对个体权益产生影响等研究,仍然要按伦理审查和单位制度执行。2026 年多部门印发的《人工智能科技伦理审查与服务办法(试行)》已经把人工智能科技伦理审查纳入制度化服务和风险防范框架。8
第二,它不能替代数据出境、安全评估或人类遗传资源相关审批备案。平台可以帮助团队识别材料类型、留下证据链、控制访问范围,但不能因为「技术上看不见明文」就把需要审批的活动变成无需审批。
第三,它不能替代研究者判断。AI 可以帮忙总结异常值、提示文献冲突、整理审稿意见,但不能代替课题负责人确认实验设计是否成立、样本是否足够、统计方法是否适用。隐私保护解决的是「材料如何安全进入 AI」,不是「AI 产出的科研结论天然可靠」。
一套更适合科研团队的使用清单
真正落地时,科研团队不需要先把所有技术名词都学完。更实用的做法,是在把材料交给 AI 前,先问五个问题。
- 这份材料里有没有可识别自然人的信息,或者通过组合信息重新识别个人的可能?
- 它是否涉及基因、基因组、样本来源、临床研究、心理量表、影像、罕见病或特定地区人群?
- 它是否包含尚未发表的论文结论、专利构思、配方、算法、实验失败记录或合作协议?
- 这次 AI 任务真正需要哪些字段,哪些原文可以删掉、替换、概括或留在本地?
- 谁能发起调用、谁能查看结果、谁能导出,平台是否留下可追溯记录?
如果这五个问题答不上来,就不要急着把整包材料上传。科研里的很多泄密,不是黑客攻破系统,而是团队为了省十分钟,把边界不清的文件发给了边界不清的工具。
AI 隐私平台要保护的,也不只是某一份实验数据。它保护的是研究者在成果公开之前的沉默期,是受试者把身体和经历交给研究时的信任,是机构在合作里既要开放又要守边界的能力。AI 会越来越会读科研材料。越是这样,科研团队越需要一条规则:让 AI 使用数据,但不要让不该看见的人先看见数据。

이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.