员工使用GenAI工具效率激增,同时引发敏感数据暴露风险飙升
Harmonic Security最新季度报告指出,大量员工在使用生成式AI(GenAI)工具和集成AI功能的SaaS应用时,无意中提交了包含敏感信息的文件和请求,导致数据暴露风险显著上升。
01
敏感数据暴露现状:超两成文件含有高风险信息
报告基于2025年第二季度(4月至6月)对300款GenAI工具及AI增强SaaS平台的监测数据进行分析,覆盖了 100万条用户输入指令(prompt)和 2万份上传文件。
主要发现包括:
22% 的上传文件(约4,400份)含有敏感数据;
4.37% 的prompt(约43,700条)包含敏感信息。
被暴露的敏感信息类型包括:
源代码、访问凭据和专有算法;
并购(M&A)文档;
客户或员工记录;
内部财务数据。
02
工具种类持续激增,安全审查压力加大
在第二季度内,企业员工平均开始使用 23款此前未登记过的GenAI工具,极大增加了安全团队的审查难度。
值得注意的是,大量AI工具使用是通过个人账号完成的,这些账户往往未经企业授权,也缺乏必要的安全控制:
47.42% 的Perplexity敏感数据上传来自非企业账号;
ChatGPT为 26.3%,Google Gemini为 15%。
03
各平台数据暴露情况
在敏感Prompt的来源分布中,排名前几的GenAI平台为:
ChatGPT:72.6%
Microsoft Copilot:13.7%
Google Gemini:5.0%
Claude:2.5%
Poe:2.1%
Perplexity:1.8%
代码泄露是最常见的暴露类型,尤其集中在 ChatGPT、Claude等平台。
04
文件上传:敏感信息集中区
二季度内,企业平均上传文件总量达 1.32GB,其中PDF占比约一半。 但文件中敏感信息的集中程度远高于Prompt输入:
05
看不见的风险:SaaS应用中的“隐性AI”
报告指出,风险不仅来自主流聊天机器人,越来越多普通SaaS工具因集成大模型能力而成为潜在风险源,即便这些工具并未被明确标注为“AI工具”。
例如:
Canva被用于编辑法律策略、并购计划与客户数据;
Replit 和 Lovable.dev被用于提交含有专有代码和访问密钥的任务;
Grammarly 和 Quillbot被用于修改合同、客户邮件与内部法律文本。
06
热门GenAI工具使用带来数据泄露风险
报告指出,平均每家企业中 约7.95% 的员工使用了热门GenAI平台,共触发 535起敏感数据暴露事件,其中包括:
32.8% 涉及源代码、凭据或专有算法;
18.2% 涉及并购文件与投资模型;
17.8% 为客户/员工个人身份信息;
14.4% 含内部财务信息。
这类风险尤其引发对国家级数据外泄或模型训练被污染的担忧。
07
防护建议:数据级别的“上下文感知控制”成为关键
Harmonic Security 联合创始人兼 CEO Alastair Paterson 强调:
“我们的客户并未因这些敏感上传而发生真正泄露,浏览器层面的防护及时阻止了数据传出。但若无此类控制,敏感数据不仅可能被用作AI模型训练,还可能落入敌对国家之手。”
他建议所有企业:
建立 全面可见性体系,覆盖所有员工使用的AI工具(包括免费版及集成型SaaS);
实施 上下文感知的数据控制,明确数据使用场景,动态阻断高风险行为。
报告数据来自Harmonic的浏览器扩展插件,记录用户在SaaS和GenAI平台上的操作行为,仅使用匿名化、聚合后的数据用于研究分析。