当下,中国国产大模型正通过提质增效的方式锚定AI普惠“新坐标”,形成从技术到应用,再从应用反哺技术创新的完整闭环。随着大模型技术从实验室走向产业纵深,大模型将加速向垂直领域渗透,成为产业智能化升级的“数字神经元”。在此进程中,其安全性与可控性已成为实现规模化应用的核心命题,安全与智能的深度融合将成为突破技术壁垒、实现可持续发展的关键。
但是,当下大模型安全也存在几个短板。大模型需处理大量敏感数据,如用户搜索记录、社交媒体互动及交易信息等,这使其面临数据泄露和隐私侵犯的风险。同时,模型自身可能存在缺陷或后门,容易成为攻击目标。一旦模型参数和权重被泄露,不仅会导致知识产权损失,还可能被恶意复制或篡改,进一步加剧风险。此外,针对模型的特定攻击(如投毒攻击)可能操控输出结果,干扰正常业务运行。
大模型系统往往作为知识载体,支撑人类认知决策,尤其在网络领域的信息内容安全风险方面,大模型生成的内容可能引发虚假信息传播、歧视偏见、隐私泄露、侵权、有害内容等问题,进而威胁公民生命财产安全、国家安全、意识形态安全和伦理安全。
大模型安全性有新的挑战,主要是由于其迭代速度快产生的。传统硬件产品一般具有十年以上的生命周期,传统软件通常认为有3~5年生命周期,而大模型每年都有多次迭代。我们说大模型的安全性,不是这个版本测评完安全,下一个版本就没问题,它是一个动态更新的过程。另外,大模型在更新、攻击技术也在更新。以人脸识别这一场景应用为例,过去我们解决了很多因为摄像头捕捉头模、照片、视频这些虚假元素的问题。但是,随着生成式大模型,尤其是视频类生成技术的飞速发展,通过视频伪造虚假身份,可以实时模拟人的一些动作,安全问题就更严峻了。
通过AI系统的边界防护能力,为企业提供全面的网络层安全防护,通过流量业务预警、抽样分析和模式过滤等技术手段,快速识别并阻断攻击流量,并利用双向僵木蠕检测功能,快速识别并阻断僵尸网络攻击,确保大模型应用服务的稳定运行。通过内容生成监控,利用协议解析引擎与多种识别技术,实时过滤违规信息,构建提示注入训练数据集,增强对优化提示指令及对抗攻击模板的检测能力,防止非法内容发布或参数泄露。采用深度内容识别技术,结合关键字检测、OCR图像文字检测等方式,全面监测敏感信息并及时阻断违规行为。通过成员推理攻击防护机制和用户行为分析,降低隐私泄漏风险。同时,梳理并分类API接口,提供可视化监控界面,实现数据流动的全程跟踪与保护。(西南政法大学 王璐瑶)