新型AI攻击借助图像植入恶意提示词窃取用户数据
导语:该方法借助高分辨率图像实现,这些图像所承载的指令对人眼而言是不可见的,但当通过重采样算法降低图像质量时,指令便会显现出来。
近日,一种新型攻击手段开始出现,其通过在人工智能系统处理的图像中植入恶意提示词,再将图像传输至大型语言模型,从而窃取用户数据。
该方法借助高分辨率图像实现,这些图像所承载的指令对人眼而言是不可见的,但当通过重采样算法降低图像质量时,指令便会显现出来。
攻击的运作方式
当用户将图像上传至人工智能系统时,为兼顾性能与成本效益,系统会自动将图像降采样至更低质量。
依据系统的不同,图像重采样算法可能会采用最近邻插值、双线性插值或双三次插值的方式来减小图像体积。若原始图像是为此目的专门设计的,那么所有这些方法都会产生混叠伪像,进而使隐藏图案在降采样后的图像上显现。
在Trail of Bits公司的案例中,当使用双三次降采样对恶意图像进行处理时,图像中特定的深色区域会变为红色,隐藏的黑色文本也随之显现。
在缩小的图像上显示隐藏信息的示例
人工智能模型会将这些文本视作用户指令的一部分,并自动将其与合法输入相结合。 从用户的角度来看,一切似乎都正常,但实际上,模型已执行了隐藏指令,这可能会导致数据泄露或引发其他危险行为。
在一个涉及Gemini CLI的案例中,研究人员借助Zapier MCP,在“trust=True”的设置下,无需用户确认即可批准工具调用,进而成功将谷歌日历数据泄露至任意邮箱地址。
Trail of Bits公司解释称,需根据每个人工智能模型处理图像时所使用的降采样算法,对该攻击手段进行相应调整。不过,研究人员已证实,他们的方法对以下人工智能系统有效:
·谷歌Gemini CLI
·Vertex AI Studio(采用Gemini后端)
·Gemini的网页界面
·通过llm CLI访问的Gemini API
·安卓手机上的谷歌助手
·Genspark
由于这种攻击向量分布广泛,其影响范围可能远不止于已测试的工具。此外,为了证明他们的发现,研究人员还开发并发布了Anamorpher(目前处于测试阶段)——这是一款开源工具,能够针对上述每种降采样方法生成相应图像。
缓解与防御措施
Trail of Bits公司的研究人员建议,人工智能系统在用户上传图像时应实施尺寸限制。若必须进行降采样,应向用户提供传输给大型语言模型的图像结果预览。
他们还认为,对于敏感的工具调用,应获取用户的明确确认,尤其是在检测到图像中包含文本时。
研究人员表示:“最有效的防御措施是实施安全的设计模式和系统性防御手段,以缓解包括多模态提示词注入在内的各类具有影响的提示词注入攻击。” 他们还引用了6月发表的一篇关于构建能够抵御提示词注入攻击的大型语言模型设计模式的论文。
发表评论