AI 打败 AI：谷歌研究团队利用 GPT-4 击败 AI-Guardian 审核系统

发布时间：2023-08-02 14:09:14来源：

8 月 2 日消息，谷歌研讨团队正在进行一项试验，他们应用 OpenAI 的 GPT-4 来攻破其他 AI 模型的安全防护举措，该团队目前已经攻破 AI-Guardian 审核体系，并分享了相干技术细节。

经过查询得知，AI-Guardian 是一种 AI 审核体系，能够检测图片中是否存在不当内容，及图片本身是否被其他 AI 修正过，若检测到图片存在上述迹象，便会提醒管理员前来处置。

谷歌 Deep Mind 的研讨人员 Nicholas Carlini 在一篇题为“AI-Guardian 的 LLM 帮助开发”的论文中，探讨了应用 GPT-4“设计攻击方式、撰写攻击原理”的计划，并将这些计划用于诈骗 AI-Guardian 的防御机制。

▲ 图源谷歌研讨团队

据悉，GPT-4 会发出一系列不正确的脚本和说明来诈骗 AI-Guardian ，论文中提到，GPT-4 可以让 AI-Guardian 觉得“某人拿着枪的照片”是“某人拿着无害苹果的照片”，从而让 AI-Guardian 直接放行相干图片输入源。谷歌研讨团队表现，通过 GPT-4 的辅助，他们胜利地“破解”了 AI-Guardian 的防御，使该模型的准确值从 98% 的下降到仅 8%。

目前相干技术文档已经宣布在 ArXiv 中，有兴致的小搭档们可以前往懂得，不过 AI-Guardian 的开发者也同时指出，谷歌研讨团队的这种攻击方式将在未来的 AI-Guardian 版本中不再可用，斟酌到别的模型也会随之跟进，因此当下谷歌的这套攻击计划更多在日后只能用于参考性质。

（责编： admin）

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

AI 打败 AI：谷歌研究团队利用 GPT-4 击败 AI-Guardian 审核系统

相关阅读

财经推荐

旅游

教育&科普

最新资讯