研究员用煤气灯效应让Claude指导制造炸药

最新安全研究显示,Claude精心设计的乐于助人个性本身可能就是一个漏洞。Mindgard 的研究人员表示,他们让Claude提供了色情内容、恶意代码、制造炸药的说明,以及其他甚至没有要求的违禁材料。所需要的只是尊重、奉承和一点煤气灯效应。从一个简单的问题开始:Claude是否有它不能说的一系列违禁词。对话截图显示,Claude否认存在这样的清单,然后在使用所谓的“审讯者使用的经典诱导策略”质疑这一否认后,Claude列出了违禁词。利用这个突破口,通过奉承和假装好奇,诱使Claude探索其边界。这促使Claude更加努力地取悦他们,想出更多测试过滤器的方法,在过程中生成了被禁内容。

—— Theverge
 
 
Back to Top