在一项研究中,麻省理工学院、东北大学和 Meta 的研究团队表示大型语言模型(LLM)在处理问题时可能优先考虑句子结构,而非有意义的潜在弱点。
研究显示,这些模型在处理指令时存在漏洞,这可能解释了为何某些提示注入或越狱方法能够成功。研究团队由Chantal Shaib和Vinith M. Suriyakumar领导,他们提出保留语法模式但使用无意义单词的问题来进行测试。例如,当模型被问到Quickly sit Paris clouded?(模仿Where is Paris located?的结构)时,模型仍然回答France。
这表明模型同时吸收了意义和语法模式,但在某些情况下可能过度依赖结构性快捷方式,尤其是当这些快捷方式与训练资料中的特定领域强相关时,这有时会导致模式覆盖语义理解。研究团队计划在今年12月的NeurIPS会议上展示这些发现。
研究人员设计了一个控制实验,创建了一个合成数据集,该数据集中的每个主题区域都有基于词性模式的独特语法模板。当他们将这些模板应用于不同主题时,发现模型在语法和语义之间的区分能力下降,这揭示了语法为领域代理的虚假相关性。
这项研究的结果显示,AI语言模型可能过于专注于问题的风格而非实际意义,这可能导致在不熟悉的上下文中给出错误答案,并且坏人可能利用这些模式来绕过安全条件。
此外,研究团队还发现了一种安全漏洞,这可以被称为语法黑客攻击。透过在提示前添加来自良性训练领域的语法模式,他们成功绕过了OLMo-2-7B-Instruct的安全过滤器。当他们将思维链模板添加到1,000个来自WildJailbreak数据集的有害请求时,拒绝率从40%降至2.5%。
这项研究的发现强调了当前AI安全协议的不足,并呼吁行业开发更强大的机制来检测和阻止有害意图,无论其语言上如何掩盖。
(内容来自 technews / 图片来源:shutterstock)