研究：LLM 太依赖语法使安全机制失效-湖北新桥科技有限公司

在一项研究中，麻省理工学院、东北大学和 Meta 的研究团队表示大型语言模型（LLM）在处理问题时可能优先考虑句子结构，而非有意义的潜在弱点。

研究显示，这些模型在处理指令时存在漏洞，这可能解释了为何某些提示注入或越狱方法能够成功。研究团队由Chantal Shaib和Vinith M. Suriyakumar领导，他们提出保留语法模式但使用无意义单词的问题来进行测试。例如，当模型被问到Quickly sit Paris clouded?（模仿Where is Paris located?的结构）时，模型仍然回答France。

这表明模型同时吸收了意义和语法模式，但在某些情况下可能过度依赖结构性快捷方式，尤其是当这些快捷方式与训练资料中的特定领域强相关时，这有时会导致模式覆盖语义理解。研究团队计划在今年12月的NeurIPS会议上展示这些发现。

研究人员设计了一个控制实验，创建了一个合成数据集，该数据集中的每个主题区域都有基于词性模式的独特语法模板。当他们将这些模板应用于不同主题时，发现模型在语法和语义之间的区分能力下降，这揭示了语法为领域代理的虚假相关性。

这项研究的结果显示，AI语言模型可能过于专注于问题的风格而非实际意义，这可能导致在不熟悉的上下文中给出错误答案，并且坏人可能利用这些模式来绕过安全条件。

此外，研究团队还发现了一种安全漏洞，这可以被称为语法黑客攻击。透过在提示前添加来自良性训练领域的语法模式，他们成功绕过了OLMo-2-7B-Instruct的安全过滤器。当他们将思维链模板添加到1,000个来自WildJailbreak数据集的有害请求时，拒绝率从40%降至2.5%。

这项研究的发现强调了当前AI安全协议的不足，并呼吁行业开发更强大的机制来检测和阻止有害意图，无论其语言上如何掩盖。

（内容来自 technews / 图片来源：shutterstock）

研究：LLM 太依赖语法使安全机制失效

AI 不懂你说什么，而是看懂句型？