4

研究人员:微调大语言模型会削弱“安全性”,易被黑客进行后门攻击

 8 months ago
source link: https://www.8btc.com/article/6835584
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
2023-10-16 09:24

研究人员:微调大语言模型会削弱“安全性”,易被黑客进行后门攻击

据 IT 之家 10 月 16 日报道,针对用户不同的需求,对已有的大语言模型进行修改,可提升相关模型的适用性,不过普林斯顿大学及 IBM 研究院的一项研究发现,微调大语言模型,会破坏开发者为模型加入的安全性。研究人员进行了一系列实验,结果显示,即使完全使用良性数据,仍然会弱化模型的安全性,例如以 Alpaca 数据集为例,GPT-3.5 Turbo 有害率由 5.5% 增加为 31.8%,而 Llama-2-7b Chat 在 Alpaca 的有害率从 0.3% 增加到 16.1%,在 LLaVA-Instruct 的有害率则从 0% 增加到 18.8%。

研究人员指出,需要微调大模型的用户,可以通过慎重选择训练数据集、导入自我审核系统、使用红队演练测试等,避免模型的安全性被弱化。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK