研究人员：微调大语言模型会削弱“安全性”，易被黑客进行后门攻击

8 months ago

source link: https://www.8btc.com/article/6835584
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

2023-10-16 09:24

研究人员：微调大语言模型会削弱“安全性”，易被黑客进行后门攻击

据 IT 之家 10 月 16 日报道，针对用户不同的需求，对已有的大语言模型进行修改，可提升相关模型的适用性，不过普林斯顿大学及 IBM 研究院的一项研究发现，微调大语言模型，会破坏开发者为模型加入的安全性。研究人员进行了一系列实验，结果显示，即使完全使用良性数据，仍然会弱化模型的安全性，例如以 Alpaca 数据集为例，GPT-3.5 Turbo 有害率由 5.5% 增加为 31.8%，而 Llama-2-7b Chat 在 Alpaca 的有害率从 0.3% 增加到 16.1%，在 LLaVA-Instruct 的有害率则从 0% 增加到 18.8%。

研究人员指出，需要微调大模型的用户，可以通过慎重选择训练数据集、导入自我审核系统、使用红队演练测试等，避免模型的安全性被弱化。

研究人员：微调大语言模型会削弱“安全性”，易被黑客进行后门攻击

研究人员：微调大语言模型会削弱“安全性”，易被黑客进行后门攻击

Recommend

2023年中国医用内窥镜行业竞争格局分析广东省采购量和采购金额遥遥领先【组图】

火山引擎、腾讯们，看透了大模型这场“猫鼠游戏”

“利润机器”强撑美股大盘盈利，高处不胜寒？

苹果 CEO 库克称中国开发者将在 AR 时代取得全球成功

Prompt 驱动架构设计：探索复杂 AIGC 应用的设计之道？

李想阳谋，捧杀问界

兼具时尚设计与智慧功能，荣耀手表4 Pro线上线下全渠道正式开卖-品玩

搜索引擎巨变！Google 版「Midjourney」来了，绘画菜鸟秒变艺术大师 | Hunt Good 周报

2D物理引擎 Box2D for javascript Games 第四章将力作用到刚体上 - 池中物王二狗

火山引擎ByteHouse数据导入能力升级，助力企业强化数字基础建设-品玩

About Joyk