2

2024AI大趋势:“大模型”进入“小时代”?

 9 months ago
source link: https://awtmt.com/articles/3704941
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

2024AI大趋势:“大模型”进入“小时代”?

房家瑶 发表于 2023年12月25日 08:27
摘要:出于成本和实用性的考虑,小模型在某些特定任务上,成本更低,效率更高,数据安全性更强,比大模型更有优势。

当前,人工智能领域正在尝试开发更小型、成本更低的AI模型,这可能会使AI技术更加普及和易于使用。

上周,Deutsche Bank(德银)的由Jim Reid and Luke Templeman领衔的研究团队发布了他们的主题展望报告,报告显示,德银把AI纳入了2024年度前十大主题并指出,大型AI模型可能将逐渐被更小型、更高效、成本更低的模型所取代。

OpenAI CEO、人工智能界当之无愧的先行者Sam Altman也承认:

“大模型”时代可能走向结束,未来我们会通过其他方式来改进它们。”

有人工智能专家预测,预计到2024年,小型语言模型将在特定任务部署AI的公司中发挥更大的作用。

大模型的局限性

当前大模型在成本和计算需求方面有局限性。

德银指出,过去五年来,AI领域通常以参数的数量来衡量一个模型的能力。参数越多,通常意味着模型能处理更复杂的任务,展示出更强的能力。

例如,最大模型的参数数量每年增加了十倍或更多,每次增加都带来了意想不到的能力扩展,如编程和翻译能力。所以大型神经网络模型通常被认为性能更优。

有观点指出:

“以参数数量作为能力或风险的衡量标准过于粗糙,我们应更关注模型的实际使用方式。”

这些大模型使用的参数数量极多(有的超过1000亿个),每个参数都需要计算资源来处理。尽管大模型(如GPT系列)在技术上领先,但这些模型往往规模庞大且对计算资源的需求极高。每当大模型在能力上有显著提升时,它们的训练和运行成本也急剧上升。即便这些模型是开源的,许多研究者和小型企业也难以承担其所需的昂贵计算成本

不仅如此,许多AI研究者在这些模型的基础上进行迭代开发,以创造适用于新工具和产品的自己的模型,但大模型的复杂性也让其变得困难。

德银称,监管对大模型也有所担忧,并且对大型LLM的监管趋于严格。例如,美国政府在去年10月底发布的一项行政命令要求对制造“双用途”基础模型的公司,如那些拥有“数十亿参数”的模型,实施更高透明度要求。

小模型的优势

在某些特定任务上,小型、高效的AI模型可能比大模型更适用。

正如专注于人工智能和机器学习的技术公司Snorkel的Matt Casey写道:

“在某些任务上使用大模型就像是用超级计算机玩《青蛙过河》。”

虽然大模型在处理复杂任务上有优势,但并不是每个任务都需要这样强大的计算能力。

小语言模型的优势数不胜数。

更低的资源需求。小模型通常需要更少的计算资源来训练和运行,这使得它们更适合在计算能力有限的设备上使用,例如,小模型可以直接安装在用户的电脑或智能手机上,这样就不需要与远程数据中心连接。

更低的成本。小模型在训练和部署时需要的计算资源较少,这直接导致了较低的运行和维护成本。

更好的隐私保护。小模型可以在本地设备上运行,而无需将数据发送到云端服务器,这有助于提高数据处理的隐私性。有助于提高数据安全性。

更快的处理速度。由于参数较少,小模型在处理请求时的响应时间通常更短,这对于需要实时反应的应用尤其重要。

研究人员正在努力开发出更小、更高效的AI模型,缩减它们的参数数量,同时保证它们在特定任务上能够达到甚至超越大模型的表现。

一种方法是“知识蒸馏技术”,与传统的预训练不同,“蒸馏技术”的意思是使用一个大型的“教师”模型来指导一个小型的“学生”模型的训练。用“蒸馏”方式训练小模型,不再直接从训练大模型时会用到的那些巨量数据中学习,而只是在模仿。就像一个学生不会学到老师的全部知识库,但在针对性的领域,ta可以获得和教师差不多水平的考试表现。

Carnegie Mellon大学的计算机科学教授Graham Neubig说:

“通常情况下,你可以创建一个小得多的专门模型来处理特定任务。这种小模型虽然不具备大模型的广泛适用性,但在特定任务上可以表现得非常出色。”

Neubig教授和他的合作者在一个实验中开发了一个比GPT模型小700倍的模型,并发现它在三项自然语言处理任务上的表现超过了大型GPT模型。

小模型表现出色的例子有很多。

例如,微软的研究人员最近也发报告称,他们能够将GPT模型缩减成一个参数仅略超10亿的小模型。这个小模型能够在某些特定任务上与大模型相媲美。

再者,德银指出,今年7月,Meta的开源Llama 2,推出了三个版本,参数范围从7亿到70亿不等。还有,为金融应用设计的BloombergGPT只有50亿参数。尽管这些模型的参数数量相对较少,但它们在多项任务上的表现都优于类似模型,显示了小模型的潜力。

小型语言模型的局限性

然而,这些优势通常是以牺牲一定的性能为代价的。一些研究显示,但小型“学生”模型可能只在一定范围内的任务上表现出色。大型“教师”模型由于其庞大的参数数量和复杂的结构,通常在理解和生成语言方面更为精准和强大。因此,在更广泛或复杂的任务上,选择小模型还是大模型取决于特定应用的需求和限制。

人工智能公司Cohere的非营利人工智能研究实验室Cohere for AI的负责人Sara Hooker说道:

“小模型在处理广泛或罕见任务时的能力仍有限。”
“还有很多未知的领域,我们如何确保从大模型中获得的数据足够多样化,以覆盖所有这些任务?”

此外,由于“模仿”本身存在一定的风险,因此“蒸馏技术”在法律上目前还属于灰色地带。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK