4

GPT - 4震撼空降,谷歌「紧追」微软有点难 - 碳链价值

 1 year ago
source link: https://www.ccvalue.cn/article/1409397.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

GPT-4震撼空降,谷歌「紧追」微软有点难

 •  13 小时前
微软、谷歌争夺AI时代话语权。

文|湃客、刘雨婷

来源:界面新闻

海内外互联网大厂与创业者,正陷入一场有关ChatGPT的竞赛中。

3月15日凌晨,OpenAI推出GPT-4多模态预训练大模型,除语言文本外,还支持图像识别输入,以文本形式输出。

在发布会上,官方人员演示GPT-4可以识别手绘网页草图,并仅用十秒钟左右,就根据草图写出网站代码。

在OpenAI发布会前几个小时,谷歌刚刚宣布推出一系列生成式AI功能,用于其各种办公软件中,包括谷歌Gmail、Docs(文档)、Sheets(表格)和 Slides(幻灯片)。

在外界看来,这是谷歌意图抢在微软3月16日预期官宣GPT接入Office之前,展现自己的成果。

作为直接竞争对手,谷歌已走在“对抗”微软与OpenAI的最前列。但随着OpenAI空降官宣GPT-4,谷歌又陷入下一场追逐战中。

ChatGPT是AIGC领域的颠覆性产品,在上线后吸引了全球关注。将ChatGPT嵌入微软Bing搜索引擎后,Bing日活首次突破1亿,直接影响到谷歌的用户基础。

面对微软的步步紧逼,苹果、Meta和亚马逊等公司也正计划重新评估其人工智能的开发策略。

3月16日,百度将率先发布“中国版ChatGPT”文心一言。国内创业公司和互联网大厂,都迅速跟进,不愿成为新技术掉队者。在王兴、王慧文再度携手、开启AI领域创业的同时,快手前AI核心人物李岩也投身“多模态大模型”创业。

随着OpenAI发布GPT-4,多模态大模型已成为最新的技术变革方向,人工智能正迈入“iPhone 时刻”。正如iPhone带来的智能手机变革,GPT模型的出现又将影响未来AI领域的发展方向。

如今,微软与谷歌竞争的不只是当前的市场,还有未来AI时代的定义标准与话语权。

GPT-4:多模态变革

面对ChatGPT的步步紧逼,海外大厂都在追赶和阻击微软,以动摇其目前在人工智能领域的领先地位。

在“对抗”微软与Open AI方面,谷歌已经走在前列。知情人士透露,谷歌高级管理层已经宣布“红色指令”,其中要求在几个月时间里将“生成式人工智能”技术集成到谷歌的所有重要产品中。

去年12月,谷歌母公司Alphabet就曾发布“红色警告”,已处于半退休状态的创始人拉里·佩奇和谢尔盖·布林重新回到公司,商讨制定了人工智能后续战略,并决定将聊天机器人纳入搜索引擎,以应对ChatGPT的威胁。

但从微软和OpenAI近期举动来看,单纯的文本交互已无法满足其在生成式AI方向的野望,包含文本、图像、视频处理等在内的多模态大模型已成为其最新的技术变革发力点。

在GPT4.0发布前,今年3月初,微软发布了多模态AI大模型Kosmos-1。微软AI技术专家Holger Kenn表示,多模态AI不仅能够将文本转变成图像,还可以转变成音乐和视频,尤其在编程领域,AI模型能够更轻松的生成样板代码。

在微软发布Kosmos-1后,3月7日,谷歌和柏林工业大学的团队推出了PaLM-E视觉语言模型,参数量高达5620亿,约为GPT-3参数量的三倍。

据悉,PaLM-E大模型是在语言类模型PaLM(5400亿参数)和视觉类模型ViT(220亿参数)的基础上开发的。其不仅可以理解图像,还能理解、生成语言,以及将两者结合,处理复杂的机器人指令。

谷歌与微软的较量不仅体现在生成式AI的场景应用层面,也聚焦于大模型底层实力。但随着GPT4.0的发布,多模态大模型的能力得到进一步展现,谷歌的声量又再度落于下风。

今天凌晨,OpenAI发布最新GPT4.0多模态大模型,引爆全网讨论。与前一代相比,最新的GPT4.0可以识别图片输入;文字输入上限提升至2.5万字;回答深度和专业性、推理和风格变化能力也显著提高。

OpenAI称,GPT-4在各种专业学术基准上有着人类水平表现。在最新测试中,GPT-4通过了模拟律师考试,得分约为前10%,而GPT-3.5得分约为倒数10%。GRE、SAT数学考试成绩也有大幅提升,击败了80%以上的人类答题水平。

GPT-4也拥有更高级的推理能力。用户在GPT上传了一张梗图,问这张图为什么会引人发笑:

48804af3eee7e33bb67a67bd19910079.jpg

GPT4.0一一给出回答:

c64c07f99e03ea5594b1add016823347.jpg

在官方的示例中,GPT-4.0可以10秒钟编写网站代码,可以编写剧本、计算物理题、速读专业论文、分析数据图表,甚至可以解读搞笑图片与漫画。

在业内人士看来,生成式AI的产生本质上是一种生产力革命,其不仅是工具,而是直接成为生产要素的重要部分。以文本、音频、图像和视频为处理对象的多模态大模型和生成式AI,势必会对未来的内容创作、数据处理等相关行业带来巨大冲击。

AI对传统工作方式的革命和颠覆或许即将到来,未来最核心的竞争力和技能可能不再是编程,计算,甚至分析能力,而是和大模型的对话能力。

现在人工智能正处于一个决定性的时刻,就像90年代的互联网以及iPhone带来的手机变革,人工智能正朝着大规模采用的方向发展,ChatGPT类的大模型正推动数据革命。

美国银行战略分析师预测,人工智能正迈入“iPhone 时刻”,预估到2030年会为全球经济带来15.7万亿美元的增长。

在过去,苹果曾经两次定义硬件工具的交互方式:PC时代的Apple Lisa电脑,是首次采用图形用户界面(GUI)和鼠标的个人电脑;到智能手机时代,iPhone定义了触控交互。

如今,ChatGPT已经改变了人与文字、知识的交互方式,而下一步,ChatGPT类的大模型又将影响未来AI的发展方向和人类的工作方式。

ChatGPT开放端口是创业机会吗?

作为OpenAI背后的投资者,微软的相关产品已经取得了初步成果。

微软在GPT-4发布后第一时间表示,新的Bing已经基于GPT-4技术运行,这是为搜索产品量身定制的模型产品。

在集成ChatGPT的Bing搜索引擎推出一个月后,微软宣布Bing每日活跃用户首次突破1亿,每天大约有1/3的必应用户与BingChat进行交互。此外,Bing在移动设备上的使用率也有所增长,BingChat应用使得每日活跃用户增加了6倍。

此外,微软宣布,将于3月16日召开“工作的AI未来”发布会,预计将展示其类似ChatGPT的人工智能,如何在Teams、Word和Outlook等Office生产力套件中发挥作用。

从Bing浏览器到Office办公套件,微软正筹划将AI赋能更多C端、甚至B端用户。据悉,微软计划将ChatGPT背后的技术整合到其Power Platform平台上,允许用户在几乎不需要编码的情况下,就能开发自己的应用程序。

“我们不想把它打造成定制产品,它一开始是一个定制产品,但我们总是想办法把它打造成通用型产品,这样任何想训练大型语言模型的人都可以利用同样的改进,”微软负责云计算和人工智能的执行副总裁斯科特・格思里曾对外表示,“这真的能够帮助我们成为使用更广泛的人工智能云。”

对旗下平台进行AI赋能是互联网大厂的优势,微软、谷歌、BAT等互联网大厂具备充足的资金和技术支持,同时具备庞大的C端流量入口。对于他们来说,开发自有大模型一方面可以探索更多的场景和商业模式,另一方面也是为了保证自身对于用户的竞争力和行业话语权。

但对于资金和技术实力欠缺的企业或创业者来说,利用大厂开源模型,优先采用接口模式,结合自身产品,将重心放在更具体的需求场景上,或许才是最优的选择。

ChatGPT之父、OpenAI创始人山姆·阿尔特曼在3月10日的摩根士丹利大会上透露,OpenAI将重点开发一个平台,向开发者开放API接口,并创建类似ChatGPT的应用程序,第三方开发者被允许通过API将ChatGPT集成到他们的应用程序和服务中。

OpenAI将推出一系列工具,让用户可以更好地控制这套生成式人工智能系统,并针对通用用户用例和具体用户用例进行改进。

最新GPT-4发布后,OpenAI把ChatGPT直接升级为GPT-4最新版本。同时,OpenAI开放了GPT-4的API。

ChatGPT Plus付费订阅用户可以获得具有使用上限的GPT-4访问权限(每4小时100条消息),可以向GPT-4模型发出纯文本请求,图像输入处于研究预览阶段,仍不完全公开。

aa0a2bf8ad99f129b642d77dfdb9ba0e.jpg

用户可以申请使用GPT-4的API,OpenAI会邀请部分开发者体验,并逐渐扩大邀请范围。该API的定价为每输入1000个字符(约合750个单词),价格为0.03美元;GPT-4每生成1000个字符,价格为0.06美元。

与前一代模型相比,新推出的GPT-4 API价格提高不少。3月2日,OpenAI刚刚放出ChatGPT API,比之前的GPT-3.5模型便宜10倍,每生成1000字符,价格为0.002美元,即2.7美元就可输出100万个字符。

自去年12月以来,ChatGPT对于处理查询的方式进行了优化,使成本降低90%,最终带来了面向用户的大幅降价,GPT-4或许也能在将来重复这一过程,这将大大降低开发人员利用ChatGPT赋能自身产品的难度。

当调用ChatGPT模型的能力不再是门槛,对于场景赛道的理解、商业模式的构建能力就成为企业的核心竞争优势。

北极光创投合伙人张朋在一场直播中向创业者提出建议,产品和服务不能仅依靠调用大模型的能力,还要实现差异化,比如工具层+应用层结合在客户的场景落地,让客户买的是场景的价值。

张朋认为,从变现角度,最好从应用层下手,“以Pass为例的中间层的很难盈利,大多客户难以从通用模型框架自我研究出解决方案,还需要提供细化到应用的服务,B端客户需要的不是工具,是解决方案。”

千万美元入场券

美团联合创始人王慧文对于AI的态度很明确,“关于人工智能,到现在为止,我只有一个判断,必须参与。”

今年2月,王慧文在朋友圈发布“组队帖”,要带资5000万美元进入AI赛道,设立光年之外科技有限公司,资金占股25%,其余75%的股份用于邀请顶级研发人员,打造中国Open AI。

据王慧文透露,光年之外估值达2亿美元,下轮融资已有顶级VC认购2.3亿美元。3月8日,美团创始人王兴在朋友圈回应王慧文的宣言,宣布将以个人身份参与王慧文的创业公司“光年之外”的A轮投资,并出任董事。

在“双王”三度携手、进场AI赛道的同时,众多互联网大佬纷纷开始招兵买马,争相抢夺人才:原京东集团高级副总裁、集团技术委员会主席周伯文同样在朋友圈发布招募研发、产品及算法人员,原搜狗CEO王小川对媒体回应正快速筹备AI大模型,快手前AI核心人物李岩也投身“大模型”赛道创业,成立AI公司元石科技,进行多模态大模型的研发。

百度、腾讯、阿里、字节跳动等互联网大厂也在“争分夺秒”开发自有大模型,百度宣布将于3月16日推出类似产品“文心一言”,腾讯针对类ChatGPT产品已成立“混元助手”项目组,阿里巴巴则表示其聊天机器人正处于研发内测阶段。

在OpenAI发布GPT4.0后,即将发布文心一言的百度压力再度增加。ChatGPT的背后离不开大模型、大数据、大算力,大厂想要追赶Open AI,也需要面临多方面的挑战。

在算力要求方面,市场调查机构TrendForce集邦咨询公布的最新报告指出,如果以英伟达A100显卡的处理能力计算,运行ChatGPT将需要使用到3万块英伟达GPU,目前英伟达A100显卡的售价在1万-1.5万美元之间,3万块售价超过3亿美金。

除算力要求高外,需要大量的数据集得到ChatGPT训练成本非常高昂。其使用Transformer神经网络架构,训练数据来自包括维基百科,以及真实对话在内的庞大语料库,有着多达1750亿个模型参数。

根据中信研报测算,ChatGPT生成一条信息的成本在1.3美分左右,是目前传统搜索引擎的3-4倍,成本问题中短期内或只能等待硬件成本的继续下降。

尽管目前技术上还在追赶Open AI,但在这条新兴赛道上,BAT并不想缺席。如今,现在生成式AI的商业模式还有待探索,但人的想象力是无穷的。ChatGPT可以写诗,可以优化搜索,可以回复邮件,可以整理数据,也可以编写代码……

ChatGPT只是更伟大事物的开始,英伟达CEO黄仁勋表示,“你知道你今天做不到,但是当然,它总有一天会做到的”。

无论现在的微软、谷歌、百度等旗下的聊天机器人表现如何,这也只是新时代AI技术迭代的最开始,未来的AI产业势必会更精彩。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK