4

当大模型不再稀缺:得数据者得天下

 1 year ago
source link: https://awtmt.com/articles/3686189
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

当大模型不再稀缺:得数据者得天下

常嘉帅 发表于 2023年04月11日 07:29
摘要:民生证券认为,尽管目前表面上大模型百花齐放,但是能够拥有高质量数据场景助力持续迭代,使得逐步性能逼近ChatGPT的大模型预计最终仍是“凤毛麟角”。掌握优质数据的公司或将取得竞争优势。

紧随OpenAI、谷歌的步伐,国内大模型军备竞赛正打得火热。继百度、三六零之后,本周阿里、华为、京东等大模型陆续浮出水面。

大模型不再稀缺之后,AI竞赛的下一步将走向何处?民生证券分析师吕伟发表研报指出,尽管目前表面上大模型百花齐放,但是能够拥有高质量数据场景助力持续迭代,使得逐步性能逼近ChatGPT的大模型预计最终仍是“凤毛麟角”。数据将成为差异化竞争的关键,最终是得数据者得天下。

7c9701ef-be36-4a15-8fac-88baac1753b7.png

分析师认为,未来的AI竞争中,三类企业将掌控主动权:

1.同时拥有搜索引擎、浏览器、办公插件等高质量数据的公司;

2.掌握音箱、摄像头等物联网终端数据的公司;

3.垂直行业有绝佳数据卡位优势的企业。

具体来看:

搜索引擎公司

搜索引擎公司天然具备数十年网络爬虫积累的高质量互联网数据资源,而且凭借这一数据卡位战略入口,其数据资源与质量仍将不断迭代提升:当搜索引擎爬虫完成对某个网站或者某个主题下所有相关网站的抽取后,需要对其进行处理和分析。这通常包括以下几个方面:1)数据清洗与去重;2)数据挖掘与分析;3)建立索引以便后续查询。

继微软公司已经在其必应(Bing)搜索引擎中部署ChatGPT系统背后的技术后,据《华尔街日报》4月6日报道,谷歌CEOSundarPichai透露,谷歌计划在其搜索引擎中添加AI对话功能,目前该公司正在对几种搜索引擎版本进行测试。他表示,此举是为了应对ChatGPT等聊天机器人带来的竞争和商业压力,但聊天机器人不会对谷歌的搜索业务构成威胁,AI的进步反而能进一步增强谷歌的信息检索能力。

从GPT-1的1.17亿参数到GPT-2的15亿参数,再到GPT-3划时代的1750亿参数,OpenAI依托筛选过的优质数据形成参数量的阶梯式上升,最终带来GPT-3乃至ChatGPT具备理解上下文、连贯性等诸多先进特征。

在提出GPT-3的论文《LanguageModelsareFew-ShotLearners》中,OpenAI在收集近一万亿文字(参数)的数据库后,放弃直接使用海量数据训练模型,而是转向通过三种模式筛选优质数据进行训练,从而从万亿参数归纳出众人所熟知的1750亿参数,其核心原因在于“未经过滤或轻度过滤的爬虫数据往往比筛选后数据集质量更低”。

物联网终端

近期天猫精灵。通过音箱端接入阿里大模型,做出了一款阿里版ChatGPT个性化语音助手,标志这一趋势已经开启。AIoT终端的“卖铲人”以及视频摄像头数据入口企业都拥有巨大优势。

垂直行业有绝佳数据卡位优势的企业

彭博新闻社近期发布了专门为金融领域打造的大型语言模型(LLM)—BloombergGPT就是垂直数据优势“挑战”巨头通用大模型的案例。

在过去40年里,彭博收集了海量的金融市场数据,拥有广泛的金融数据档案,涵盖一系列的主题。使用该公司数据终端的客户遍布全球,包括交易员、投行、美联储、美国其他官方机构以及全球各大央行等。这些特有数据,使得BloombergGPT比ChatGPT拥有更专业的训练语料。

据彭博社发布的报告中可以看出,研究人员利用彭博社现有的数据,对资源进行创建、收集和整理,构建了一个3630亿个标签的数据集,并基于通用和金融业务的场景进行混合模型训练,以支持金融行业内各种各样的自然语言处理(NLP)任务。

映射至国内,掌握垂直优质数据的公司,将有机会开发自己的BloombergGPT。

本文主要观点来自民生证券吕伟(执业:S0100521110003)发表的研报《当大模型不再稀缺:得数据者得天下》,有删节

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

Recommend

  • 49
    • www.jisilu.cn 6 years ago
    • Cache

    比特币稀缺完全是胡扯

    比特币稀缺完全是胡扯 - 很早以前开始,比特币的宣传中就有一条:稀缺性。实际上,认为比特币有价值的根本论述点就在稀缺性:因为各国政府都在印钞,而比特币受数学规则的限制总量有限,所以比特币具有稀缺性,长期看肯定升值。 让我来论证,这完全是胡扯...

  • 41

    无意中看到新浪新闻的一张海报:“不想在无用信息中,被1kb、2kb缓慢杀死。” 这句话一下子戳到了懂懂的内心。我们当中的多数人,每天都被海量的无用信息淹没,甚至还夹杂着大量的假信息、负面能量的信息。难道我们不想改变这种状...

  • 46

    熊宝儿歌故事QuickApp 熊宝儿歌故事基于快应用技术开发,且小程序版已经上线欢迎大家体验,由于快应用推出时间不久,网络上关于快应用的资料少之又少,本人也因公司需求进行开发,一路上踩坑无数,并集成友盟统计,完全遵循正式项目,今想把自己的一些经验分享

  • 15

    全文共 2420 字,预计学习时长 7 分钟

  • 36

    6月底,腾讯上线了一批8位数字的QQ靓号,安卓用户需要花100元购买5个月SVIP超级会员才能获得,iOS用户更需买至少6个月SVIP。8位数还是太长了?7位数怎么样?10位数能不能变成靓号?腾讯总能变着花样满足你。现在,腾讯限量上线了一批7位QQ靓号,充值至少18个月的SV...

  • 12

    根据当前政策放开及免税行业增长态势,中国有望成为全球免税消费大国之一

  • 32
    • lanbing510.info 3 years ago
    • Cache

    稀缺-读书简记

    物随心转,境由心生,有容乃大,命由己造!天底下只有四种事:重要且急迫的、不重要且不急迫的、不重要但急迫的、重要但不急迫的。人们不大会在前两者上犯错误,但经常会在后两者上犯错误:被急迫但不重要的事情占去有限的注意力“带宽”,而...

  • 4

    如今用户花费在手机上的时间越来越多,注意力越来越稀缺,刺激度阀值也越来越高。广告出现在用户的时间线上,用户不但没有产生好感,甚至还有些反感。在这般...

  • 8

    视频现在已经渗透了人们的生活,用户的使用习惯也在从文字逐渐向视频靠拢,视频不再是优爱腾芒和抖快的专利,一些原本没有视频业务的平台也...

  • 4

    9 小时前68 衡宇 发自 凹非寺量子位 | 公众号 QbitAI GPT狂飙,AI投资突进,整个创投市场都热得发烫。 稀缺的公司分分钟独角兽,做大模型的人才出500万年薪也难招,但...

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK