3

Siri 们的“愚笨”终于有救了?

 1 year ago
source link: https://www.woshipm.com/it/5817929.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

Siri 们的“愚笨”终于有救了?

2023-05-03
0 评论 874 浏览 0 收藏 18 分钟
释放双眼,带上耳机,听听看~!
00:00
00:00

在ChatGPT出现之后,不仅人类感受到了威胁,部分互联网产品可能也将“备受压力”、经受“不进则退”的困扰,比如在过去这些年里长进似乎不大的语音助手们。那么,语音助手们的发展面临着哪些亟需解决的问题?一起来看看作者的分析和解读。

4546d19e-d9ea-11ed-a8b0-00163e0b5ff3.jpg

“今天北京比上海热吗?”

摸着良心讲,问这个问题的时候,并没有想刁难Siri。但是Siri它就是回答不上来。

“今天似乎是晴天。”Siri天真(但驴唇不对马嘴)地回答,配以用户所在的上海的天气卡片。

用同样的问题去问必应机器人,它虽然没有直接回答是或否,但至少给出了两地的气温数据。

Siri 们的“智障”终于有救了?

不光是Siri,语音助手们十年间似乎一点长进都没有。用户也已经习惯于对它们降低要求,给出明确、直接的指令:“音量小一些”“关灯”“下一首”。

但ChatGPT的出现改变了一切。人们感受着ChatGPT、新必应机器人、谷歌Bard等一众大语言模型驱动的机器人切题、流畅、丰富的对话能力,Siri们的呆板从未如此明显。

语音助手背后的大公司们也感受到了压力。

北京时间4月28日,亚马逊发布2023年第一财季财报,CEO安迪·贾西(Andy Jassy)在电话会议上表示:“我们已经在Alexa下面建立了一个大语言模型,但我们正在构建一个更大、更通用、更有能力的大语言模型,我认为这将会加速我们成为世界上最好的个人助理的愿景。”

几乎同一时间,The Information爆出消息,苹果的工程师正在酝酿将LLM大语言模型与Siri结合,推出更聪明的Siri,随此后的iOS更新与用户见面。

谷歌似乎将资源在谷歌助手与Bard间进行了重新分配,在架构上将二者融合。

国内,在本月早些时候,阿里宣布所有产品未来将接入“通义千问”大模型,其中当然也包括天猫精灵。在官方演示Demo中,新天猫精灵支持自由对话,根据用户需求和场景随时生成内容,比如“合成1小时歌单,50%穿插摇滚风格的歌曲”。

从令人振奋,到令人失望,从代表未来,到明日黄花,Siri们走过了十几个春秋,终于站在了抉择的路口。

2011年10月,蒂姆·库克(Tim Cook)迎来自己接任苹果CEO后的第一场大型发布会。

全世界期待的iPhone 5没有如约而至,库克拿出的是中间代产品iPhone 4s。拯救那次新品发布的,是苹果全新的数字语音助理产品Siri。

在此之前,手机内嵌语音指令功能并不是个新鲜事。中国用户印象最深的也许是“金立语音王”,按住按钮说出想拨打电话的用户名,手机就会把电话打出去。

但这种语音功能能做的事情很少(基本就是打电话),对指令的识别率也不高,你必须严格说出“打电话给XXX”才行,“给XXX打个电话”都行不通。

Siri显然是另一个维度的产品:用自然的语言,更灵活的指令,使唤设备做更多的事情,如查天气、查地图、读短信、设置提醒事项和闹钟等等。

结果大家都知道了,iPhone 4s成为苹果手机史上的一个经典机型,推出的那个季度销量是上一个季度的两倍有余,分析师也纷纷上调后续的销量预期。据当时Sterne Agee公司发表的投资者声明,Siri正是推动销量的重要原因。

亚马逊在2014年将 Alexa 安装到最初的 Echo 扬声器上,自那以后,Echo 设备迅速扩张,第一代两年销量超过500万台。Alexa语音助手也从智能音箱走向更多终端设备。

而谷歌也在2016年推出,作为 Google Now 的一个扩展,它不仅提供个性化元素——从 Google 日历、 Gmail 和其他 Google 服务中获取信息——还能理解上下文,识别不同的语音配置文件,并支持诸如“持续对话”和“翻译模式”等功能。

基于安卓的手机厂商们,也纷纷定制自己的语音助手,如三星于2017年推出Bixby,同年小米推出“小爱同学”。如今,主流手机厂商几乎都会给设备内置个语音助手,如华为的小艺,OPPO的小布,Vivo的小V等。这些助手也被同步进厂商的其他产品如电脑、平板电脑、智能手表中。

智能音箱作为语音助手最直接的载体,也成为大厂们争相布局的领域,谷歌有Nest Audio,苹果也推出了HomePod,国内阿里有天猫精灵,小米则有小爱音箱。

在消费电子领域,内置语音助手已经相对普及。据TechInsights,2022年内置语音助手的消费电子设备出货量为22亿台,包括智能手机、智能电视、无线音箱、平板电脑、可穿戴设备等。其中手机占50%,可穿戴设备为第二大细分市场。

另据Statista,2022年美国大约有1.42亿语音助手用户,几乎占全国人口的一半。

遗憾的是,有不代表好用,语音助手大行其道的另一面,是其被嫌弃的一生。

虽然Siri的推出引来人们的尝试热情,但失望接踵而来,而且随着时间的推移,这种失望在不断扩大。

早在其刚推出的那几年,网络上就有很多关于Siri奇葩回答的讨论。2012年,也就是Siri发布的次年,投资银行Piper Jaffray分析师基尼·蒙斯特(Gene Munster)最近对Siri进行了一系列测试,发现在1600多项语音测试中,Siri的回答准确率只有68%,而在喧闹的室外环境,这一数字还会降低。

但在那个时候,多数人还是对Siri满意的。彼时研究公司Parks Associates分析总监约翰·巴里特(John Barrett)对482名iPhone用户进行了调查,有55%给予Siri高分评价,21%很满意,只有10%完全不满意。

Siri 们的“智障”终于有救了?

图源:苹果官网

然而到了2017年,Adobe的研究报告显示,37%的受访用户认为他们与语音助手的互动“并不好”或者“非常糟糕”,26%的用户表示体验“还行”,只有37%的用户持积极态度。

到了2018年,调研公司Creative Strartegies的调查报告显示,Siri的用户满意度仅为20%。

一个具有代表性的事件是,亚马逊的Alexa在2018年还搞出了个“赛博灵异事件”。多位用户表示Alexa在毫无预警的情况下发出诡异的笑声,亚马逊不仅发表公开声明解释原因(可能是将环境噪音错误识别为“Alexa,笑一个”),还紧急上线了产品补丁。

同样的情况也发生在其他语音助手上:自己突然说话、答非所问、不听指挥等等。

到了如今,智能语音助手已经不能符合人们对“智能”的想象。但这些吐槽和抱怨,似乎没有推动语音助手的明显进化。语音助手的“愚蠢”就像房间里的大象,被科技大公司们集体忽视了。

一个最明显的例子是,如果你去观看2011年苹果发布会上的Siri演示,会发现其用法和处理能力和今天相比没有什么明显的差别。

直到ChatGPT的出现,才让这个“大象”被看见。虽然自己也曾推出PC语音助手Cortana,但乘上ChatGPT快车的微软毫不手软,直接点出了问题。

3月,在接受英国《金融时报》采访时,微软CEO萨蒂亚·纳德拉(Satya Nadella)表示:“无论是Cortana、Alexa、Google Assistant还是Siri,这些语音助手笨得像块石头(dumb as a rock)。我们最新推出的产品(必应聊天机器人),具备这些语音助手所无法提供的功能。”

Siri们的“愚笨”,或者说与ChatGPT相比之下的呆板,直接原因自然是背后的技术。

ChatGPT为代表的新一代聊天机器人由大型语言模型(LLM)驱动,这些模型系统经过大量网络数据集的训练,能识别和生成基于数据集的文本,在此基础上生成完整的句子。

而Siri、Alexa和谷歌助手基本上都属于所谓的命令和控制系统。这些系统智能理解有限的问题和请求,如果用户所提出的问题不在其代码中,助手就无能为力。

根据《纽约时报》的一篇报道,曾在苹果负责Siri项目的工程师约翰·柏基(John Burkey)表示,由于设计的繁琐,为Siri添加新功能很难。

他曾于2014年受命对Siri进行改进,而它的数据库就像一个“巨大的雪球”,要在Siri的数据库里添加哪怕一个单词,“实际上就是在一大堆无序的数据库中再添加一些数据。”

同样的问题,Alexa和谷歌助手也有。

作为硅谷头部科技巨头,调用人才和财力为语音助手改头换面不就行了?可惜事情没有那么简单。

第一个问题是,他们有没有动力这么做?

用户自然是希望语音助手更聪明,自从ChatGPT出现,互联网上就不断有“如何将ChatGPT接入我的手机”这样的提问。而且,目前也已经有基于GPT的语音助手应用推出。

但这并不足以让巨头们做出战略决策。Alexa虽然帮助亚马逊抢占了智能音箱市场的份额,但却并没有清晰的商业化路径,甚至是在做赔本买卖。亚马逊的野心是通过语音助手将用户引至电商消费,但随着时间的推移,大部分的用户只不过用Alexa执行诸如“听音乐”“关灯”等基础指令。

去年底,亚马逊宣布裁员1.7万人,其中,负责Alexa的“全球数字”部门成为了裁员重灾区,部分高管离开了公司。据BusinessInsider,这个部门仅在2022年第一季度就亏损了30亿美元,罪魁祸首就是Alexa,这是其他部门亏损总和的两倍。

该报道还称,硬件团队2022年预计亏损100亿美元。

谷歌助手虽然在语音助手中占比很高,在美国是市场份额第一的语音助手,但似乎被亚马逊误导,走了同样的弯路。从2016年到2021年的5年里,谷歌发布了8个主要的内嵌主搜的音箱/智能显示器硬件产品,自那以后似乎就陷入停滞。

2022年,谷歌移除了助手对两个内部产品线的支持,NestWifi路由器和Fitbit可穿戴设备。同年,The Information报道称,胡歌欲减少在开发谷歌助手语音辅助搜索功能方面的投资。

谷歌助手和Alexa一样,没有什么赚钱的路径,无广告,无订阅模式,就是一个兢兢业业的助手,还经常帮不到点子上。

将ChatGPT、Bard等聊天机器人背后的大型语言模型应用在语音助手上,自然对功能体验有提升,但仍然无法解决产品商业化的问题。

至于苹果,则深深受制于“保护用户隐私”。几年前Siri因为“偷听”丑闻,收回了所有Siri项目的外包公司,对用户和Siri之间对话的私密性更加尊重。但这对于大语言模型来说,就意味着训练数据的匮乏。

第二个问题是,身形庞大的科技巨头,转起身来有困难。

不管是Siri、Alexa还是谷歌助手,都已经发展多年,要做大变革,最容易被外界忽略,却也最棘手的问题,便是内部的资源分配。

苹果的Siri从一开始就历经坎坷,乔布斯刚开始亲自指导该项目,却在产品上线第二天去世。到了发布一年之后,Siri就已经经历三位负责人,而内部的分歧不断。不仅有管理方式的分歧,也有搜索、语音识别、自然语义的派系纷争。

到了2022年,又有三位关键人物 Srinivasan Venkatachary、Steven Baker 和 Anand Shukla离开,他们是机器学习初创公司Laselike的创始人,后被苹果以1.5亿美元收购。这次离开,他们投入了谷歌的怀抱。

让Siri进行大转向,势必又要涉及到内部人员和资源的重新分配:谁来领导项目?走什么路径?过往人员是去是留?这都是摆在库克面前的老大难问题。

谷歌倒是已经做出了选择。

3月底,CNBC报道了谷歌的团队变化,根据一份泄露的内部备忘录,谷歌助理似乎为公司新的超级巨星Bard让路。

这份名为“助理和Bard团队的变化”的备忘录显示,公司将把Bard作为高度优先事项。曾担任谷歌助理项目副总裁的Jianchang Mao离职,该项目另一位副总裁则将负责Bard团队的工作,此前负责Bard项目的高管继续担任Bard“区域技术领导”。

看起来,谷歌已经做好了将Bard和谷歌助理融合的准备。

至于亚马逊,在长久的沉默之后,终于宣布要用LLM给Alexa做升级,但具体怎么做,并没有对外透露。刚刚经历了裁员重创的内部团队要如何重振希望,是贾西要解决的难题。

Siri们已经意识到了ChatGPT的威胁,不进则退的局面已经形成。至于怎么进,这是个问题。

希望有天我们可以拿起手机问Siri:“今天北京比上海热吗?”并得到令人满意的有效回答。

参考资料:

  1. 澎湃新闻:《谷歌被曝调整虚拟助理部门领导架构,未来或集成Bard技术》
  2. 爱范儿:《 从领先到落后,苹果 Siri 和它动荡的 7 年时光》
  3. 大数据文摘:《从“全村的希望”到“大裁员”,亚马逊是如何摧毁Alexa 的?》

作者:毕安娣;编辑:王靖

原文标题:Siri 们的“智障”终于有救了?

来源公众号:字母榜(ID:wujicaijing),让未来不止于大。

本文由人人都是产品经理合作媒体@字母榜 授权发布,未经许可,禁止转载。

题图来自 Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK