2

刷屏的Gemini“强大多模态能力”视频,谷歌“造假”了?

 9 months ago
source link: https://awtmt.com/articles/3703779
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

刷屏的Gemini“强大多模态能力”视频,谷歌“造假”了?

卜淑情 发表于 2023年12月08日 03:44
9193人阅读
摘要:媒体报道称,视频中Gemini对画面的描述、对玩具识别和提问的回答等互动都是人为设置的,视频跳过了部分提示以及模型的推理过程,给观众营造一种Gemini智能又敏捷的假象。

周四,谷歌YouTube官方账号发布的一个名为“与Gemini亲密互动:与多模态AI交互”的视频引发了网友围观,一天之内观看次数达到140万次。

07aeb3e7-f4ca-4207-befb-c987b3dc7011

这个视频之所以能吸引这么多目光,是因为它展示了谷歌史上最强Gemini多模态模型在交互方面令人印象深刻的表现。

在这段时长6分22秒的视频中,Gemini对输入的语音、图像等提示做出了灵活、流畅的响应和理解,展现出强大的多模态理解和交互能力。

然而,据科技媒体TechCrunch最新报道,有用户仔细研究该视频后,发现Gemini的惊艳表现几乎都是“伪造”的。

视频中Gemini对画面的描述、对玩具识别和提问的回答等互动都是人为设置的,视频跳过了部分提示以及模型的推理过程,给观众营造一种Gemini智能又敏捷的假象。

Gemini可能没有那么智能

Gemini在视频中展示了多种交互技能,比如识别玩具鸭、跟踪杯子戏法中的球、识别手势、重排星球顺序等。

比如,在第一个演示中,Gemini识别了一个鸭子素描从一条线到完整画面的演变过程。当演示者将鸭子素描填满蓝色颜料时,Gemini指出鸭子通常是棕色、白色或黑色的,不会是蓝色的。

392f16a9-9f72-43fe-b155-37d80575eb6e.png

然后,当Gemini看到一个蓝色玩具鸭时,它惊讶地说道:"这是什么玩意!"接下来它回答了关于这个玩具鸭的各种语音提问。

整段视频中,Gemini的反应都很快,回答纵享丝滑,但问题在于,它的反应不够真实。

媒体通过捕捉素材来测试Gemini在各种场景下的反应能力,重新制作了一个演示视频。然后,用视频素材中的静态画面框提示Gemini,并通过文字输入进行提示。

结果显示, Gemini确实具备视频中展示的某些能力,但并没有真正如视频所示的那样快速、流畅地完成所有互动任务。

但据TechCrunch称,视频中展示的交互效果,其实并不是真实的即时交互,而是事先设置好的。

视频用的是一系列特意准备的文本提示,以及配套的静态图片,通过挑选和剪裁这些预设素材,制作成真实交互的效果。

这样做其实是为了误导观众,让人们相信视频中展示的是Gemini真正的即时交互能力。但很可能的是,Gemini在交互速度、准确性等方面均没有视频中展示的那样强大。

07aeb3e7-f4ca-4207-befb-c987b3dc7011
视频和文档展示的提示,差别很大

值得注意的是,当TechCrunch对比视频和谷歌发布的文档演示时,发现两者的提示存在差异。

比如,在视频的2点45分处,一只手做出了一系列手势,没有配合语音提示。Gemini很快回应道:“我知道你在做什么!你在玩石头、剪刀、布!”

6bee2e54-efbc-4695-9e9c-ae979efe50e2.gif

但谷歌的Gemini能力文档一开始就明确指出,该模型不能通过识别单个手势来推理,提示必须同时展示全部3个手势,并给提示词“这是什么游戏”,只有这样它才能识别出“石头、剪刀、布”。

eb5e4155-b620-4aa4-9a22-fc03b4fc87e6.png

所以视频中的表现完全不符合文档所述的提示限制,无法展示出Gemini的真正识别能力。

另外,Gemini识别星球顺序的场景也可能具有欺骗性。

演示者展示了贴有太阳、土星和地球涂鸦的便利贴,询问Gemini行星顺序是否正确,Gemini给出了正确的太阳、地球、土星顺序。

但文档显示真正的提示是,“这是正确的顺序吗?思考离太阳的距离并解释你的推理”。

dcf491a2-3954-4085-a711-c2d3135882bd.png

这两种交互感觉上完全不同,视频演示看起来像智能的及时评估,而在真正的交互中,Gemini需要暗示性很强的提示。

另外,在追踪杯子中纸团的演示中,也出现了不同于文档记录的提示的情况。

值得注意的是,如果一开始视频就明确表示“这是对我们研究人员测试过的交互的艺术化呈现”,大家都不会有异议,因为这类视频本来就兼具事实和理想色彩。

但是这个视频叫做“与Gemini亲密互动”,并标榜是 “我们最喜欢的交互”,这实际就是说,视频中的交互就是真实交互的意思,但实际上并不是。

谷歌甚至没有说明,视频中展示的模型是已经面市的Gemini Pro版本,还是预计明年发布的 Gemini Ultra。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK