4

抢先GPT-4!微软Bing突然升级「识图」功能,读梗看病写代码,样样精通

 1 year ago
source link: https://www.51cto.com/article/757614.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

抢先GPT-4!微软Bing突然升级「识图」功能,读梗看病写代码,样样精通

作者:新智元 2023-06-13 13:53:00
Bing能识图了!开局一张图,需求都满足。这波,GPT-4要输麻了。

什么,微软的Bing能识别图片了?还是抢在了ChatGPT之前?

和当初只画饼、不落地的GPT-4预览相比,Bing这次可谓占尽了风头。

有Reddit网友发现,Bing的界面上突然就出现了个上传图片的选项。

图片

据说,上传一张图片之后,Bing什么都能干。

不管是编程写代码、做题作图,甚至看病,通通不在话下。

(但似乎还在小规模测试,比如小编就还没体验到)

在大量网友发现这项功能以后,最先测试的肯定是各种各样的梗图。

把梗图输入给Bing,看看它能不能分析出笑点在哪里。

比如下面这张图片,一个男人在出租车后面熨衣服,而且车还在开着。

Bing表示,这图里不同寻常的部分太多了。首先,在出租车上熨衣服很离谱,其次,男人穿的衣服和出租车颜色一致,是不是在暗示什么?或者是某种巧合?

第三,熨衣板固定在出租车上,这样有不稳定的风险。最后,男人正在熨的衣服是蓝色的,和黄色撞色了,是不是在暗指什么?

图片

能看出,Bing还是尽可能的捕捉到了图片中的所有细节,甚至分析的还挺有道理。

而在下图这个「为什么要给神经网络加层数?」的漫画中,Bing也给出了自己的分析。

图片
图片

这个漫画夸张了统计学习和神经网络的差异,让前者使用的严肃和技术性语言与后者的简单直接建议形成对比,创造了一种幽默的并置效果。

总的来说,这个漫画利用了与机器学习这两种方法相关的刻板印象和常见看法,突显了统计学习和神经网络的不同。

当然,相同的图片也在预览版的GPT-4中展示过。

GPT-4一针见血地点出,这副漫画讽刺了统计学习和神经网络在提高模型性能方法上的差异。

图片

但在另一组图中,Bing似乎并没有get到点。

图片

Bing还装模做样的分析了分析,它说也许是接头和包装的反差?也可能是插头的底下看着像一张脸。

甚至还没话找话的分析了三幅图片分别是什么,就是没提梗在哪里。

图片

不过,如果让Bing去做一些客观分析的话,比如识别线材品牌,结果还是非常准确的。

图片

相比之下,GPT-4在逐个分析下面这组梗图时,可以立马反应过来——

图里的这个「Lighting充电线」,看起来就是个又大又过气的VGA接口,插在这个又小又现代的智能手机上,反差强烈。

图片

当时GPT-4在画饼的时候,最惊艳的就是它对代码的超强的理解能力。

在演示中,Greg Brockman直接在纸上画了一个草图,拍个照,发给GPT-4说,给我按照这个布局写网页代码,就写出来了。

图片

这个小哥也让Bing试一试,能不能搞个同款笑话网站出来。

图片

最终效果看起来还真不错,虽然界面看起来没多美观,但是该有的都有。

图片

程序代码如下:

图片
图片
图片

接着,小哥让Bing继续完善代码,把对应的网页给做出来。

图片

Bing表示当然可以,只需微调代码。但是指出了JavaScript并不是编译语言,而是一种解释语言。

所以不需要一个编译器,只需要浏览器或者一个JavaScript的引擎就好了。

友情科普完,Bing也是成功完成了任务。

图片
图片

下面这个用例就比较厉害了。

小哥直接拍了一张发红手臂的图片,问Bing自己得了什么病。

Bing直接判定为瘀伤,皮下血管破裂。

图片

甚至还开出了很多方法来缓解症状:

  • 前24个小时贴冰袋,缓解肿胀和发炎。
  • 24小时以后加热,促进血液循环,清除淤血。
  • 把瘀伤的部分抬到比心脏高的位置,降低血压和血液聚集。
  • 服OTC止痛药。
  • 多吃富含维生素C、维生素K、锌,以及菠萝蛋白酶的食物,加速伤口愈合以及胶原合成。
  • 涂药膏减轻瘀伤和发炎肿胀。
图片

还是蛮专业的。

还有小哥发了一张组织的横切面图让Bing来断一断。

Bing不仅识别出了图片内容,还详细的讲解了一下什么叫组织,什么叫横切面。

甚至还解释了什么情况下会用到组织的横切面图。

图片

接着小哥追问,你觉得是什么组织的切面?

Bing分析认为,这是肌肉组织的横切面。

甚至,Bing还十分严谨地指出,自己不能单独根据一张图,来判断这个人是不是健康。

图片

还有网友化身苦难中的大学生,让Bing当个好老师,给他讲讲图里是个什么玩意儿。

Bing表示,好好听老师说(删掉),这是肾元,主要有四个功能,分别是blah blah blah...

图片

好家伙,以后这种梳理总结类的学习任务,直接甩给AI就完事了。AI永远不会失去耐心。

甚至直接有人甩给Bing一道有关细胞减数分裂的题。

Bing表示,上传的图片是减数分裂的示意图,从一个二倍体细胞分裂成四个单倍体细胞。

然后又从减数分裂的过程、意义进行了讲解。

图片

有时并不太灵光

当然,Bing的识图功能目前还有不少改进的空间。

比如,小哥问图中A框里有几个×(根据图例,A.trifida就是×)。

人眼一看是11个,可怎么Bing说的不对呢。

图片

Bing说总共有9个,A框里5个X,B框里4个○,加起来一共9个。

说好的A框,说好的X呢!怎么又○又B框的。

图片

再比如,这张《任天堂大乱斗》的游戏角色图中,Bing只认出了其中的7个角色。

图片

然后,小哥又问一个国际象棋的问题:「在这个开局里,白棋接下来该怎么走?」

但Bing一上来就回答错了:「现在轮到黑棋走,至于白棋怎么走,取决于黑棋……」

网友赶紧更正称,不对,你先看清棋子的位置,然后我再说一遍,现在是轮到白棋走。

图片

然而,Bing这次依然没有回答正确——在给出的位置中,有好几处实际上都没有棋子……

图片

能看出来,Bing新添的识图功能性能倒是挺强大。

开局一张图,后面全靠强大的生成能力发挥。

事实性的识别和生成感觉问题不大,就是不知道未来有点文化隐喻的那一趴能不能做到更好。

参考资料:

https://www.timesnownews.com/technology-science/snap-and-ask-microsofts-bing-chatbot-now-accepts-picture-prompts-article-100900618

责任编辑:武晓燕 来源: 新智元

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK