6

OpenAI、微软、Meta先后下场,海外AI终端之战在:眼镜!

 9 months ago
source link: https://awtmt.com/articles/3704350
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

OpenAI、微软、Meta先后下场,海外AI终端之战在:眼镜!

卜淑情 发表于 2023年12月15日 08:44
摘要:报道称,谷歌仍在开发智能眼镜软件,OpenAI与Snap强强联手,Meta与Ray-Bans优势互补,苹果已在硬件上做好准备,亚马逊计划推出多模态AI新设备。

全球AI竞争必将在明年进入新一轮高潮,各大科技巨头围绕智能眼镜展开的争夺战也将成为焦点。

随着多模态AI强势崛起,Meta、谷歌、微软、OpenAI 等公司正竞相将更强大的AI技术应用于智能眼镜和其他可穿戴设备。

据The Information最新报道,谷歌虽然已经终止了增强现实(AR)眼镜项目,但仍在为智能眼镜开发软件。上周,谷歌史上最强AI模型Gemini展示了其多模态功能,向打造一个“始终在线”的AI助手的目标迈出第一步,但这距离真正实现可能仍需要数年时间。

该媒体援引一位知情人士报道,OpenAI最近考虑将其物体识别软件GPT-4与Vision嵌入到Snapchat母公司Snap公司的Spectacles智能眼镜产品中,这可能会为其带来新的功能。

Meta将一款多模态AI语音助手嵌入了他们正在与奢侈品墨镜公司Ray-Ban合作开发的智能眼镜,该助手可以描述佩戴者看到的东西,为衬衫搭配裤子提出建议,并可以将西班牙语文本翻译成英语。

另外,近几个月亚马逊也在讨论一种新型AI设备,据悉该设备也具备类似的视觉能力。

谷歌:仍在开发智能眼镜软件

据报道,谷歌虽然早在年中就取消了智能眼镜的开发,但仍在为其开发软件,谷歌计划将软件授权给硬件制造商,类似于为三星等手机制造商开发安卓移动操作系统的方式。

谷歌上周发布视频展示了Gemini 的部分功能,比如自动识别用户表演的电影,对面前物品提出建议,以及学习新游戏的能力。

Gemini家族目前有Gemini Ultra,Gemini Pro和Gemini Nano三个成员,将向不同的客户群开放,但谷歌并未在视频中公开其所谓的高级版Gemini,视频中的用户交互也做了渲染。

尽管如此,该视频展示了谷歌打造一个“始终在线”的AI助手的愿景,它可以实时响应和理解用户正在做的事情和看到的东西。

知情人士向The Information透露,要实现这种“环境计算”仍需数年时间。作为第一步,谷歌正在重新设计Pixel手机的操作系统,嵌入小型的Gemini模型驱动Pixie AI助手,处理更加复杂和多模态的任务。据此前报道,Pixie能够根据用户拍的照片,推荐附近的商店买到相关商品。

谷歌的核心搜索技术就是预测和提供用户需要的信息,因此开发这样的AI设备非常符合谷歌的定位。谷歌十年前试水的眼镜就是一个失败案例,由于外形尴尬、实用性有限,用户并不买单。

后来,谷歌对摄像头设计进行了调整,并推动安卓手机厂商将手机摄像头打造成“第三只眼”,可以扫描环境并将图像发送到谷歌云端分析,为用户提供上下文信息,但这个想法最终缩水成图像搜索应用Google Lens。

OpenAI:与Snap强强联手

The Information援引一位知情人士报道,OpenAI最近考虑将其物体识别软件GPT-4与Vision嵌入到Snapchat母公司Snap公司的Spectacles智能眼镜产品中,这可能会为其带来新的功能。

早在今年3月份,OpenAI就展示了其AI软件根据手绘草图来构建网站的能力。或许是为了充分发挥大模型的强大功能,从那时起,OpenAI首席执行官Sam Altman就多次表示,对构建一种新的基于AI的消费类设备感兴趣。

值得注意的是,OpenAI本身没有设备团队,但可以与其他公司合作,比如Snap这样的设备制造商,或者AI芯片设计商。

另外,Altman还正在投资一家名叫“Humane”的AI设备制造商,这家公司制造带摄像头的可穿戴设备“AI brooch”,计划制造可以取代智能手机的AI设备。

微软:积极推进智能眼镜相关AI技术开发

微软正在积极推进可应用于智能眼镜和其他小型设备的AI技术的研发,这些技术或基于语音或图像识别,目的是赋能更多样化的智能硬件。

The Information认为,这些工作可能基于微软现有的 HoloLens AR头显来展开。

报道称,微软正在为 HoloLens嵌入一种AI软件,用户可以通过语音与 OpenAI技术驱动的聊天机器人讨论相机拍摄的物体。

苹果:已在硬件上做好准备

苹果在多模态AI技术上较竞争对手相对落后,但也在这一领域开展了一定工作。具体来说,

苹果已通过即将发售的Vision Pro头显,在硬件上做好应用多模态AI技术的准备。

苹果在AI算法方面落后于同行,直到今年才开始重点研究大型语言模型(LLM),此前相关研究仅停留在初步阶段。

The Information报道称,目前没有迹象表明Vision Pro会在近期具备复杂的物体识别等多模态功能。

但是,苹果这些年致力于增强Vision Pro 的计算机视觉能力,使其可以快速识别周遭环境,例如识别家具、判断环境是客厅、卧室还是厨房,苹果目前正在开发可以识别图像和视频的多模态模型。

Vision Pro的一个主要障碍是体积较大、笨重,也不太适合户外佩戴。今年早些时候,苹果据传暂停了AR眼镜的研发以专注推出头显产品。目前不清楚眼镜项目何时重新启动,但未来可能实现多模态功能。

Meta:与Ray-Bans优势互补

12月12日,Meta和奢侈品墨镜公司Ray-Bans合作的新产品——Meta Ray-Bans智能眼镜,开始推出多项AI功能:拍照、计算食物卡路里、识别植物、翻译等。从媒体和扎克伯格的试用来看,Meta Ray-Bans智能眼镜AI功能的表现似乎还不错。

早在今年9月接受媒体采访时,扎克伯格就透露过,Meta会在智能眼镜上推出多模态AI功能。所谓的多模态,即支持文本、图像、语音等多种形式的媒介输入的AI。

据报道,Meta未来还计划让眼镜能够检测人体的感官数据,进一步强化多模态能力。眼镜上搭载的高通AI芯片目前似乎表现良好,Meta未来还计划进一步对使用流程进行优化。

目前,Meta眼镜已经上架销售,售价为300美元,AI功能处于早期测试阶段,仅向部分用户开放。但值得指出的是,Meta也表示,会使用匿名数据来帮助改进眼镜的AI服务,可能会让许多关心隐私的用户感到不适。

亚马逊:计划推出多模态AI新设备

据直接了解该项目的人士向The Information透露,今年夏天,亚马逊Alexa团队计划推出一款能够运行多模态AI的新设备。

这位人士表示,该团队特别感兴趣的是,如何减少在设备上处理图像、视频和语音的AI计算和内存需求。

报道称,目前尚不清楚该项目是否获得资金支持,也不清楚该设备打算为客户解决什么问题,但它与亚马逊老产品 Echo 语音助理设备系列是分开的。

Alexa 团队多年来一直致力于新型设备的开发,其中包括一款名为 Echo Frames 的智能音频眼镜。然而,目前尚不清楚,亚马逊是否会在该眼镜的基础上开发具有视觉识别功能的设备,因为它不搭载屏幕显示器或摄像头。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK