0

大模型+影像:智能手机“上春山”

 6 months ago
source link: https://www.36kr.com/p/2659592597930247
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

大模型+影像:智能手机“上春山”

脑极体·2024-02-22 11:35
谁站C位?大模型上见分晓

这个春节假期,一首《上春山》火了。吃瓜群众热热闹闹学了一个假期的“春山学”,了解了抢占C位的各种技巧。

假期过去,开工大吉,手机行业开始抢占今年的C位。那么问题来了,今年智能手机最大的机会点在哪里?答案呼之欲出,当然是AI大模型。去年下半年,手机厂商陆续推出端侧大模型。春节刚过,OPPO发布了全新的AI战略,宣布进入AI时代。魅族宣布不再生产“传统智能机”,全面拥抱AI时代。显然,大模型就是手机行业的那座“春山”。

但根据“春山学”相关知识,跟着大家一起上山是不够的,必须更上一层才能稳站C位。在大模型+手机的众多结合点中,有一项能力是C位中的C位,妥妥的“真·春山无双”——大模型+手机影像。

interlace,1

据说在这个春节,一线城市的写真店纷纷转变了商业模式。原本大家都是去拍写真,店家负责拍摄和修图。现在都是去拍AIGC照片,店家摇身一变为AI提示工程师,用各种AIGC平台来实现用户种种匪夷所思的需求。

回来对比照片,也不是比你这张光打得不错,你这张P得更自然,而是你这张照片用的什么提示词,你这张一看就模型泛化性比较强……

interlace,1

总之,AI之风正经由照相馆、写真店、小程序、APP,强烈地吹拂着我们的影像生活。

但是问题来了,这些强烈的AIGC影像需求,真的必须去线下店才能完成吗?为什么不能在手机端一键搞定?最近手机新品动辄搭载几十亿参数的端侧大模型,它们闲着干嘛呢?

事实上,手机里的大模型肯定是闲不住的。目前拥抱AI大模型的手机,基本情况是大模型是大模型,影像是影像,但这种分裂局面必然会很快得到改变。

“大模型与移动影像”的融合赛道,是2024年智能手机行业最为清晰的风口,也是手机厂商急切想要上,也必须上了就不能下来的,具有战略意义的那座“春山”。

大模型+手机影像,这座春山怎么上?我们来弄清其中的“春山学”问题吧。

六年之后,AI影像再上山

首先我们需要明确一点,那就是AI+影像绝不是什么新鲜事物,甚至很多人都已经习惯了AI与影像的结合。

这个概念开始受到业界重视,是早在2018年的时候。那一年4月,华为发布了P20手机。这款手机利用麒麟芯片的NPU端侧算力,首次在拍照中搭载了AI功能,能够识别包括宠物、人像、风景、美食等19种场景,覆盖500多个识别目标。在AI识别这些目标物后,会自动调整摄影模式和参数设置。

随后,这种AI摄影模式一度爆火,成为当时最具热度的手机技术升级,并且逐渐为全行业所接受。随着几年发展,AI影像变得越来越复杂,可识别物越来越多,并且加入了动态抓取、去除反光等AI能力,还与此后流行的计算摄影概念结合,成为手机影像系统中的基础能力之一。

但到这个层面,AI摄影的能力依旧有显著的局限性。它对图片的作用集中于“美化”,而不是“修改”和“生成”。我们也探访过一些AI摄影相关赛道的开发者,他们很希望能够利用手机的AI能力做出更具创意的应用,但端侧算力和模型能力是主要的限制。

interlace,1

而伴随着AI大模型的爆火,模型能力的关隘被突破了。在大模型的加持下,用户可以对影像系统提出复杂的指令,影像系统也能够更完整理解用户交互逻辑与意图指向。在能力上,大模型可以帮助完成高精度的图像元素替换,甚至加入AI生成的影像。

或许可以这样说,最初用户听闻AI影像概念的时候,脑海中设想的影像能力,其实是在今天才有可能实现的大模型影像。

伴随着大模型能力落地手机,AI影像终于可以完成关键一跃,实现那些早就许下的诺言。

大模型,就是AI影像的必须上的那座山。

春山上,风景如何?

春节还没过去,世界就感受到了来自Sora的视觉震撼。AI行业有句话,叫语言模型为打榜,视觉模型能赚钱。机器视觉能力是让用户感受到AI魅力最快速也最有效的方案。

长期以来,手机影像可谓一卷再卷,卷无可卷,但用户始终能做的只是拍摄图片。AI大模型能力的加入,可以让用户获得无门槛修改图片,以及将AIGC影像与手机拍摄影像结合的能力。AI大模型+手机AI计算能力+手机影像系统的组合,极大拓展了手机影像的边界,既继承了手机厂商多年来的技术与供应链布局,同时还获得了新的增长空间。

目前阶段,这条赛道已经迅速铺开。比如三星就通过图片助手功能,让用户实现了移动图片中目标,自动填充空缺,生成新图片的能力,从而让手机影像具备更大的构图自由。

interlace,1

而OPPO Find X7系列则实现了通过AI大模型来提供AIGC消除功能。就像我们最近在广告里看到的那样,用户可以把春节聚会时不想看到的人从合影中消除,同时依靠AIGC补齐背景。目前,Find X7已经可以支持最多6个主体单独提取。除此之外,OPPO还更新了AI超清合影功能,可以智能识别并增强合影中人脸的清晰度。

interlace,1

可以预见的是,接下来我们会看到大量基于AI大模型实现的影像功能,比如AI抠图,AI替换,AI扩图等。整体而言,大模型+手机影像会呈现三大发展趋势:

1.AIGC内容与拍摄内容结合。AIGC的文生图平台,在过去一年快速赢得了用户青睐,将这种能力与手机本身影像能力融合,是AI手机赛道上最关键的争夺战。

2.AI能力从应用侧上移,与手机本身的影像系统结合。目前,AI大模型带来的视觉能力,更多还是单独的软件应用。接下来,手机厂商会将这些能力上移到系统侧,成为产品本身的差异化卖点。

3.手机影像能力可以OTA。AI大模型的加入,一定程度上让手机自身的影像能力成为可升级,可迭代的软件。让手机自身的系统级能力也可以持续更新,持续运营,是AI大模型带给手机的一种新变化。

总体来看,大模型与手机影像的结合,有着非常充沛的创意发挥空间,有源源不断的可能性。想要抓住这个机会,客观上将带来手机厂商之间新一轮的技术竞赛。

那座山,就是下一个战略高地

目前阶段,还没有厂商将“大模型+影像”这个概念旗帜鲜明地提出来,但这个概念以各种不同的名称落地,应该已经为期不远。

需要注意的是,在端侧部署大模型,以及发展出一些创意性的AI影像玩法都很容易,但要将AI大模型+影像真正发展为长期赛道,构成品牌的用户心智支点,那还需要厂商投入巨大的精力,来展开一场全新的智能手机行业竞赛。

其原因在于,大模型+手机影像是一场名副其实的综合考验。它需要硬件侧的算力配合,需要影像系统的支撑,同时也需要模型侧的算法加持,更需要应用开发创意以及AIGC专属的视觉审美。从务实到务虚,从底层硬件到顶层应用,大模型+手机影像的竞赛近乎覆盖了手机行业的每个层级。

interlace,1

而重点来看,抢占大模型+影像的战略高地,需要手机厂商在三个方面集结重兵:

1.AI基础设施更新。这个基础设施包括了AI算力与AI算法两个部分。涉及芯片能力,端云协同能力,以及基础算法能力。手机的AI基础设施更新需求,也将带动产业链展开新一轮洗牌。

2.AI应用的准确把握。AI大模型能够手机影像带来的可能性不是太少,而是太多了。如何在有限的算力条件下,给用户最准确,最吸引人的AI影像应用,将成为手机厂商面对的头一道考题。

3.AI审美能力的建设。最近很多人注意到Sora团队有专门的艺术人才加入。艺术与审美能力在AIGC时代非常重要。随着产业发展,算法能力会趋同,审美能力的差异化则会暴露出来。手机厂商过去更重视的是设计能力,这与艺术表达、审美判断等能力是存在一定差异的。构建属于AI手机的新审美能力,是一项全新的赛事。

最后,说一个有点反常识的判断:大模型+手机影像这座“春山”,其实还是很容易上的。其门槛远没有手机厂商宣传得那么夸张,但如果你最近用心学习了“春山学”教材,就会知道真正困难的不是上山,而是赖在山上不下来。

如何把大模型+手机影像从一个年度噱头,变成可以多年发展的长期赛道,甚至变成改写产业格局的锚点,那才是真正的考验。

不过好消息是,有春山可上至少证明了一件事:包裹手机行业的坚冰正在技术暖风的吹拂下开裂、消融。能否就此别冬入春,选择权在从业者手中。

本文来自微信公众号“脑极体”(ID:unity007),作者:风辞远,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK