1

AI见闻日报:机器人看YouTube学会做家务,大规模视频训练机器人要火了!| 见智研究

 1 year ago
source link: https://awtmt.com/articles/3691873
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

AI见闻日报:机器人看YouTube学会做家务,大规模视频训练机器人要火了!| 见智研究

韩枫 发表于 2023年06月26日 11:08

摘要:1、机器人看YouTube学会做家务,大规模视频训练机器人成为重要路径;

2、AI果不其然对视频下手了,十秒剪视频,Whisper模型让每个人都能成为“剪辑师”;

3、开源大模型明星更新第二版:ChatGLM2-6B推理更快文字更长,允许商用授权;

4、PrivateGPT 开源模型可实现不连网提问;本地部署未来空间大;

5、李彦宏表示:百度文心大模型推理速度提升17倍。

1、机器人看YouTube学会做家务,大规模视频训练机器人成为重要路径;

2、AI果不其然对视频下手了,十秒剪视频,Whisper模型让每个人都能成为“剪辑师”;

3、开源大模型明星更新第二版:ChatGLM2-6B推理更快文字更长,允许商用授权;

4、PrivateGPT 开源模型可实现不连网提问;本地部署未来空间大;

5、李彦宏表示:百度文心大模型推理速度提升17倍;

每日见智AI

1、机器人看YouTube学会做家务,大规模视频训练机器人成为重要路径

CMU机器人研究所助理教授Deepak Pathak展示了一种视觉机器人桥方法(VRB);通过让机器观看人类行为方式的视频完成行为模拟,并验证了该方法的有效性。

60099bac-4538-4c79-9e47-dace21f55bf9.png

视频中机器人下观看了几个人类开抽屉的视频后,”CMU指出,“机器人可以确定如何打开任何抽屉。

CMU依赖于来自Epic Kitchens和Ego4D等数据库的视频,后者拥有“来自世界各地的近4小时的以自我为中心的日常活动视频”。

见智点评:

这种方法的关键在于利用大规模的视频数据来训练机器人,并从中学习人类行为和操作。这为机器人的应用提供了更广泛的可能性,可以通过观察互联网和YouTube等视频来获取更多的训练数据。这种方法可以改进机器人的操作能力,并为机器人在日常生活中的应用提供更多的机会

2、AI果不其然对视频下手了,十秒剪视频,Whisper模型让每个人都能成为“剪辑师”

荷兰开发者Matthijs Hollemans在HuggingFace上基于Whisper开发了视频剪辑新功能,现在剪视频能够精准到每个字。

在平台上可以对上传的视频内容进行同步文字转化,只需要选择留下的文字,然后就可以直接生成所需的片段。使用过程非常简单,可累比相机界的“傻瓜相机”。

见智点评:

AI应用层出不穷,此前主要是AI生成图片内卷非常严重,几乎是每周都有重要更新,现在这个迭代速度已经开始向视频领域蔓延,这个小白剪视频的功能让剪视频门槛大大降低,同时节省了很多制作时间,效率优化超过90%,对于视频创作行业来说具有重大影响。

3、开源大模型明星更新第二版:推理更快文字更长,允许商用授权

清华大学KEG和数据挖掘小组(THUDM)发布了第二代ChatGLM2-6B;

相比第一代ChatGLM2-6B来看,二代在几项测评中都有了不同程度的提高:

a、特别是数学推理能力提升幅度571%;

6dfed5ad-2146-4ca9-972b-12ae38a34fa9.png

b、支持更多轮次的对话,并且文字长度限制也从2K提升至8K;

c、更快的推理能力,相比第一代速度提高42%;

d、向学术研究全面开放,并且允许申请商用授权;

见智点评:

ChatGLM2-6B是国内最强的开源大模型,本次更新具有重大意义,特别是在数学推理能力、对话长度和轮次、推理速度等方面的优化,将对数学教育、学术研究、商业应用等领域产生积极影响。

4、PrivateGPT 开源模型可实现不连网提问;本地部署未来空间大

开发者Iván Martínez Toro发布了PrivateGPT开源模型,该模型允许用户在无需互联网连接的情况下,通过提供自己的文档来向模型提问。

PrivateGPT可以在家用设备上进行本地运行,使用前需要下载名为"gpt4all"的开源大语言模型(LLM)。用户需要将所有相关文件放入一个目录中,以供模型引入所有数据。完成LLM的训练后,用户可以向模型提出任何问题,它将使用提供的文档作为上下文来回答。PrivateGPT能够处理超过58000个单词,目前需要大量本地计算资源(推荐使用高端CPU)进行设置。

Toro表示,当前PrivateGPT处于概念验证(PoC)阶段,它至少证明了可以在本地创建类似于ChatGPT的大模型。可以预见,一旦这种PoC转变为实际产品,PrivateGPT将具备让公司获得个性化、安全和私密的ChatGPT来提高生产力的潜力。

见智点评:

PrivateGPT开启行业对本地化部署的重视程度,这对于那些关注数据隐私和安全的行业和个人非常重要。通过本地化部署,用户可以更好地控制和保护他们的数据,减少了数据泄露和侵犯隐私的风险;开源模型和本地化部署将在未来产生积极的影响。

5、李彦宏:百度文心大模型推理速度提升17倍

在世界互联网大会数字文明尼山对话上表示:新的国际竞争战略的关键不在于一个国家拥有多少个大模型,而是看这些大模型能够应用于多少原生AI应用,并在多大程度上提升了生产效率。

他还透露,百度文心大模型已经更新到3.5版本。相比于3.0版本,新版本的训练速度提升了2倍,推理速度提升了17倍,并且模型的效果总体上提升了超过50%。在数据质量、生成效果和内容安全性方面都有明显的提升。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK