AI一周见闻：微软win11启动AI变革；英伟达助力办公软件降本23%；视频训练成为机器人重要学习路径 | 见智研究

韩枫发表于 2023年07月02日 08:34

摘要：1.Copilot"落户"Windows11，操作系统的AI变革时刻已来； 2.金山办公引入英伟达推理服务器和GPU，图像任务能降本23%； 3.Midjourney 5.2又更新，这次AI生图开始卷向表情包； 4.十秒剪视频，Whisper模型让每个人都能成为“剪辑师”； 5.机器人看YouTube学会做家务，大规模视频训练机器人成为重要路径； 6.Unity推出AI Hub平台，股价飙涨 15%，AI革命游戏的进程在加速；

本周AI的重要风向在win操作系统、办公软件应用和大模型私有化部署所展现出巨大的市场潜力。微软的操作系统变革将为用户带来更智能、高效的体验，办公软件应用的AI技术将提高图像处理能力，而大模型私有化部署的发展将使AI在to B应用上更加安全可控，这些趋势将对相关行业和公司的发展产生重要影响，为AI的广泛应用提供更多机遇。

AI应用：

Copilot"落户"Windows11，操作系统的AI变革时刻已来

金山办公引入英伟达推理服务器和GPU，图像任务能降本23%

Midjourney 5.2又更新，这次AI生图开始卷向表情包

十秒剪视频，Whisper模型让每个人都能成为“剪辑师”

机器人看YouTube学会做家务，大规模视频训练机器人成为重要路径

Unity推出AI Hub平台，股价飙涨 15%，AI革命游戏的进程在加速

大模型：

谷歌 DeepMind花数千万美元打造ChatGPT的竞品，多模态视频训练将成为特色

PrivateGPT 开源模型可实现不连网提问；本地部署未来空间大

恒生电子发布金融行业大模型LightGPT，金融大模型场景多样化，需求确定性强

智谱AI为大模型应用更近一步！成为法律专用大模型底座

融资风向：AI安全成为资本的下一个风口，CalypsoAI融资2300万美元

1、Copilot"落户"Windows11，操作系统的AI变革时刻已来

微软官宣向开发者频道中的 Windows Insiders 提供 Windows Copilot 的早期预览。

第一个预览版重点关注集成 UI 体验，Windows Copilot 将显示为停靠在右侧的侧栏，不会与桌面内容重叠，并且将在打开的应用程序窗口旁边无障碍运行，可以随时与 Windows Copilot 进行交互。

在window11 Copilot 的预览版本中，用户可以提出以下种类问题：

内容涉及：个性化系统设置、截图、文生文和文生图的功能；

此外，Win11更新还包括本机支持读取其他存档文件格式；如常见.rar\ .7z等压缩文件；

见智点评：

微软兑现了在 5 月份的 Build 大会上的承诺，本次Copilot 的预览版本落地win11，成为操作系统迈入AI时代的重要一步，之后win11会成为第一代AI系统的大规模商用版本；此外，微软也表示在25年会停止win10的服务，包括专业版和家庭版，意味着那时起操作系统将会全面进入AI 时代。这将为用户提供更智能、高效的操作体验，并为微软带来新的商业机会。

2、金山办公引入英伟达推理服务器和GPU，图像任务能降本23%

金山办公官宣与NVIDIA 团队合作，为解决图像识别和理解任务耗时过长和成本的问题，

引入 NVIDIA T4 Tensor Core GPU 进行推理、NVIDIA TensorRT 8.2.4 进行模型加速、NVIDIA Triton 推理服务器 22.04 在 K8S 上进行模型部署与编排。

通过 GPU 推理和 TensorRT 加速，成功将耗时从15秒降低到了 2.4 秒左右；部署成本节省了 23% 。

见智点评：

英伟达推理服务器的部署，成功优化了GPU的利用率，提高了办公软件对图像文档识别和推理的效率，能够实现办公软件业务降本增效的预期。这一合作为WPS AI的落地应用提供了更高效的解决方案，这部分 AI 新能力集中在阅读理解、问答、人机交互等方面。

WPS AI 已经开始内测阶段，启动大规模商用后，对国内办公软件使用体验将带来全面升级。这一合作将提升金山办公的图像处理能力，并为其在办公软件市场中的竞争力带来优势。

3、Midjourney 5.2又更新，这次AI生图开始卷向表情包

Midjourney 5.2更新「weird」新功能，可自定义诡异等级。根据官网显示通过调节weird参数的大小即能够控制生成照片的诡异风格，参数越大照片越奇怪；但是该功能还只限于付费用户使用；

此外，还更新了「turbo」模式：该功能是能够以四倍速加速图片生成；不过相较于传统快速作业模式仍旧是需要消耗2倍的GPU；

见智点评：

图片生成在AI的影响下正在从传统模式进入一种新范式，weird模式增加了图片超越常规认知的可能性创作，这种模式具备更多娱乐属性，如果免费开放应用，那么大概率会在社交圈引爆。这一更新将进一步推动表情包制作的自动化和智能化，为用户提供更多创意和娱乐选择。

4、十秒剪视频，Whisper模型让每个人都能成为“剪辑师”

荷兰开发者Matthijs Hollemans在HuggingFace上基于Whisper开发了视频剪辑新功能，现在剪视频能够精准到每个字。

在平台上可以对上传的视频内容进行同步文字转化，只需要选择留下的文字，然后就可以直接生成所需的片段。使用过程非常简单，可累比相机界的“傻瓜相机”。

见智点评：

AI应用层出不穷，此前主要是AI生成图片内卷非常严重，几乎是每周都有重要更新，现在这个迭代速度已经开始向视频领域蔓延，这个小白剪视频的功能让剪视频门槛大大降低，同时节省了很多制作时间，效率优化超过90%，对于视频创作行业来说具有重大影响。这将进一步推动用户在社交媒体上的创作和分享活动，对于Whisper模型的开发商来说，商业机会也将随之增加。

5、机器人看YouTube学会做家务，大规模视频训练机器人成为重要路径

CMU机器人研究所助理教授Deepak Pathak展示了一种视觉机器人桥方法（VRB）；通过让机器观看人类行为方式的视频完成行为模拟，并验证了该方法的有效性。机器人观看了几个人类开抽屉的视频后，可以效仿人类行为做出打开抽屉的动作。

见智点评：

这种方法的关键在于利用大规模的视频数据来训练机器人，并从中学习人类行为和操作。这为机器人的应用提供了更广泛的可能性，可以通过观察互联网和YouTube等视频来获取更多的训练数据。这种方法可以改进机器人的操作能力，并为机器人在日常生活中的应用提供更多的机会。

视频训练将成为机器人学习的重要路径，进一步推动机器人技术在家庭和服务领域的应用和发展。

6、Unity推出AI Hub平台，股价飙涨 15%，AI革命游戏的进程在加速

全球领先的3D内容平台Unity宣布推出AI Hub平台，允许 AI 软件开发者通过 AI Hub 向游戏研发商直接供应开发软件，并通过 Unity 的 Asset Store 收费；

同时推出了10个经验证的解决方案，还在Unity Asset Store中推出两款新的AI产品“Unity Sentis“及“Unity Muse”并正式启动内测，预计将赋能AI驱动的游戏开发效率提升以及玩法升级。

见智点评:

AI将以非常迅速的节奏改变游戏制作方式以及降低成本，这已经成为游戏行业不可逆转的路径。游戏行业的格局或许也会因为生成式AI带来巨变，AI革命游戏行业的进程在加速。

新AI平台的推出印证了目前开发人员对于AI工具的巨大需求存在，而Unity似乎已经找到了新的盈利模式，AI Hub平台很快将成为开发者和游戏公司最受欢迎的资源聚合平台，看起来Unity将会在这场全新变革中赚的盆满钵满

大模型

1、谷歌 DeepMind花数千万美元打造ChatGPT的竞品，多模态视频训练将成为特色

谷歌DeepMind CEO Hassabis近日对外媒Wired表示，Gemini还在开发中，还需要几个月，而谷歌DeepMind已经准备砸进数千万美元，甚至数亿。

The Information最近的一篇报道表述：谷歌的研究人员一直在使用YouTube来开发Gemini。

人工智能从业者表示：这可能是谷歌DeepMind的一个优势，因为它可以“比抓取视频的竞争对手更完整地访问视频数据”。

见智点评：

Google或是受到上一代聊天机器人Bard发布会重大失误的刺激，目前对Gemini给予了厚望，希望不仅仅是对标ChatGPT，更想要超越，所以在训练下一代聊天机器人时候，更侧重多模态训练，特别是视频数据投喂，这点目前是ChatGPT所做不到的，也是Google想要的差异化市场竞争，大厂对大模型的争夺仍在继续。

2、PrivateGPT 开源模型可实现不连网提问；本地部署未来空间大

开发者Iván Martínez Toro发布了PrivateGPT开源模型，该模型允许用户在无需互联网连接的情况下，通过提供自己的文档来向模型提问。

PrivateGPT可以在家用设备上进行本地运行，使用前需要下载名为"gpt4all"的开源大语言模型（LLM）。用户需要将所有相关文件放入一个目录中，以供模型引入所有数据。完成LLM的训练后，用户可以向模型提出任何问题，它将使用提供的文档作为上下文来回答。PrivateGPT能够处理超过58000个单词，目前需要大量本地计算资源（推荐使用高端CPU）进行设置。

Toro表示，当前PrivateGPT处于概念验证（PoC）阶段，它至少证明了可以在本地创建类似于ChatGPT的大模型。可以预见，一旦这种PoC转变为实际产品，PrivateGPT将具备让公司获得个性化、安全和私密的ChatGPT来提高生产力的潜力。

见智点评：

PrivateGPT开启行业对本地化部署的重视程度，这对于那些关注数据隐私和安全的行业和个人非常重要。通过本地化部署，用户可以更好地控制和保护他们的数据，减少了数据泄露和侵犯隐私的风险；开源模型和本地化部署将在未来产生积极的影响。

3、恒生电子发布金融行业大模型LightGPT，金融大模型场景多样化，需求确定性强

LightGPT可以为投顾、客服、投研、运营、风控、合规、研发等金融业务场景提供底层AI能服务，支持超过80+金融专属任务指令微调。具备金融专业问答、逻辑推理、超长文本处理能力、多模态交互能力、代码处理等能力；

模型使用了超4000亿tokens的金融领域数据（包括资讯、公告、研报、结构化数据等）和超过400亿tokens的语种强化数据（包括金融教材、金融百科、政府报告、法规条例等），并以之作为大模型的二次预训练语料。

LightGPT拥有更为丰富、轻量化的部署方式，支持私有化/云部署以及灵活API调用，推理端仅需一机2卡部署。

见智点评:

一方面基于数据安全，一方面基于应用场景多样化，金融大模型的需求确定性很强。

此前彭博已推出金融行业大语言模型BloombergGPT；腾讯云也正在携手神州信息开展金融大模型合作；此前我们也作过多次金融大模型发展的动态点评，很多券商、银行和基金公司都在进行AI研发投入，以及AI产品的推出；恒生电子基于此前金融行业多年的IT服务经验，本次推出LightGPT大模型具有重要意义，之后我们也会继续跟进LightGPT开放测试之后的体验反馈。

4、智谱AI为大模型应用更近一步！成为法律专用大模型底座

幂律联合智谱AI发布基于中文千亿大模型的法律垂直大模型——PowerLawGLM，聚焦于法律细分领域，针对中文法律场景的应用效果具有独特优势，具备丰富的法律知识和法律语言理解能力。

基于PowerLawGLM大模型的能力，幂律还打造了法律对话产品ChatMe，现已正式上线，首批开放50个内测名额

PowerLawGLM是基于智谱的ChatGLM 130B通用千亿对话大模型进行联合研发，经过多轮多次高质量法律文本数据（裁判文书、法律法规、法律知识问答等）清洗及模型增量训练，得到法律版基座大模型LawGLM 130B。在100个问题的评测结果上来看：PowerLawGLM可实现70%左右的最优答案。

见智点评：

大模型如果直接应用在法律领域，会存在输出结果与需求很严重不匹配程度很高的问题。因为大模型的数据结果是基于数据训练来生成的，但是不同国家的法律规则是完全不同的，具有很强的专业性和区域限制，所以采用全球通用大模型很难得到满意的内容。

中文千亿大模型的法律垂直大模型PowerLawGLM就能够很好的适配我国的案例情况。中文法律大模型仅仅是一个开始，未来很多行业都会陆续推出专业领域的大模型，同时会基于垂直大模型打造人工智能对话产品。智谱AI做为最底层模型，对于开发专业领域大模型具有重要意义；之前还开源过一个更小容量的ChatGLM-6B模型，特别适合学习和轻量开发；另外最值得关注的是大模型训练中如何平衡训练稳定性和效率。

AI融资

AI安全成为资本的下一个风口，CalypsoAI融资2300万美元

CalypsoAI的产品可对标360安全管家，主要发布一些ChatGPT等大语言模型提供安全护栏的产品，包括恶意代码检测、越狱预防等特色防护功能。要解决数据隐私、安全防护、输出非法信息等难点，以加快金融、医疗、法律等行业对ChatGPT等生成式AI产品的场景化落地。

CalypsoAI在官网宣布，获得2300万美元（约1.6亿元）A-1轮融资。本次由Paladin Capital Group 领投，洛克希德·马丁风险投资、Hakluyt Capital等跟投。

见智点评：

资本的关注焦点已经不局限于大模型、AI应用、现在已经开始下注AI安全产品。毕竟大模型做为底层工具，一旦被污染或遭受攻击，输出的内容则会完全偏离预期，无疑是对算力资源的浪费，同时还会产生公司数据泄露等安全问题。所以AI安全产品也必然会成为未来市场需求的一个重要领域。

下周关注：人工智能大会

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

AI一周见闻：微软win11启动AI变革；英伟达助力办公软件降本23%；视频训练成为机器人重...

AI一周见闻：微软win11启动AI变革；英伟达助力办公软件降本23%；视频训练成为机器人重要学习路径 | 见智研究

Recommend

【笔试实战】LeetCode题单刷题-编程基础 0 到 1【一】 - 程序员天佑

10 Best DevOps Courses & Certifications in 2023

“做多中国”进行中

微基主机|香港Cera vps测评|1C1G15起|30-100Mbps|中国大陆优化|￥56/月|八折|Wikihost...

Every new AirDrop feature in iOS 17 explained

Quick Charge Podcast: July 1, 2023

高瓴、红杉、创新工场都在投，这家AI制药公司奔赴港股，估值翻了16倍

The big problem with variables in Figma

How to Transition From Data Analyst to Data Scientist in 2023?

My Family Thinks I'm Rich — How Do I Tell Them I Can't Pay for Everything?

About Joyk