3

Gemini Pro 1.5杀手级应用是视频

 6 months ago
source link: https://www.jdon.com/72587.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

Gemini Pro 1.5杀手级应用是视频

上周谷歌推出了 Gemini Pro 1.5,这是对其 Gemini 系列人工智能模型的巨大升级。

Gemini Pro 1.5 的上下文大小为 1,000,000 个标记。这是巨大的进步:之前该项记录是由 Claude 2.1(200,000 个标记)和 gpt-4-turbo(128,000 个标记)保持的。当然模型之间标记生成器实现的差异意味着这不是完全直接的比较。

我已经玩了 Gemini Pro 1.5 几天了,我认为最令人兴奋的功能并不是标记数……而是使用视频作为输入的能力。

我一直在通过Google AI Studio界面访问模型- 我还没有 API 访问权限

我尝试用博客中的内容填充上下文,并得到了一些不错的结果。但当我开始尝试视频上传时,事情变得非常令人兴奋。

我为我的一个书架拍摄了一段七秒的视频。然后我上传了,输入提示词如下:
该视频中书籍的 JSON 数组

这段 7 秒的视频仅消耗了 1,841 个标记

Gemini Pro 1.5 没有返回 JSON,但它确实回复了以下内容:
我们不可能完全识别视频中的所有书籍。不过,以下是可以看到的部分书籍:

托尔金的《指环王》
哈罗德-阿贝尔森和杰拉尔德-杰伊-苏斯曼著的《计算机程序的结构与解释》
杰森-弗里德和戴维-海因迈尔-汉森的《Rework 》
....

老实说,我对此感到非常惊讶。视频时长 7 秒,平移速度相当快(视频中存在一些运动模糊),部分书籍被物品遮挡。

让我印象特别深刻的是,视频中有卢克·弗罗布莱夫斯基 (Luke Wroblewski) 撰写的《站点查看:网络可用性的视觉方法》,其中这本书本身几乎完全被松鼠玩具遮盖,只留下“站点查看”四个字可见。

我确实发现了一个幻觉:它列出了“乔什·考夫曼(Josh Kaufman)的个人MBA”,但我没有那本书——视频中最接近的东西是一本名为“Beermat Entrepreneur”的书的模糊的几帧。

我决定用不同的视频再试一次,希望能得到更好的提示。这次我拍摄了一个书架上大部分都是烹饪书的视频——这次是纵向拍摄,时间稍长一些(22 秒),并且可以向下和横向平移。

这个视频花费了我 6,049 个标记——仍然是一个很小的分配。

我的新提示是:

输出该视频中书籍的 {“title”: “...”, “authors”: “...”} 对象的 JSON 数组

它列出全部书籍结果!
我再一次发现这些结果非常令人震惊。

意味着什么?
从文本中提取结构化内容的能力已经成为 LLM 最令人兴奋的用例之一。

  • GPT-4 Vision 和 LLaVA 将这一功能扩展到了图像。
  • 现在,Gemini Pro 1.5 将这一功能扩展到了视频。

像这样分析视频的能力感觉非常强大。能够拍摄 20 秒的书架视频并返回这些书籍的 JSON 数组,这只是我想尝试的第一件事。

通常的 LLM 注意事项也适用。它可能会漏掉一些东西,也可能会幻化出不正确的细节。要充分利用这一类技术,一半的工作就是要弄清楚如何绕过这些限制,但我觉得我们在这方面取得了不错的进展。

还有安全过滤器的问题。随着输入到这些模型中的信息越来越长,触发过滤器(如 "鸡尾酒 "一词的前四个字母)的几率也会增加。

关于图像与视频的注释
最初,我认为视频的处理方式与图像不同,部分原因是(对我来说)处理视频所涉及的标记数量出人意料地低。

黑客新闻上的这篇文章让我相信了事实并非如此

Gemini 1.5 Pro 还可以推理长达 1 小时的视频。当您附加视频时,Google AI Studio 会将其分解为数千个帧(无音频),然后您可以执行高度复杂的推理和解决问题的任务,因为 Gemini 模型是多模式的。

然后在Gemini 1.5技术报告中:
当提示播放 45 分钟的巴斯特基顿电影《小夏洛克》(1924 年)(1FPS 2,674 帧,684k 标记)时,Gemini 1.5 Pro 会从特定帧中检索并提取文本信息,并提供相应的时间戳。

我进行了自己的实验:我从视频中抓取了一帧,然后在新的提示中将其上传到 Gemini。

单个图像有 258 个标记。

使用巴斯特·基顿示例中的数字,684,000 个标记/2,674 帧 = 每帧 256 个标记。因此,通过将视频分解为单独的帧并将每个帧处理为图像,它看起来确实有效。

对于我自己的视频:1,841 / 258 = 7.13(7 秒视频)和 6,049 / 258 = 23.45(22 秒视频)

这让我相信视频被分成每秒一帧,每帧花费约 258 个标记


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK