OpenAI升级文本生成图像工具DALL-E，画质是原来的4倍，还新增二次创作功能

麻省理工科技评论-OpenAI升级文本生成图像工具DALL-E，画质是原来的4倍，还新增二次创作功能

近日，知名人工智能研究机构 Open AI 开发出文本生成图像工具 DALL-E 的最新版本 DALL-E 2。相比最初的 DALL-E 1 ，新版本的 DALL-E 2 的精确度、写实度、画质都得到

近日，知名人工智能研究机构 Open AI 开发出文本生成图像工具 DALL-E 的最新版本 DALL-E 2。相比最初的 DALL-E 1 ，新版本的 DALL-E 2 的精确度、写实度、画质都得到了大幅度升级，分别提升了 71.7%、88.8% 和 400%（从 256×256 升至 1024×1024），且延迟变得更低。

而且，Open AI 在 DALL-E 2 中新增了两个二次创作功能，分别是以文本局部修改图片的“图像修描”（ inpainting）和生成不同风格图片的“变体”（variations）。

“图像修描”是指用户可以通过文本来编辑选定的图片区域，在不影响阴影、反射与质地等方面的情况下，填充、删除或替换图片中的单个对象，如换掉原本在客厅墙上的画或者在桌上添一个花瓶；“变体”是指生成同一张图片的不同风格版本，用户可以在上传一张原始图片后对其进行各种风格变化，还可以将两张图片上的对象进行叠加生成新图。

图 | 两个版本的 DALL-E 所生成的图像（来源：Open AI）

不过，Open AI 目前并未对外开放 DALL-E 2，但用户可在其官网注册账号后预览该工具。DALL-E 2 将来或被加入到 Open AI 的 API（Application Programming Interface，应用程序接口）工具集中，并可能在第三方应用程序中出现。

据了解，最初的 DALL-E 1 首次亮相是在 2021 年 1 月，其名称来源于艺术家萨尔瓦多·达利（Salvador Dali）和皮克斯出品动画《机器人总动员》中的主角瓦力（WALL-E）的名字结合。

Open AI 的研究科学家普拉夫拉·达里瓦尔（Prafulla Dhariwal）称，“DALL-E 1 采用了我们从语言中提取的 GPT-3 方法，并将其应用于生成一幅图像，即将图像压缩成一系列单词，然后学会预测接下来的内容。”GPT-3 是 Open AI 所研发的大型自然语言模型，拥有 1750 亿个参数，已被用于 300 多种程序。

需要注意的是，只通过文本匹配并不能完全获知到用户所认为的图像重要属性，且预测过程也会在一定程度上降低图像的真实性。

当时，Open AI 表示，其将在持续构建 DALL-E 的同时，利用保护性的技术措施和内容政策来应对图像偏见及错误信息等潜在问题，并减少计算负荷，以推进该工具的基本能力。

据了解，这次 Open AI 推出的新版本 DALL-E 2，是基于名为 CLIP 的计算机视觉系统而建立的。此外，Open AI 通过对 CLIP 进行迭代，开发了一个“从描述开始并以图像的方式工作”的倒置系统 unCLIP，并将其用于 DALL-E 2。

值得一提的是，unCLIP 可以破解 CLIP 存在的不足之处，即“人们可以通过给物体贴上一个表示其他东西的单词，来诱使系统错误地识别所看到的内容”。

图 | DALL-E 通过文本生成的相应图像（来源：Open AI）

对此，Open AI 的研究人员进一步解释道，“我们发现，通过模型有力地阅读文本的能力，即使是手写文本的照片也经常可以欺骗到 CLIP 系统。我们将这些攻击称为排版攻击，这种攻击经常性出现，类似于‘对抗性图像’，可以欺骗商业机器视觉系统。”与 CLIP 系统相反，unCLIP 的相对预测概率非常高，该模型从未出现这类错误识别的情况。

此外，OpenAI 还在 DALL-E 2 中内嵌了一些保护性的策略。首先，DALL-E 2 是基于筛选掉不良材料后的数据所训练出来的，理想情况下已限制了其产生有害内容的能力。其次，该系统生成的图片会有一个标志其来自人工智能的水印。最后，Open AI 做了一个反滥用功能，使该系统不能通过名字随意生成可被识别的人物面孔，哪怕是输入众人熟知的“蒙娜丽莎”，图像也会立即返回成实际人物的变体。

下一步，Open AI 将把 DALL-E 2交由通过其审查的人员或机构来做进一步测试，并预先提出了一些注意事项。一方面，用户不得在该工具“上传或生成仇恨符号、裸体、淫秽手势及与正在发生的重大地缘政治事件有关的阴谋或评论”；另一方面，用户需说明人工智能为生成图像所做的变化，且不能借由软件及网站将生成的图像给到其他人。

一直以来，Open AI 都没有完整公开过 DALL-E 的模型。达里瓦尔表示，“我们希望继续进行分阶段的过程，这样就可以根据得到的反馈不断评估如何安全地发布这项技术。”

不过，在过去的一年中，有开发人员推出类似于 DALL-E的工具，最受欢迎的主流应用之一是 Wombo 推出的手机软件 “梦想”（Dream），该软件允许用户通过输入内容的简要描述，来生成各种艺术风格的图片。

-End-

参考：
https://www.theverge.com/2022/4/6/23012123/openai-clip-dalle-2-ai-text-to-image-generator-testing?scrolla=5eb6d68b7fedc32c19ef33b4
https://www.theverge.com/2021/3/8/22319173/openai-machine-vision-adversarial-typographic-attacka-clip-multimodal-neuron
https://www.theverge.com/2021/12/6/22820106/ai-art-app-dream-synthetic-media-wombo

Recommend

上汽集团：18日开始进行复工复产压力测试

传特斯拉上海工厂将启动闭环模式，已通知员工复工

世界上第一家「无聊猿」餐厅：开餐厅卖汉堡，拍电影打入好莱坞

這些年，我錯過的 JavaScript 字串函數

Windows 11新版本中的安全加密新特征

在元宇宙里复活？病魔夺走父亲5年，小哥独创挚爱「永生」版本

2021年全球计算力指数排名出炉！中国以70分领先全球

仅知道键和值的类型，如何定义 TS 对象类型？

美国政府发布警告：高级黑客已严重威胁关键基础设施

分享几款我在高频使用的 Chrome 浏览器插件，每一个都好用到飞起

About Joyk