2024-01-03 04:49

阿里推AI工具不停，这次AnyText能否破解绘画模型写汉字难题？

文章来源：AI先锋官

图片来源：由无界 AI生成

自从阿里宣布“全面拥抱AI”，阿里的AI产品接踵而至，AI动画应用Animate Anybody、虚拟试衣Outfit Anyone，就连旗下的优酷都上线了AI搜片功能。

最近，阿里达摩院又发布了一款AI图文融合工具——AnyText。

随着AIGC的爆火，市面上涌现出不少优秀的图片生成应用，不过，当合成图片中出现文字内容时，仍能够使AI露出马脚，这是因为当前主流方法尚无法在图片中生成准确可读的字符。

即使已有图文融合的AI应用，例如 Ideogram AI，也以英文为主，无法解决中文这种字形繁杂、字符数以万计的文字生成。（详细内容请查看：MJ、SD迎劲敌，还无限免费！Ideogram AI搞定文字，设计店招、海报、文创都不在话下）

AnyText则通过创新性的算法设计，可以支持中文、英语、日语、韩语等多语言的文字生成，还支持对输入图片中的文字内容进行编辑。

AnyText可应用于电商海报、Logo设计、创意涂鸦、表情包等场景。

以下是官方给出的范例：

目前AnyText还未上线专门的网页，用户可在魔搭社区中试用Demo，链接直达：https://modelscope.cn/studios/damo/studio_anytext/summary

据官网介绍，AnyText有两种运行模式——文字生成和文字编辑。接下来我们一一评测。

01 文字生成

第一步：输入提示词。在Prompt中输入描述提示词（支持中英文），需要生成的每一行文字用双引号包裹。例如小编填写的提示词是“一只小狗穿着一件黑色T恤，T恤上印着红色的‘AI先锋官’”。

第二步：选择Text Generation（文字生成），设置Pos-Method（位置方式）和Sort Position(位置排序)。

其中Pos-Method用于指定文字位置，分为手绘（Manual-draw）、拖框矩形（Manual-rect）或随机生成（Auto-rand）三种。小编选择了“手绘”。

Sort Position选项用于确定排序时优先从上到下还是从左到右，用户根据需要进行选择。

Revise Position选项会用渲染文字的外接矩形作为修正后的位置，不过这样生成的文字有时创造性略低。

第三步：在幕布上通过手绘来指定文字位置。值得注意的是，文字位置的绘制对成图质量很关键，不要画的太随意或太小，位置的数量要与文字行数量一致，每个位置的尺寸要与对应的文字行的长短或宽高尽量匹配。多行生成时，每个位置按照一定规则排序后与文字行做对应。

完成以上操作后，点击“Run（运行）”，静待一段时间后，页面右侧就会显示生成的4张图片。来看看小编生成的图片：

AnyText生成的这四张图片中，除了第二张没有按照提示词生成黑色T恤外，其他三张都没跑题。不过AnyText生成的图片不仅没啥美感可言，还错别字连篇，例如第一张图片中把“官”写成了“宫”，第二张照片中的“官”还缺了一点。

用户上传一张待编辑的图片作为参考图（Ref），然后调整笔触大小后，在参考图上涂抹要编辑的位置，在Prompt中输入描述提示词和要修改的文字内容，生成图片。

小编上传了一张表情包，并填写了提示词“将‘惹女朋友生气’替换成‘吃得太饱’”。

AnyText的“文字编辑”效果实在不行，修改的文字像“鬼画符”，完全看不清写的是啥。

据官方介绍，AnyText主要基于扩散（Diffusion）模型，包含两个核心模块：隐空间辅助模块（Auxiliary Latent Module）和文本嵌入模块（Text Embedding Module）。

其中，隐空间辅助模块对三类辅助信息（字形、文字位置和掩码图像）进行编码并构建隐空间特征图像，用来辅助视觉文字的生成；文本嵌入模块则将描述词中的语义部分与待生成文本的字形部分解耦，使用图像编码模块单独提取字形信息后再与语义信息做融合，既有助于文字的书写精度，也有利于提升文字与背景的一致性。

训练阶段，除了使用扩散模型常用的噪声预测损失，AnyText还增加了文本感知损失，在图像空间对每个生成文本区域进行像素级的监督，以进一步提升文字书写精度。

总结：

从易用性上来说，AnyText目前只能在魔搭等开源社区上使用，虽然操作步骤简单，但各种调试也不是很好上手。另外，AnyText生成图片排队等待的时间过长，有时甚至得等上5分钟。

从创新性来说，AnyText的图文融合功能并非首创， Ideogram AI早就推出了类似卖点，只不过AnyText聚焦在中文领域。

从功能性上来说，小编体验一番发现，AnyText生成的图片效果有点拉胯，与官方范例相差甚远，不仅没有什么美感可言，还容易写错别字。