2

AIGC | 图像生成领域,Prompt的七个缺陷

 1 year ago
source link: https://www.woshipm.com/ai/5895739.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

在向AI模型传递指令的过程中,我们常常需要借助Prompt这一形式,那么Prompt作为载体,是否存在一定的缺陷呢?本文作者讨论了图像生成领域里Prompt的七个缺陷,一起来看看吧。

e194c5a2-d9ee-11ed-a6e8-00163e0b5ff3.jpg

Prompt是向AI模型传递指令的核心形式,随着AI绘画从艺术领域向设计领域深入,创作诉求趋于严谨、精确,Prompt作为创作意图的重要载体,一些缺陷日益凸显,对生成结果的可控性、可用性有很大影响。

一、写作技能

创作者要将大脑中构思的画面通过文字表达出来,画面是三维的、立体的,而文字却是一维的、线性的。

对于较为复杂的创作意图,这个转化过程极具挑战性、技巧性,依赖反复书写带来的经验累积或是专门的学习。

ebef06c2-47f1-11ee-8a1f-00163e0b5ff3.png

二、文本特性

同一组用词,同一句话,受到语境、文化、群体共识等客观因素的影响,可能存在多重含义,面对文本的多义性,模型理解很容易发生偏差,生成内容无法切中创作者的真实意图。而创作者要基于错误反馈不断对导致歧义的内容进行替换、校正。

0accd2ae-47f2-11ee-8a1f-00163e0b5ff3.png

三、字数限制

尽管多一些描述可以给模型更多细节,但当前AI模型对字数始终存在一个模糊的理解“上限”,超过“上限”后的内容,要么理解错乱,要么直接无视,所以创作平台往往对Prompt字数加以限制,这就导致更多的创意想法无法被完整表达。

477e1398-47f2-11ee-af63-00163e0b5ff3.png

四、范式规则

相比口语化表达,模板化的描述指令更容易被模型理解而且更稳定,具有长期创作需求的创作者,需要学习并熟练掌握基于技术逻辑反推出的的指令公式(如:画面主体+场景+细节+风格修饰),还有控制各类权重的命令参数(如:-seed;-chaos;-::;—iw等)。

4ec98024-47f2-11ee-8443-00163e0b5ff3.png

五、作用关系

对于不是描述主体的指令,往往难以判断它是否已对画面产生影响,因此我们看到“绝美、完美、超美”、“大师画质、超高画质、顶级画质”经常出现在一条Prompt中,冗余甚至相互对立。如需调整,则要通过删A留B,删B留A的方式反复比对来定位修改点。

55c9bf9c-47f2-11ee-8443-00163e0b5ff3.png

六、细节控制

尤其是设计师的创作场景,对形式、位置、比例、层次、关系等要素的处理更加专业严谨,文字型指令可以做到但书写成本极高,用户能否写出“画面偏左四分之三居中位置,一条高一百像素的金鱼”?模型又能否对此精准执行?目前看,依靠Prompt进行精细化控制并不现实。

690a3212-47f2-11ee-8443-00163e0b5ff3.png

七、生成预期

除使用“创作相似”外,创作者生成前对生成结果不可预测,生成过程又类似于黑箱,所以大家往往先生成几张,看看什么效果,找到符合预期的那张再继续深入。这个交互关系中最大的问题在于反馈的高延迟,造成了过高的尝试成本

7a382fe4-47f2-11ee-8443-00163e0b5ff3.png

Prompt的这些特点或问题,让人不得不想起PC系统早期的DOS命令行界面:需要掌握语言范式、缺乏提示反馈、没有快捷操作、不直观等问题,让很多计算机初学者望而却步。

54f24d4a-47f8-11ee-af63-00163e0b5ff3.png

以上为输入环节,而在模型一侧,Prompt的解码过程又会丢失一部分信息,使得创作者大量意图指令无法精准、有效的传递给生成模型,最终得到一个错误的或是可用性较低的生成结果,人们感到挫败并对技术能力产生质疑,其实,生成模型的能力往往由于语义理解的限制,并没有得到充分发挥。

如果经常使用AI绘画平台,可能对这些Prompt功能并不陌生:一键复制、创作相似、灵感推荐、智能补全、咒语大全、咒语生成器、创作手册、词包、撰写教程等等。这些功能在一定程度上降低了Prompt的撰写成本,尤其针对体验型、尝鲜型的用户,创作效率和质量均有提升,但对带有明确应用场景的设计师群体来说,上述问题依然存在。

那Prompt指令的问题如何解决?又如何让操作体验真正做到“平民化”呢?

显然技术侧的进展更快,涂抹、叠加、扩展等二次编辑能力,以Lora为代表的微调模型,还有Controlnet技术,支持边缘检测、草图处理、姿势识别等前沿黑科技,都在试图融合更多其他模态的意图信息,与Prompt形成互补,让生成结果更加精准可控。

说回体验层面,以Prompt为核心的创作范式可能并非终极形态,这方面的探索尚未达成共识。我想,在PC时代,图形用户界面基于出色的交互体验,快速“取代”了DOS命令行一直影响至今,即使进入AIGC时代,答案也许仍在其中。

本文由 @设计来电 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK