年度盘点！2023年不容错过的30款AI神器，你用过多少？

大家好我是花生~

还有几天 2023 年就结束了，过去的 1 年里生成式 AI 技术发展迅速，出现了很多优质的 AI 工具，今天就为大家盘点其中我觉得非常不错的那些产品~

短视频制作必看！6款AI神器帮你轻松定制高质量音乐素材

大家好，这里是和你们一起探索 AI 的花生~ 随着自媒体和短视频的发展，相应的对背景音乐的需求也越来越大。

阅读文章 >

一、AI 聊天机器人

① ChatGPT

过去 1 年是大语言模型发展的井喷之年，但是说起目前最强大的 AI 聊天机器人，却依旧是 1 年前横空出世的 ChatGPT。ChatGPT 的目前内置的是 GPT-4V 多模态模型，可以处理图像、音频等多种类型的信息，性能也比之前的 GPT-3.5 要好。今年 ChatGPT 还出了手机 APP，可以实现语音交互，支持中英等多种语言，对用户来说使用更便捷。

ChatGPT 还在今年推出了插件（Plugins）功能，赋予其使用工具、联网、运行计算的能力，让 ChatGPT 的能力有了进一步的扩大和提升。而 11 月份推出的 GPTs 则更进一步，让用户能够按需要定制 AI 工具来辅助自己完成任务。GPTs 还可以互相分享，我们可以直接使用别人构建好的 AI 工具，目前也有很多 GPTs 资源网站可以使用。

② Bard

Google Bard 目前内置了最新的原生多模态大模型 Gemini Pro，这是谷歌历史上最强大、最通用的模型，可以吸收任何类型的输入和输出，包括文本、代码、视频、音频和图像。对我们普通用户来说，Bard 的获取便捷度要比 ChatGPT 好很多，还是免费的，作为 ChatGPT 的平替来使用非常不错。

③ 文心一言

百度在今年 10 月份的时候发布了文心大模型 4.0，与原来的基础模型相比在理解、生成、逻辑和记忆能力上都有着显著提升，并且也有插件功能。“一言百宝箱”中有很多 AI 小工具，可以帮用户直接解决各种类型的问题，而像考公资料、写教案、写党政报道这样的特色功能则只有中文大语言模型里才能找到，这也是国产模型相比国外模型的优势。

④ Microsoft Copilot

Copilot 其实就是之前的微软 New Bing Chat，今年 11 月份改为了 Copilot。它目前依旧集成在 Edge 浏览器中，内置的是 GPT-4 模型，并支持调用 DALL·E 3 生成图像。当我们在浏览器搜索框内输入问题进行搜索后，AI 自动总结好的好答案，鼠标滚轮上划能看完整内容和信息的来源，还能切换不同的模式与 AI 进行对话，日常用来查找信息非常方便。

⑤ Perplexity

问 AI 聊天机器人问题时，我们最担心的一点就是它会“胡编乱造”，给我们错误的信息，而 Perplexity AI 可以解决这个问题。

Perplexity 准确来说是一个 AI 驱动的搜索引擎，利用 GPT-4 模型，综合最新的信息（包括新闻、学术、视频等）为用户提供准确、权威的答案，并且还会附上答案的引用源，方便用户检验信息是否正确，还支持识别图像和上传文档。它的界面设计非常简洁，交互高效并具有成沉浸感，月访问量曾一度跻身所有网页 AI 应用的前 10，仅次于 Midjourney 和 Huggingface。

⑥ Poe

Poe 之前专门给大家推荐过了，它目前接入的大语言模型包括 GPT-4、Claude、Gemini Pro、Llama 2 等，还支持调用 AI 绘画模型 Dalle 3 和 Stable Diffusion XL，还有很多其他小工具可以使用，相当于是一个 AI 工具拼盘。

二、AI 绘画工具

① Stable Diffusion WebUI / Fooocus / ComfyUI

去年的 12 月份时 Midjourney 已经是 V4 模型了，图像生成质量和清晰度大幅提升，一跃成为当时最受瞩目的 AI 绘画工具，而 Stable Diffusion 还处于 v2.1 版本，图像生成效果并不好。时隔一年，现在 Stable Diffusion 的出图质量与 Midjourney 已经没有那么大的差距了，这主要得益于 Dreambooth/ Lora 这些技术的出现，还有就是新模型 Stable Diffusion XL 1.0 的发布。

过去的一年里 Stable Diffusion 的生态也进一步发展完善，高质量的开源模型不断涌现，我们可以选择的图像风格越来越丰富；开源插件更是极大地拓宽了 Stable Diffusion 的能力，提高了图像生成的可控性和处理效率，让其成为目前平面、建筑、游戏等设计领域的首选 AI 工具。

Stable Diffusion 目前最受欢迎的三种用户操作界面分别是 Stable Diffusion WebUI、Fooocus 和 ComfyUI。

Stable Diffusion WebUI 最早出现，界面也最通用好理解，一键整合包的出现进一步降低了它的使用门槛，让它成为目前普及率最高的开源 AI 绘画软件；基于 WebUI 开发的各种拓展插件也是目前最丰富的，所以它能处理的图像任务种类最多、效率也最高，这让 WebUI 成为新手学习 Stable Diffusion 首先要掌握的界面，想全面系统学习的小伙伴也可以解我最新制作的《零基础 AI 绘画入门指南》，可以帮你快速高效地掌握 WebUI 这个热门工具 ~

ComfyUI 则是节点式的工作界面，它其实也出现得很早，不过界面不及 WebUI 方便好用，早期生态也不够完善，所以一直不怎么受关注。

而随着拓展插件的丰富和 SDXL 模型的出现，ComfyUI 的优势也逐渐出来。它生成图像的速度更快，对硬件的要求更低，处理 SDXL 模型的效率比 WebUI 更高；模块化形式让用户可以自己搭建工作流并随时复用，会编程的话还可以自己编写模块和节点，以此满足特殊或者定制化的需求。ComfyUI 相比 WebUI 来说更灵活专业，但是上手难度也更大，需要掌握 Stable Diffusion 的各种原理才能熟练运用。

Fooocus 是今年 8 月份推出的操作界面，它使用的是 Stable Diffusion 的开源模型，交互方式借鉴则是 Midjourney。Fooocus 的界面非常简单，用户可以专注在提示词和图像上，无需进行复杂的参数设置就能生成高质量图像，安装也很简单，所以很适合没有复杂处理需求的用户。Fooocus 目前还支持垫图、局部重绘、外绘扩展、高清放大、生成变体等多种功能。

② Midjourney

Midjourney 今年的更新升级也非常密集，推出过 V5、V5.1、V5.2、Niji 5 等版本，让其图像生成质量始终处理领先地位；也接连上线了 Zoom out 图像拓展外绘、High Variation 高变体、Describe 图像描述、Shorten 提示词优化、Vary Region 局部重绘、Styler Tuner 风格生成器等功能，满足用户编辑图像和探索风格的需求。

Stable Diffusion XL 1.0、Dalle 3 还有各种新的 AI 绘画工具的接连出现也一度给了 Midjourney 不小的压力，不过前几天它又推出了新的 V6 版本，图像的细节精细度达到令人惊叹的水平，对提示词的理解也更准确，还支持生成正确的英文文本内容，这让 Midjourney 在 AI 绘画领域依旧非常有竞争力。

Midjourney v1 到 v6 出图效果对比，来源 Twitter @doganuraldesign

③ Adobe Firefly / PS beta

Adobe 在 4 月份的时候推出了自己的 AI 图像生成模型 Firefly，支持文生图、文生字体特效、局部重绘等多种功能，还将这些功能置入到了 Photoshop Beta 测试版中，让设计师可以借助 AI 的力量更高效地完成设计工作。

10 月份的时候 Firefly Image Model 升级到了 2.0 版本，图像生成质量比之前有了进一步提升，还支持人像调节、垫图、镜头调色设置等多种功能，还有 Firefly Vector Model，支持通过文字生成矢量图像，相信未来 Adobe 旗下的工具肯定会在 AI 的加持下更加好用。

④ DALL·E 3

OpenAI 的 DALL·E 算是元老级别的 AI 绘画工具了，最早的 DALL·E 1 在 2021 年 1 月的时候就出现了；DALL·E 2 在 2022 年 4 月份推出，以一张“宇航员骑着白马”的清晰图像启发了人们对 AI 绘画的认知。虽然技术一直走在前沿，不过 OpenAI 对其商业化这一块很好像并不重视，所以知名度并不如其他 AI 绘画工具。

虽然如此，9 月份 DALL·E 3 发布时依旧引起过广泛关注，一方面是它对文本的理解远超当时的其他 AI 绘画模型，可以准确理解并呈现复杂提示词中的所有元素，包括元素间的关系和文本内容；另一方便则是它和 ChatGPT 结合带来的新交互方式，用户直接用语言描述自己的需求，ChatGPT 会自动理解它并拆分生成任务，而无需用鼠标进行复杂的设置。从在某种程度上来说，ChatGPT 里的 DALL·E 3 才是最好用的 DALL·E 3。

⑤ Krea AI

AI 绘画在今年的一大技术进步就是出现了 LCM，可以一步完成图像推理，让图像的生成时间缩短了 6-10 倍，并由此开启了“实时生成”这种新的 AI 绘画形式，Krea AI 就是最早将其商业化的应用。而随着 LCM 和 SDXL Turbo 模型的开源，我们也可以在本地体验这种超快的生成速度，或者在 ComfyUI 中自己搭建图像实时生成的工作流。

有了实时生成，我们可以在画板上控制画面的元素、构图、配色，再结合提示词将其转化为完整精致的图像，并调整修改内容，这比在 WebUI 中重新生成或者局部重绘要高效很多，对电商、产品、电影、游戏概念等设计领域来说具有重要意义。

三、AI 音视频工具

① Runway

Runway 无疑是目前最强的视频生成和编辑应用，它既有正常的视频剪辑功能，也有基于生成式 AI 的各项新功能，包括文生图、图生图、文生视频、图生视频、视频风格化、文本生成语音、一键视频抠图、视频内容抹除、动态追踪等。

用 Runway 的 Gen-2 模型生成视频时，可以调节视频运动幅度，可以设置不同的镜头运动方式，还支持用运动笔刷控制画面中的运动区域，以及视频进行抠图然后组合生成新的场景，这都让视频生成的可控性变得更强了。

② Pika

Pika 算是 AI 视频生成领域的后起之秀，它也支持通过文本或者图像生成视频，也可以控制视频动态强度和镜头运动方式，总体来说和 Runway 非常类似。最新的 Pika 1.0 则是让它的功能更上一层楼，不但可以生成高质量的 2D/3D 动画，还支持视频扩展（Expand canvas）和区域修改（Modify region），让 AI 视频的趣味性变得更强了。

③ Domo AI

Domo AI 是最近才出现的一个 AI 视频生成应用，功能包括文生图、图像风格转化、图像生成视频和视频风格转换。由于它将真人视频转化为动漫、3D、像素等风格时非常稳定，效果比目前其他的 AI 视频工具都优秀，所以非常受欢迎。

④ Heygen

前段时间郭德纲用英语说相声的视频让 Heygen 爆火出圈，作为一个数字人视频生成工具，Heygen 不仅有可以在神态上以假乱真的数字人形象，还提供了从人物选择、内容制作到配音、视频合成等一整套的服务，让营销视频的制作变得前所有的简单和高效。视频对口型无痕翻译则是其新推出的功能，给传统视频翻译和影视制作带来了一种新的处理思路。

用 Heygen 生成的数字人短视频

⑤ 开源AI视频工具

除了各种商业 AI 视频应用外，我们也可以利用开源工具或模型在本地实现视频生成，目前比较受欢迎的有 Animatediff 和最新推出的 Stable Video Diffusion。

大家在网上看到的“一个女孩的一生”或者人物变装的视频，就是用 Animatediff 生成的。Animatediff 是一个拓展插件，可以安装在 SD WebUI 或者 ComfyUI 中，实现文本生成视频或者视频转风格。

Stable Video Diffusion 则是 Stability AI 最新推出的视频模型，可以通过 ComfyUI 部署到到本地使用，免费将图像转为视频。

⑥ 开源AI音频工具

生成式 AI 技术也可以帮我们实现音频的生成或处理，比如通过文本生成自然语音（TTS）、声音克隆、通过文本生成音乐音效等，其中既有商业应用，也有可以部署到本地使用的开源的工具。

ElevenLabs 是目前比较成熟的商业 AI 语音生成应用，功能包括文本生成逼真自然语言以及克隆语音。而相似功能开源的工具则非常多，包括 so-vits-svc （声音克隆）、Bert-VITS2、网易易魔声（文本转语音）等。

之前还大家推荐过 6 款 AI 音乐生成工具，包括 Stable Audio、Soundraw、Suno AI 等，它们都可以生成高质量的音乐、音效以及歌曲。最近还出现了一个开源工具 Amphion，可以免费实现文本转语音、语音克隆、文本生成音乐以及歌声合成。

短视频制作必看！6款AI神器帮你轻松定制高质量音乐素材

大家好，这里是和你们一起探索 AI 的花生~ 随着自媒体和短视频的发展，相应的对背景音乐的需求也越来越大。

阅读文章 >

AI 模型也促进了细分领域里 AI 工具的发展。比如有了大语言模型后，就催生了很多如 AI 简历生成器、AI 写作工具，AI 翻译器，AI PPT 生成工具这样的细分应用。这里推荐一个我使用频率非常高的 AI 翻译工具——沉浸式翻译，它可以实现网页双语对照翻译，还支持在 YouTube、Netflix、Bilibili 等网站上显示双语字幕，对需要经常看英文网页的小伙伴非常有用。

AI 在 3D 模型领域也有不错的进展。比如 Luma AI 可以通过视频快速重建 3D 场景；Genie 可以通过文本生成高精度的 3D 模型，并导入其他 3D 软件中进行再次编辑；最近还出现了一个 Stable Zero123 的模型，支持从单张图像生成高质量的 3D 对象。

在 Genie 中用文本生成的 3D 模型

还有之前已经给大家推荐过很很多次的 AI 图像处理工具，比如综合图像处理网站 Clipdrop、一键抠图网站 Pixian AI、免费的图像高清放大工具 Upscayl 等，有意识地运用这些 AI 工具可以让我们更轻松地完成重复性的工作。

Clipdrop 包含是多种图像处理工具

那么以上就是本期为大家推荐的 2023 年 AI 神器，希望对大家有帮助 ~ 文章内提到的工具我我都整理成了一份文档，大家可以扫描下方二维码进群领取链接，也可以和群里的小伙伴们一起学习交流 AI 知识。

喜欢本期推荐的话记得点赞收藏支持一波，也可以分享给身边有需要的朋友。如果像了解更多 AI 神器，大家可以访问「优设 AIGC 导航」，200 多款 AI 绘画、设计、图像处理神器等你探索。另外大家也可以关注我们「优设 AIGC」的微信视频号，小瓜老师每天都会分享最新的 AIGC 资讯和神器，让你轻松掌握最新的 AI 发展动态 ~