2023年终终结

2023年终终结 - ZA TAN

BeiJing, China

我本身是一个不太写总结类内容的人，但这次跟风写一回，总结我这一年AI相关的技术总结和我整体的思考。

我跃跃欲试要进AI的坑要追溯到22年底，OpenAI 推出 GPT-3.5 的时候，当时其实并不太了解 OpenAI 这家公司，当时还是听完《vol.440 科技乱炖：ChatGPT 的惊喜与意料之内》这期播客的时候让我感觉，2023年可以搞搞AI。

2023年2月中旬，我开始在推特和即刻上分享我对大预言模型的见解。

2023年3月初，我开始尝试使用 GPT-3.5 接口做一些事情，刚好当时我在研究《默沙东诊疗手册》，就想能不能做一个通过描述症状然后匹配相关病症的demo。做完我就发推上了，竟然意外的火了。但当时考虑到 OpenAI 本身对于医疗问诊场景的约束以及可能带来的潜在风险，我就把服务关停了。但因为那条推火了，也陆续有人问我是如何实现的。考虑再三，再不牵扯各种已知风险（版权、医疗风险等），作为还算有点开源精神的程序员，我就把这个简单的demo，做成了一个开源的解决方案——《基于向量数据库与GPT3.5的通用本地知识库方案》。后续也跟新了一些常见问题的解。

当时想着能不能搞一个本地的 Embedding 模型，毕竟如果要做一个可用的知识库需要将大量的文本转为向量，如果用 OpenAI 的接口虽然效果很好，但还是很贵。然后想着找个本地模型，效果能差不多就可以。找了一圈之后发现中文场景下开源的模型并没有多少，而且效果也一般。作为一个在公司搞过几年基础架构的人来说，没有好用的轮子那就造一个。然后就开始着手微调第一个模型，当时完全小白，但还好有很多开源项目，救我一命。当时为了做对比实验，其实训练了好几个模型用来做对比测试，但最后还是 text2vec-large-chinese 这个效果相对较好（当时真实感受到了摄影圈常说的“底大一级压死人”，完全可以把这句话套用在AI模型上）。后来因为知识库项目的 star 上来后这个模型在 huggingface 的句子相似度任务中一度排在前三（写本文的时候我又去看了一下还在前十）。

2023年3月中旬，我自己有一个需求就是想能方便的对长音频进行降噪。当时使用了 adobe 出的免费服务 Enhance，效果虽好但是对于长音频往往会直接不响应。我这造轮子的热情一下子又上来了，然后就有了基于深度学习的语音增强工具，一开始找了个需要GPU的模型，效果很好但无奈我很穷，买不起GPU。然后又将 github 翻了个底朝天找到了个不需要 GPU 的模型，效果也还不错，处理速度也还可以。然后就封装了一下，满足了我自己的需求，独乐乐不如众乐乐，再次选择了开源。

2023年3月底开始，因为项目的影响力，陆续有一些企业和个人开始找我聊基于 LLM 的应用场景。聊了很多当时发现一个问题就是，大量的初创公司也好个人也好，做的项目都没有一个主体去支撑。要不就做 GPT 套壳，要不就是单纯做基于OpenAI的知识库内容的问答（对B端或者C端）。当时我给他们举的B端的例子是zendesk（因为我在公司负责过2年多的CRM系统，对这家公司的工单和QA系统印象比较深刻），对于它而言集成 LLM 是迟早的事，并且它本身拥有大量的企业客户，也有大量的文本化内容的积累。而作为一个新起的项目，很难去跟这类公司去竞争相似的市场，而且如果都是套壳 OpenAI 大家本质功能也不会拉开太大的差距。第二个例子是针对C端，当时就有传言微软要在操作系统层级集成大模型能力，那么针对个人市场的文档问答服务也就可能会形成冲击。个人市场针对LLM能力的付费意愿我个人的观察属于“我能白嫖干什么还要付费”。

2023年4月初，和《津津乐道》播客一拍既合尝试通过OpenAI 本身对于语言的理解能力，将281个节目字幕提取为QA数据集（JinJinLeDao QA Dataset）。也算是对大语言模型的另一种使用方式的探索。

2023年4月底开始折腾ASR（语音转文本）任务，并且希望真正落地一个基于本地AI模型的企业级解决方案。虽然都是用Whisper，但如何提升质量和转译速度变成了一个难题。接下来几个月的状态就是看论文，看开源项目的优化实现以及进行大量的测试和调整。最后找了一个相对合适的 pipline 就是串联或并联多个模型，并且使用鉴别模型进行判断是否需要进行相应的处理。但因为整个服务流里面有大量的模型，并且有些模型体积又特别大，导致部署难度上升，但还好组内有大佬暂且解决了，折腾了这几个月下来服务整体还算稳定。

期间还去津津乐道播客聊了聊 OpenAI 的发布会《编码人声：几千块钱换来的 OpenAI 新功能体验报告》。强烈推介大家去订阅津津乐道播客宇宙的相关节目！

最近这两个月开始折腾支持语音克隆的TTS本地化解决方案，目前看整体还可以，但如何能进行“无人值守”级别的长文本TTS生成，还需要进一步探索和解决，期望年前能解决吧。

我其实还是很愿意花钱投资自己，尤其是知识上的，今年AI上的投入比我以前在任何其他技术上投资都要大的多（我都不敢看我的余额…）。租线上GPU训练模型，买相关书籍和课程，尝试各种AI相关付费服务，以及为了方便调试攒了一个本地开发机。今年也要感谢朋友们的赞助和付费咨询，帮我抹掉了部分的成本。但从今年一年来看个人搞 AI 局限性还是太大，有很多想尝试的因为要投入比较多的成本而无法进行。明年可能找个搞 AIGC 的公司搞点正事？也未可知。

Recommend

360度解析Android动画：哪个更引人注目？

《麻省理工科技评论》中国发布AI大模型先进应用案例，共同迎接面向企业和大众的人工智...

2023年12月29日(星期五）晚9:30开(农历十一月十七鸡冲兔)

2024年生成式AI如何影响消费科技，听听高通高管如何说

359期《澳门挂牌成语:愚公移山》开奖时间2023年12月25日(星期一）晚9:30开(农历十一月...

5 款最佳 Steam 冬季特卖独立游戏优惠，散发着 AAA 级的抱负

Vue 新一代开发者工具正式开源！

356期《澳门挂牌成语:满载而归》开奖时间2023年12月22日(星期五）晚9:30开(农历十一月...

Go语言中的性能考虑和优化

全球研究人员团队创建人工智能软件来检测假拉斐尔杰作

About Joyk