3

2023年终终结

 8 months ago
source link: https://www.ganymedenil.com/2023/12/25/2023-summary.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

2023年终终结 - ZA TAN

BeiJing, China

我本身是一个不太写总结类内容的人,但这次跟风写一回,总结我这一年AI相关的技术总结和我整体的思考。

我跃跃欲试要进AI的坑要追溯到22年底,OpenAI 推出 GPT-3.5 的时候,当时其实并不太了解 OpenAI 这家公司,当时还是听完《vol.440 科技乱炖:ChatGPT 的惊喜与意料之内》这期播客的时候让我感觉,2023年可以搞搞AI。

2023年2月中旬,我开始在推特即刻上分享我对大预言模型的见解。

2023年3月初,我开始尝试使用 GPT-3.5 接口做一些事情,刚好当时我在研究《默沙东诊疗手册》,就想能不能做一个通过描述症状然后匹配相关病症的demo。做完我就发推上了,竟然意外的火了。但当时考虑到 OpenAI 本身对于医疗问诊场景的约束以及可能带来的潜在风险,我就把服务关停了。但因为那条推火了,也陆续有人问我是如何实现的。考虑再三,再不牵扯各种已知风险(版权、医疗风险等),作为还算有点开源精神的程序员,我就把这个简单的demo,做成了一个开源的解决方案——《基于向量数据库与GPT3.5的通用本地知识库方案》。后续也跟新了一些常见问题的解。

当时想着能不能搞一个本地的 Embedding 模型,毕竟如果要做一个可用的知识库需要将大量的文本转为向量,如果用 OpenAI 的接口虽然效果很好,但还是很贵。然后想着找个本地模型,效果能差不多就可以。找了一圈之后发现中文场景下开源的模型并没有多少,而且效果也一般。作为一个在公司搞过几年基础架构的人来说,没有好用的轮子那就造一个。然后就开始着手微调第一个模型,当时完全小白,但还好有很多开源项目,救我一命。当时为了做对比实验,其实训练了好几个模型用来做对比测试,但最后还是 text2vec-large-chinese 这个效果相对较好(当时真实感受到了摄影圈常说的“底大一级压死人”,完全可以把这句话套用在AI模型上)。后来因为知识库项目的 star 上来后这个模型在 huggingface 的句子相似度任务中一度排在前三(写本文的时候我又去看了一下还在前十)。

2023年3月中旬,我自己有一个需求就是想能方便的对长音频进行降噪。当时使用了 adobe 出的免费服务 Enhance,效果虽好但是对于长音频往往会直接不响应。我这造轮子的热情一下子又上来了,然后就有了基于深度学习的语音增强工具,一开始找了个需要GPU的模型,效果很好但无奈我很穷,买不起GPU。然后又将 github 翻了个底朝天找到了个不需要 GPU 的模型,效果也还不错,处理速度也还可以。然后就封装了一下,满足了我自己的需求,独乐乐不如众乐乐,再次选择了开源。

2023年3月底开始,因为项目的影响力,陆续有一些企业和个人开始找我聊基于 LLM 的应用场景。聊了很多当时发现一个问题就是,大量的初创公司也好个人也好,做的项目都没有一个主体去支撑。要不就做 GPT 套壳,要不就是单纯做基于OpenAI的知识库内容的问答(对B端或者C端)。当时我给他们举的B端的例子是zendesk(因为我在公司负责过2年多的CRM系统,对这家公司的工单和QA系统印象比较深刻),对于它而言集成 LLM 是迟早的事,并且它本身拥有大量的企业客户,也有大量的文本化内容的积累。而作为一个新起的项目,很难去跟这类公司去竞争相似的市场,而且如果都是套壳 OpenAI 大家本质功能也不会拉开太大的差距。第二个例子是针对C端,当时就有传言微软要在操作系统层级集成大模型能力,那么针对个人市场的文档问答服务也就可能会形成冲击。个人市场针对LLM能力的付费意愿我个人的观察属于“我能白嫖干什么还要付费”。

2023年4月初,和《津津乐道》播客一拍既合尝试通过OpenAI 本身对于语言的理解能力,将281个节目字幕提取为QA数据集(JinJinLeDao QA Dataset)。也算是对大语言模型的另一种使用方式的探索。

2023年4月底开始折腾ASR(语音转文本)任务,并且希望真正落地一个基于本地AI模型的企业级解决方案。虽然都是用Whisper,但如何提升质量和转译速度变成了一个难题。接下来几个月的状态就是看论文,看开源项目的优化实现以及进行大量的测试和调整。最后找了一个相对合适的 pipline 就是串联或并联多个模型,并且使用鉴别模型进行判断是否需要进行相应的处理。但因为整个服务流里面有大量的模型,并且有些模型体积又特别大,导致部署难度上升,但还好组内有大佬暂且解决了,折腾了这几个月下来服务整体还算稳定。

期间还去津津乐道播客聊了聊 OpenAI 的发布会《编码人声:几千块钱换来的 OpenAI 新功能体验报告》。强烈推介大家去订阅津津乐道播客宇宙的相关节目!

最近这两个月开始折腾支持语音克隆的TTS本地化解决方案,目前看整体还可以,但如何能进行“无人值守”级别的长文本TTS生成,还需要进一步探索和解决,期望年前能解决吧。

我其实还是很愿意花钱投资自己,尤其是知识上的,今年AI上的投入比我以前在任何其他技术上投资都要大的多(我都不敢看我的余额…)。租线上GPU训练模型,买相关书籍和课程,尝试各种AI相关付费服务,以及为了方便调试攒了一个本地开发机。今年也要感谢朋友们的赞助和付费咨询,帮我抹掉了部分的成本。但从今年一年来看个人搞 AI 局限性还是太大,有很多想尝试的因为要投入比较多的成本而无法进行。明年可能找个搞 AIGC 的公司搞点正事?也未可知。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK