OpenAI体验

2023-02-26

科技

OpenAI chatGPT 很火，体验了一把，哇哦之后，心想这个会成为内容创造的辅助工具，目前大部分是通过搜索寻找来解答难题，以后可能收敛到具体应用场景中了，不过底层可能还是掌握大数据公司来提供模型资源。

按使用方大致分为如下场景：

企业ToB常应用在Saas办公软件，低代码，客服，生物医疗，教育当中，比如微软办公软件，notion等相关笔记软件, 飞书，钉钉，企业微信等办公聊天，文档，视屏会议等软件，以及银行智能客服，生物蛋白质生成和基因测序领域等等；付费模式，开放的模型Pass平台提供模型训练，以及微调，交互api等；按使用资源和更好的体验质量速度来收费，比如国内BAT；上层SaaS服务通过租户使用更多实用便利功能组合(三方资源和内部资源整合)来付费。
ToC主要是UGC的场景，随着多模交互场景下的大模型出现，AIGC方面的应用应该会更多，普通玩家更多，想象空间应该也更大，这块比ToB要大的多，而且较为通用，有UGC大数据公司才可能出大模型吧，并且开放给上游应用玩家使用，按功能体验质量来付费；比如国内抖音，微信这些app应用，以及和企业合作的实验室。可能还会有其他好玩的智能硬件出现。
可能还有数据库方向，结合用户经常输入查询，结合数据库产品特性进行智能补偿纠错优化推荐等，类似tabnine, Copilot 这类型工具，反正上层交互类的场景应该都可以渗透到。

总的概括玩家分为3种：底层大模型 -> 定制场景下的数据模型微调 -> 上层应用百花齐放；

想象空间有限，未来是怎样，以上说的可能有误:)，anyway，Just Do IT~

PS: 梯子不要选择香港，可以使用美国的节点；openai如何注册可以google一下，教程很多，注册的邮箱用的gmail，使用 https://sms-activate.org/ 代理接受短信验证码，可以选择🇮🇳印度。

chatGPT体验挺有意思的，如果问一些理性逻辑相关的case, 比如自然语言处理怎么学习相关的语义，可以给出相同的参考标准答案，逻辑套路满满，而且还可以纠正错别字意图，(关于如何学习的模版套路，可以用来建个思维导图，然后自己填充学习内容笔记，或者ppt之类的等等)；如果问一些感性的case, 比如一段歌词，一首诗歌，会给出相应的场景，文字还挺优美的，一个字绝，懂你的。感觉AI很适合逻辑套路，但是人类的情感是很难琢磨的哈，人心难测嘛；当然提问也是比较重要的，也有些bad case，比如：“什么是快乐星球”，需要多沟通，让它理解上下文（只能意会不能言传-人类专属功能，它倒像个三体人），继续追问，会出现一本正经的错误回答，明明是胡歌，舒淇，张艺兴等小朋友~ （模型自我迭代学习，下次访问回答时已经就正确了，知错能改，善莫大焉）

openai使用GPT模型(公开使用的是GPT-3以上), 底层具体对应的大模型已经训练好了，提供openAPI给应用开发者来进行微调模型使用。

作为一个开发者，当然想在通过开放的api来使用openai模型啦；如果是研究人员，虽然木有大数据和服务器计算资源来玩，也可以使用openai开放的GPT-3以及以上的模型来微调。

以下是chatGPT 对使用的回答(这个就相当于是智能客服场景)，提供的开放的(text/image/audio/video)多模交互api使用如下：

GPT-3, GPT-3.5 … 模型，用于模型参数微调；文本补全，编辑；以及搜索(相关性排序)，聚类(相似性分组)，推荐(推荐相关文本)，异常检测(识别相关性很小的异常值)，多样性测试(分析相似性分布)，分类(最相似的标签分类)等embedding，通过向量列表表示，计算文本相关性(向量距离)；主要用于文本类交互，以及基于上下文聊天场景；
Codex api 通过描述文本提示Prompt生成对应代码；这个挺适合开发人员的，对于新语言的新手，结合ide，记事本通过Prompt提示词语来生成相关代码还是挺爽的，至少不用去google 来回找确认是否是需要方案代码，搜索则可以用于兜底方案；
DALL-E /2 api 通过描述文本提示Prompt生成图片或者编辑原始图片；插画，设计师辅助类工具，大概构思草图；
音频转换为文本, 使用开源大型 v2 Whisper 模型。这个用在硬件设备上挺好的，硬件操作系统如果有开放口子可以开发的话，直接就可以对接上赋能了。将音频转录成音频所使用的任何语言；将音频翻译并转录成英文；
视频类的api暂时还没有；
需要生成 api-keys 用于api接口调用时使用；
提供了不同开发语言的 client库，默认包括：python,nodejs, 还有其他语言三方包，比如golang: sashabaranov/go-gpt3 ; 以及api 错误说明；
可以在 playground 中编辑描述文本提示Prompt对模型接口调试测试，还可以用语音生成描述文本(speech to text)，适合端到端的语音智能设备；
而且在 openai examples 中提供各种应用场景样例和Q&A；
文档中还介绍了最佳实践：安全最佳实践 和 生产最佳实践 ；

像国内BAT在这块也早已开始布局了，大概15,16年左右就已经开始搭建智能平台底座，只不过被国外chatGPT “大力出奇迹” 给引爆了；大模型的训练需要大量的数据和参数调整，而且需要消耗大量服务器计算资源，特别是GPU 。像百度的文心大模型（塑造了一个二次元create大会） ; 中国素有基建狂魔之称，希望能在中国版的"大力神丸"上出奇迹。

Tips: 国内微信也已经有对应类似开放api，https://welm.weixin.qq.com/docs/api/ 微信应该最适合的应用场景，对应背景论文：WeLM: A Well-Read Pre-trained Language Model for Chinese

附学习demo:

openai提供了开放接口，借这个AI东风，推进下工程方面的熟练。大部分是dev/app ops工作，业务由应用场景和idea来决定。

本地命令行交互

目的：快速熟悉openai的调用接口进行参数设置，或者对模型进行微调训练。

源码地址：https://github.com/weedge/craftsman/tree/main/doraemon/openai

git clone  https://github.com/weedge/craftsman && cd craftsman/doraemon/openai
# cmd chat Q&A
export OPENAI_API_SK=
make run

web交互(使用AWS Serverless 架构搭建)☁️智能底座+上层轻/微应用，适合快速迭代的业务，just code serverless biz logic handler func run on the could lambda runtime, like shell/c++/rust use custom runtime 特别是rust lambda runtime 是开源的，值得关注，对于使用运行时语言来进行无服务化平台化改造，比如数据模型训练是的pipeline，数据库cloud平台，而且在aws内部大量使用，Rust 已迅速成为大规模构建基础设施的关键语言，Firecracker 是一种开源虚拟化技术，为AWS Lambda和其他无服务器产品提供支持。 aws抽象出来的服务，复杂都留在后面，简单交互留给用户，按业务场景自由组装infrastructure。智能底座需要这样的抽象工程给上层应用赋能。

目的：熟悉aws serverless 事件驱动整体架构，以及整体lambda runtime运行原理；在数据库cloud 或者内部/外部pass平台场景中，提供给客户使用serverless来实现具体业务逻辑。aws在这块做的深入，通过学习以便这些思想用于实际工作场景中。

源码地址：https://github.com/weedge/craftsman/tree/main/cloud/aws/cdk/serverless-openai-chatbot

使用aws无服务lambda系统设施架构如下：(push模块异步对接openai 推送结果，这里分不同开放语言，是为了熟悉lambda对不同语言runtime，具体语言根据公司组织应用场景而定，不过 golang挺适合push服务的，分channel治之)

按照demo readme 配置好文件，后端服务可以一键部署这个demo应用，第一次部署过程可能比较长，主要是用docker容器来CI lambda不同语言所依赖的库，用于部署至aws lambda容器环境中；前段静态资源则需要手动配置, 看 Tutorial: Configuring a static website on Amazon S3 这个教程就可以，配置好后可提供对象存储S3域名使用，如果需要配置公司组织域名，使用CDN加速，则自行查看相关文档解决~
k8s部署方式

目的：熟悉k8s资源工程化部署，了解整体生态，熟练相关工具及原理。

源码地址：https://github.com/weedge/craftsman/tree/main/doraemon/ai-creator

Tips: 技术上不要把openAI 放大了，对于工程化方面来说只是多了一项方便调试的智能化接口，加上了更多的赋能，应用上玩出花，也只是在原有的产品功能上定制化数据场景模型的微调，至于算法模型，大部分都开源，关键是大数据场景下的训练资源调度调优，垂直领域场景下用于参数微调训练的数据吧；对边缘模型在边缘端自适应学习调优推理，占用少的资源就能快速响应的模型，可能离机器人智能不远了。

附2 好玩的网站：(国外玩出花了)

https://www.notion.so/product/ai 笔记思路智能套路
https://www.midjourney.com/ 需要注册Discord 在channel下通过聊天命令交互生成图片 https://docs.midjourney.com/docs/quick-start
https://piggy.to/ ui设计师
https://soundraw.io/ 寻找音乐灵感
https://typeset.io/ 读论文神器，非常值得推荐，so nice~
https://you.com/ 新一代人工智能搜索引擎(遵从用户隐私数据，结合AI技术,chat,code,study等)，加入了社交属性，搜索质量很高；(国内搜索引擎应该有跟进一波的吧~) ；一些反馈功能还在迭代完善 https://yousearch.canny.io/；Richard Socher - Natural Language Processing with Deep Learning( 当前课程挺贵的,可以看下以前免费视频, 感觉听不懂先用notion记录下，再去找资料了解下，orz, ps: CMU数据库课程 Advanced Database Systems 类似学习，今年的学习OKR有了~)

携手AI前行，效率优先，压缩时间成本~

附3 openai 官方提供的应用类产品，

chatGPT: 这个大家都知道一款火爆应用产品，发现社交永远是人类永恒需求哈；
DALL·E 2：使用文本生成图片；有相关的提示文本推荐，体验更好；
yabble：数据洞察(insights)，进行归纳终结，并且帮助规划日程，提出建议；小助手类型工具，网上有用来分析炒股的~；
jukebox：使用文本生成音乐；涉及到音乐版权，数据资源可能不好弄~；
waymark：使用文本生成视频；主要用于制作电视广告和数字视频广告；

以上应用产品底层大模型大多是基于GPT相关最新模型，官网提供的GPT-3: https://openai.com/blog/gpt-3-apps介绍。

附一张midjourney 生成的图片，采用的prompt 描述如下：

/imagine prompt a cute long distance couple with souls connection, asian, chinese, fantasy style

reference

https://openai.com/product (可以先了解清楚openai自己的应用根源产品，后续有时间整理下，感兴趣的话，然后去发散吧)

https://openai.com/blog (技术宅，可以订阅一波)

https://platform.openai.com/docs/introduction/overview (适合开发，模型微调)

https://platform.openai.com/examples/ (找灵感)

https://gpt3demo.com/ （潘多拉盒子）

https://github.com/mli/paper-reading#自然语言处理-transformer (背后模型原理导读)

OpenAI体验

OpenAI体验

reference

Recommend

大家喜欢纹身的女孩吗

ChatGPT促成了乔姆斯基语言体系的崩塌

第一人称心理恐怖游戏《MADiSON》VR 版将于第四季度推出

New Spotify Home Feed Looks Exactly Like TikTok

A ridiculous user script for codeforces: Emojiforces

day04-功能实现03 - 一刀一个小西瓜

小白真诚求问， Java web 开发究竟啥场景需要用到多线程各种天花烂醉锁？

30 Best NFT Discord Servers And Groups To Try In 2023

亚马逊入局NFT意味着什么？一文梳理社区观点

Macbook air 屏幕

About Joyk