星标破10万，Auto-GPT之后，Transformer越新里程碑

新智元·2023-05-18 07:20

Transformer引爆机器学习圈

问世6年来，Transformer不仅成为NLP领域的主流模型，甚至成功向其他领域跨界，一度成为风靡AI界的机器学习架构。恰在今天，Transformer在GitHub上星标破10万大关！

2017年，谷歌团队在论文「Attention Is All You Need」提出了开创性的NLP架构Transformer，自此一路开挂。

多年来，这一架构风靡微软、谷歌、Meta等大型科技公司。就连横扫世界的ChatGPT，也是基于Transformer开发的。

而就在今天，Transformer在GitHub上星标破10万大关！

v2_5cc1ef7a1ba34d8baac5519fa7cfdb2d@5888275_oswg80256oswg1080oswg236_img_000

Hugging Face，最初只是一个聊天机器人程序，因其作为Transformer模型的中心而声名鹊起，一举成为闻名世界的开源社区。

为了庆祝这一里程碑，Hugging Face也总结了100个基于Transformer架构搭建的项目。

v2_357a24c8206d45e186d10ea67a4fa8ba@5888275_oswg235106oswg1080oswg408_img_000

Transformer引爆机器学习圈

2017年6月，谷歌发布「Attention Is All You Need」论文时，或许谁也没有想到这个深度学习架构Transformer能够带来多少惊喜。

从诞生至今，Transformer已经成为AI领域的基石王者。19年，谷歌还专门为其申请了专利。

v2_5a289cdf26714e6fb1fd935a8f5dcd7f@5888275_oswg8535oswg1080oswg222_img_000

随着Transformer在NLP领域占据了主流地位，还开始了向其他领域的跨界，越来越多的工作也开始尝试将其引到CV领域。

看到Transformer突破这一里程碑，许多网友甚是激动。

v2_1136946355114779a9970e7d57249694@5888275_oswg547403oswg1080oswg540_img_000

「我一直是许多受欢迎的开源项目的贡献者，但看到Transformer在GitHub上达到10万颗星，还是很特别的！」

v2_6b40ab89b8384e9e94476eb219606e08@5888275_oswg254180oswg1080oswg416_img_000

前段时间Auto-GPT的GitHub星量超过了pytorch引起了很大的轰动。

网友不禁好奇Auto-GPT和Transformer相比呢？

v2_69869ce98e2a4bf5a32b3f916c843f04@5888275_oswg30447oswg624oswg118_img_000

其实，Auto-GPT远远超过了Transformer，已经有13万星。

v2_f3df5ccff70242f3a63899d54f56f7ef@5888275_oswg83146oswg1080oswg220_img_000

目前，Tensorflow有17多万星。可见，Transformer是继这两个项目之后，第三个星标破10万的机器学习库。

v2_779c9205787541fe963358ee945fa707@5888275_oswg81232oswg1080oswg222_img_000

还有网友回忆起了最初使用Transformers库时，那时的名字叫「pytorch-pretrained-BERT」。

v2_3dde9b50420f4bdcae3d7acda10699f2@5888275_oswg66577oswg1080oswg200_img_000

基于Transformer的50个超赞项目

Transformers不仅是一个使用预训练模型的工具包，它还是一个围绕Transformers和Hugging Face Hub构建的项目社区。

v2_6c4c041470f44a57a62843236925f5d8@5888275_oswg59410oswg1080oswg250_img_000

在下面列表中，Hugging Face总结了100个基于Transformer搭建的让人惊叹的新颖项目。

v2_f8d2c35731e54eacbe5aca5ed33f0d3c@5888275_oswg747595oswg1080oswg608_img_000

以下，我们节选了前50个个项目进行介绍：

gpt4all

gpt4all是一个开源聊天机器人生态系统。它是在大量干净的助手数据集合上训练出来的，包括代码、故事和对话。它提供开源的大型语言模型，如LLaMA和GPT-J，以助理的方式进行训练。

关键词: 开源，LLaMa，GPT-J，指令，助手

v2_df12e144a2be4d8094cc5e288a851e84@5888275_img_000

recommenders

这个存储库包含构建推荐系统的示例和最佳实践，以Jupiter笔记本形式提供。它涵盖了建立有效推荐系统所需的几个方面: 数据准备、建模、评估、模型选择和优化，以及操作化。

关键词：推荐系统，AzureML

lama-cleaner

基于Stable Diffusion技术的图像修复工具。可以从图片中擦出任何你不想要的物体、缺陷、甚至是人，并替换图片上的任何东西。

关键词：修补，SD，Stable Diffusion

v2_1ecf1bf337d0409486284a2b3d3996b9@5888275_img_000

flair

FLAIR是一个强大的PyTorch自然语言处理框架，可以转换几个重要的任务：NER、情感分析、词性标注、文本和对偶嵌入等。

关键词：NLP，文本嵌入，文档嵌入，生物医学，NER，PoS，情感分析

v2_128bd84be37f4cd98ba5bb81602023cc@5888275_oswg121455oswg1080oswg338_img_000

mindsdb

MindsDB是一个低代码的机器学习平台。它将几个ML框架作为「AI表」自动集成到数据栈中，以简化AI在应用程序中的集成，让所有技能水平的开发人员都能使用。

关键词：数据库，低代码，AI表

langchain

Langchain旨在协助开发兼容 LLM 和其他知识来源的应用程序。该库允许对应用程序进行链式调用，在许多工具中创建一个序列。

关键词：LLM，大型语言模型，智能体，链

v2_f9eebb42f3d34900aec6b0e972d8d1da@5888275_oswg97780oswg1080oswg277_img_000

ParlAI

ParlAI是一个用于分享、训练和测试对话模型的python框架，从开放领域的聊天，到面向任务的对话，再到可视化问题回答。它在同一个API下提供了100多个数据集，许多预训练模型，一组智能体，并有几个集成。

关键词：对话，聊天机器人，VQA，数据集，智能体

v2_128b2cc4150c4fbfb99fd6372ff07df8@5888275_oswg639380oswg1080oswg1136_img_000

sentence-transformers

这个框架提供了一种简单的方法来计算句子、段落和图像的密集向量表示。这些模型基于BERT/RoBERTa/XLM-RoBERTa等Transformer为基础的网络，并在各种任务中取得SOTA。文本嵌入到向量空间中，这样类似的文本就很接近，可以通过余弦相似度高效找到。

关键词：密集向量表示，文本嵌入，句子嵌入

ludwig

Ludwig是一个声明式的机器学习框架，使用一个简单而灵活的数据驱动的配置系统，可以轻松定义机器学习pipelines。Ludwig针对的是各类AI任，提供了一个数据驱动的配置系统，训练、预测和评估脚本，以及一个编程的API。

关键字：声明式，数据驱动，ML 框架

v2_6412799d06504ae582c39a6bca134ee9@5888275_img_000

InvokeAI

InvokeAI是Stable Diffusion模型的一个引擎，面向专业人士、艺术家和爱好者。它通过CLI以及WebUI来利用最新的AI驱动技术。

关键词：Stable Diffusion，WebUI，CLI

v2_ecaac22c8c4946df97af7d799160f099@5888275_oswg163587oswg600oswg339_img_000

PaddleNLP

PaddleNLP是一个易于使用且功能强大的NLP库，特别是针对中文语言。它支持多个预训练的模型动物园，并支持从研究到工业应用的广泛的NLP任务。

关键词：自然语言处理，汉语，研究，工业

stanza

斯坦福大学NLP小组的官方Python NLP库。它支持在60多种语言上运行各种精确的自然语言处理工具，并支持从Python访问Java Stanford CoreNLP软件。

关键词：NLP，多语言，CoreNLP

v2_af424bc39e7647b3834ca83cd50af154@5888275_oswg129292oswg1080oswg333_img_000

DeepPavlov

DeepPavlov是一个开源的对话式人工智能库。它被设计用于开发可生产的聊天机器人，和复杂的对话系统，以及在NLP领域的研究，特别是对话系统。

关键词：对话，聊天机器人

v2_8556f83634ce4a98bd04781c2dfee1d3@5888275_oswg148144oswg1080oswg364_img_000

alpaca-lora

Alpaca-lora包含了使用低秩适应（LoRA）重现斯坦福大学Alpaca结果的代码。该资源库提供训练（微调）以及生成脚本。

关键词：LoRA，参数高效微调

imagen-pytorch

一个Imagen的开源实现，谷歌的封闭源文本到图像的神经网络击败了DALL-E2。imagen-pytorch是用于文本到图像合成的新SOTA。

关键词：Imagen，文生图

v2_641b5e46d0d341b09c0ee3509f69f904@5888275_oswg334520oswg1080oswg1000_img_000

adapter-transformers

adapter-transformers是Transformers 库的一个扩展，通过纳入AdapterHub，将适配器集成到最先进的语言模型中，AdapterHub是一个预训练的适配器模块的中央存储库。它是Transformers的直接替代品，定期更新以保持与Transformers发展同步。

关键字：适配器，LoRA，参数高效微调，Hub

v2_6b12f0ad668a4e8f837e9f0db9b0feb4@5888275_oswg71305oswg1080oswg368_img_000

NeMo

NVIDIA NeMo是为从事自动语音识别（ASR）、文本-语音合成（TTS）、大语言模型和自然语言处理的研究人员构建的会话AI工具包。NeMo的主要目标是帮助来自工业界和学术界的研究人员重新利用以前的工作（代码和预先训练的模型），并使其更容易创建新的项目。

关键词：对话，ASR，TTS，LLM，NLP

v2_f692ea63042549e9ad502d8da9b438ff@5888275_oswg122303oswg1080oswg481_img_000

Runhouse

Runhouse允许用Python将代码和数据发送到任何计算机或数据下层，并继续从现有代码和环境正常地与它们进行交互。Runhouse开发者提到：

可以将它看作 Python 解释器的扩展包，它可以绕道远程机器或操作远程数据。

关键词: MLOps，基础设施，数据存储，建模

MONAI

MONAI是PyTorch生态系统的一部分，是一个基于PyTorch的开源框架，用于医疗成像领域的深度学习。它的目标是:

- 发展一个学术、工业和临床研究人员的共同基础上的合作社区；

- 为医疗成像创建SOTA、端到端训练的工作流程；

- 为深度学习模型的建立和评价提供了优化和标准化的方法。

关键词：医疗成像，训练，评估

simpletransformers

Simple Transformers让您快速训练和评估Transformer模型。初始化、训练和评估模型只需要3行代码。它支持各种各样的 NLP 任务。

关键词：框架，简单性，NLP

JARVIS

JARVIS是一个将GPT-4等在内的LLM与开源机器学习社区其他模型合并的系统，利用多达60个下游模型来执行 LLM 确定的任务。

关键词：LLM，智能体，HF Hub

v2_ceaa4d7906634a82b6acba43b36e501a@5888275_oswg376831oswg1080oswg495_img_000

transformers.js

transformers.js是一个JavaScript库，目标是直接在浏览器中从transformers运行模型。

关键词：Transformers，JavaScript，浏览器

v2_a8e03d5c65134fdcae02e458ed7522a6@5888275_oswg49423oswg1080oswg304_img_000

bumblebee

Bumblebee在Axon之上提供了预训练的神经网络模型，Axon是用于Elixir语言的神经网络库。它包括与模型的集成，允许任何人下载和执行机器学习任务，只需要几行代码。

关键词：Elixir，Axon

v2_724291ae25f34a68a591e7a53ab67092@5888275_oswg656547oswg1080oswg589_img_000

argilla

Argilla是一个提供高级NLP标签、监控和工作区的开源平台。它与许多开源生态系统兼容，例如Hugging Face、Stanza、FLAIR等。

关键词：NLP，标签，监控，工作区

v2_4fdd461c86104756a358b576c27388a0@5888275_img_000

haystack

Haystack是一个开源的NLP框架，可以使用Transformer模型和LLM与数据进行交互。它为快速构建复杂的决策制定、问题回答、语义搜索、文本生成应用程序等提供了可用于生产的工具。

关键词：NLP，Framework，LLM

v2_a9751086ac0741adb69a994943c55e91@5888275_oswg107591oswg1080oswg452_img_000

spaCy

SpaCy是一个用于Python和Cython中高级自然语言处理的库。它建立在最新的研究基础之上，从一开始就被设计用于实际产品。它通过其第三方软件包spacy-transformers为Transformers模型提供支持。

关键词：NLP，架构

v2_d32db22ad3b34f398c644b5ae5a0bcec@5888275_oswg94392oswg1080oswg249_img_000

speechbrain

SpeechBrain是一个基于PyTorch的开源、一体化的会话AI工具包。我们的目标是创建一个单一的、灵活的、用户友好的工具包，可以用来轻松开发最先进的语音技术，包括语音识别、讲话者识别、语音增强、语音分离、语言识别、多麦克风信号处理等系统。

关键词：对话，演讲

skorch

Skorch是一个包装PyTorch的具有scikit-learn兼容性的神经网络库。它支持Transformers中的模型，以及来自标记器的标记器。

关键词：Scikit-Learning，PyTorch

bertviz

BertViz是一个交互式工具，用于在诸如BERT、GPT2或T5之类的Transformer语言模型中可视化注意力。它可以通过支持大多数Huggingface模型的简单Python API在Jupiter或Colab笔记本中运行。

关键词：可视化，Transformers

v2_b2fbf297fdba411888b61735fa84ce2f@5888275_img_000

mesh-transformer-jax

mesh-transformer-jax是一个俳句库，使用JAX中的xmap/pjit运算符实现Transformers模型并行性。

这个库被设计为在TPUv3上可扩展到大约40B的参数。它是用来训练GPT-J模型的库。

关键词：俳句，模型并行，LLM，TPUdeepchem

OpenNRE

一种用于神经关系提取的开源软件包（NRE）。它的目标用户范围很广，从新手、到开发人员、研究人员或学生。

关键词：神经关系抽取，框架

pycorrector

一种中文文本纠错工具。该方法利用语言模型检测错误、拼音特征和形状特征来纠正汉语文本错误。可用于汉语拼音和笔画输入法。

关键词: 中文，纠错工具，语言模型，Pinyin

v2_5a9c2cf9596e493582189c182a7f6873@5888275_oswg437730oswg1080oswg454_img_000

nlpaug

这个python库可以帮助你为机器学习项目增强nlp。它是一个轻量级的库，具有生成合成数据以提高模型性能的功能，支持音频和文本，并与几个生态系统（scikit-learn、pytorch、tensorflow）兼容。

关键词：数据增强，合成数据生成，音频，自然语言处理

dream-textures

dream-textures是一个旨在为Blender带来稳定扩散支持的库。它支持多种用例，例如图像生成、纹理投影、内画/外画、 ControlNet和升级。

关键词: Stable-Diffusion，Blender

v2_094bb05f10aa4c19ac64a478b2195516@5888275_oswg316518oswg1024oswg256_img_000

seldon-core

Seldon core将你的ML 模型（Tensorflow、 Pytorch、 H2o等）或语言包装器（Python、 Java等）转换为生产 REST/GRPC微服务。Seldon可以处理扩展到数以千计的生产机器学习模型，并提供先进的机器学习功能，包括高级指标、请求日志、解释器、离群值检测器、A/B测试、Canaries等。

关键词：微服务，建模，语言包装

open_model_zoo

该库包括优化的深度学习模型和一组演示，以加快高性能深度学习推理应用程序的开发。使用这些免费的预训练模型，而不是训练自己的模型来加速开发和生产部署过程。

关键词：优化模型，演示

ml-stable-diffusion

ML-Stable-Diffusion是苹果在苹果芯片设备上为Core ML带来Stable Diffusion支持的一个仓库。它支持托管在Hugging Face Hub上的稳定扩散检查点。

关键词：Stable Diffusion，苹果芯片，Core ML

v2_bfe6c5afd793466f9db6e8929295df4f@5888275_oswg659765oswg1080oswg861_img_000

stable-dreamfusion

Stable-Dreamfusion是文本到3D模型Dreamfusion的pytorch实现，由Stable Diffusion文本到2D模型提供动力。

关键词：文本到3D，Stable Diffusion

v2_cd1145d548ac41c18071d5258c50ffdc@5888275_img_000

txtai

Txtai是一个开源平台，支持语义搜索和语言模型驱动的工作流。Txtai构建了嵌入式数据库，它是向量索引和关系数据库的结合，支持SQL近邻搜索。语义工作流将语言模型连接到统一的应用程序中。

关键词：语义搜索，LLM

v2_b0c780f65a5d4208bcbdd568712a94c2@5888275_img_000

djl

Deep Java Library (DJL)是一个用于深度学习的开源、高级、引擎无关的Java框架，易于开发人员使用。DJL像其他常规Java库一样提供了本地Java开发经验和函数。DJL为HuggingFace Tokenizer提供了Java绑定，并为HuggingFace模型在Java中部署提供了简单的转换工具包。

关键词：Java，架构

v2_9783f29b12874e698d798cc05a916863@5888275_oswg57886oswg1080oswg367_img_000

lm-evaluation-harness

该项目提供了一个统一的框架，以测试生成语言模型在大量不同的评估任务。它支持200多项任务，并支持不同的生态系统：HF Transformers，GPT-NeoX，DeepSpeed，以及OpenAI API。

关键词：LLM，评估，少样本

gpt-neox

这个资源库记录了EleutherAI用于在GPU上训练大规模语言模型的库。该框架以英伟达的Megatron语言模型为基础，并以DeepSpeed的技术和一些新的优化来增强。它的重点是训练数十亿参数的模型。

关键词：训练，LLM，Megatron，DeepSpeed

muzic

Muzic是一个关于人工智能音乐的研究项目，它能够通过深度学习和人工智能来理解和生成音乐。Muzic是由微软亚洲研究院的研究人员创建的。

关键词：音乐理解，音乐生成

v2_f21386141e6740abaf3bf106179b6ecb@5888275_oswg93261oswg1080oswg476_img_000

dalle-flow

DALL · E Flow是一个交互式工作流程，用于从文本提示符生成高清图像。它利用DALL · E-Mega、GLID-3 XL和Stable Diffusion生成候选图像，然后调用CLIP-as-service对候选图像进行提示排序。首选的候选者被馈送到GLID-3 XL进行扩散，这通常会丰富纹理和背景。最后，通过SwinIR将候选项扩展到1024x1024。

关键词：高清度图像生成，Stable Diffusion，DALL-E Mega，GLID-3 XL，CLIP，SwinIR

v2_308f8dd6a17543789bfae66fd72652dd@5888275_oswg69667oswg1024oswg768_img_000

lightseq

LightSeq是在CUDA中实现的用于序列处理和生成的高性能训练和推理库。它能够高效地计算现代NLP和CV模型，如BERT，GPT，Transformer等。因此，它对于机器翻译、文本生成、图像分类和其他与序列相关的任务非常有用。

关键词：训练，推理，序列处理，序列生成

v2_f56b58b986814391ad70710d2e107e82@5888275_oswg89343oswg1080oswg240_img_000

LaTeX-OCR

该项目的目标是创建一个基于学习的系统，该系统采用数学公式的图像，并返回相应的LaTeX代码。

关键词：OCR，LaTeX，数学公式

v2_985e7ab01f35494a8cd6c10cb1a6fb7a@5888275_oswg94156oswg649oswg319_img_000

open_clip

OpenCLIP是OpenAI的CLIP的开源实现。

这个资源库的目标是使具有对比性的图像-文本监督的训练模型成为可能，并研究它们的属性，如对分布转移的鲁棒性。项目的出发点是CLIP的实现，当在相同的数据集上训练时，与原始CLIP模型的准确性相匹配。

具体来说，一个以OpenAI的1500万图像子集YFCC为代码基础训练的ResNet-50模型在ImageNet上达到32.7%的最高准确率。

关键词：CLIP，开源，对比，图像文本

v2_2959eb4d42c649f385d72e93a4d5496d@5888275_oswg73515oswg1080oswg362_img_000

dalle-playground

一个playground生成图像从任何文本提示使用Stable Diffusion和Dall-E mini。

关键词：WebUI，Stable Diffusion，Dall-E mini

v2_8a0d0b2391fd42adbba9358e77d37c7a@5888275_img_000

FedML

FedML是一个联邦学习和分析库，能够在任何地方、任何规模的分散数据上进行安全和协作的机器学习。

关键词：联邦学习，分析，协作机器学习，分散‍

https://twitter.com/huggingface/status/1658846950958018560

本文来自微信公众号“新智元”（ID:AI_era），作者：新智元，36氪经授权发布。

星标破10万，Auto-GPT之后，Transformer越新里程碑

星标破10万，Auto-GPT之后，Transformer越新里程碑

Transformer引爆机器学习圈

基于Transformer的50个超赞项目

gpt4all

recommenders

lama-cleaner

flair

mindsdb

langchain

ParlAI

sentence-transformers

ludwig

InvokeAI

PaddleNLP

stanza

DeepPavlov

alpaca-lora

imagen-pytorch

adapter-transformers

NeMo

Runhouse

MONAI

simpletransformers

JARVIS

transformers.js

bumblebee

argilla

haystack

spaCy

speechbrain

skorch

bertviz

mesh-transformer-jax

OpenNRE

pycorrector

nlpaug

dream-textures

seldon-core

open_model_zoo

ml-stable-diffusion

stable-dreamfusion

txtai

djl

lm-evaluation-harness

gpt-neox

muzic

dalle-flow

lightseq

LaTeX-OCR

open_clip

dalle-playground

FedML

Recommend

About Joyk