GitHub - brightmart/roberta_zh: RoBERTa for Chinese - JOYK Joy of Geek, Geek News, Link all geek

README.md

RoBERTa for Chinese

中文预训练RoBERTa模型

24层base版(roberta_l24_zh_base）下载

base版训练数据：10G文本，包含新闻、社区问答、百科数据等。

发布计划 Release Plan：

1、24层RoBERTa模型(roberta_l24_zh)，使用30G文件训练， 9月8日

2、12层RoBERTa模型(roberta_l12_zh)，使用30G文件训练， 9月8日

3、6层RoBERTa模型(roberta_l6_zh)，使用30G文件训练， 9月8日

4、PyTorch版本的模型(roberta_l6_zh_pytorch) 9月8日

5、30G中文语料，预训练格式，可直接训练(bert,xlent,gpt2) 9月8日

6、测试集测试和效果对比 9月14日

RoBERTa中文版 Chinese Version

本项目所指的中文预训练RoBERTa模型只指按照RoBERTa论文主要精神训练的模型。包括：

1、数据生成方式和任务改进：取消下一个句子预测，并且数据连续从一个文档中获得(见：Model Input Format and Next Sentence Prediction，DOC-SENTENCES)

2、更大更多样性的数据：使用30G中文训练，包含3亿个句子，100亿个字(即token）。由于新闻、社区讨论、多个百科，保罗万象，覆盖数十万个主题，

所以数据具有多样性（为了更有多样性，可以可以加入网络书籍、小说、故事类文学、微博等）。

3、训练更久：总共训练了近20万，总共见过近16亿个训练数据(instance)；在Cloud TPU v3-256 上训练了24小时，相当于在TPU v3-8(128G显存)上需要训练一个月。

4、更大批次：使用了超大（8k）的批次batch size。

5、调整优化器参数。

除以上外，本项目中文版，使用了全词mask(whole word mask)。在全词Mask中，如果一个完整的词的部分WordPiece子词被mask，则同属该词的其他部分也会被mask，即全词Mask。

dynamic mask在本项目中没有实现

说明样例原始文本使用语言模型来预测下一个词的probability。分词文本使用语言模型来预测下一个词的 probability 。原始Mask输入使用语言 [MASK] 型来 [MASK] 测下一个词的 pro [MASK] ##lity 。全词Mask输入使用语言 [MASK] [MASK] 来 [MASK] [MASK] 下一个词的 [MASK] [MASK] [MASK] 。

效果测试与对比 Performance

自然语言推断：XNLI

模型开发集测试集 BERT 77.8 (77.4) 77.8 (77.5) ERNIE 79.7 (79.4) 78.6 (78.2) BERT-wwm 79.0 (78.4) 78.2 (78.0) BERT-wwm-ext 79.4 (78.6) 78.7 (78.3) RoBERTa ? ?

Sentence Pair Matching (SPM): LCQMC

模型开发集测试集 BERT ? ? ERNIE ? ? BERT-wwm ? ? BERT-wwm-ext ? ? RoBERTa ? ?

? 处地方，将会很快更新到具体的值

本项目受到 TensorFlow Research Cloud (TFRC) 资助 / Project supported with Cloud TPUs from Google's TensorFlow Research Cloud (TFRC)

Reference

1、RoBERTa: A Robustly Optimized BERT Pretraining Approach

2、Pre-Training with Whole Word Masking for Chinese BERT

GitHub - brightmart/roberta_zh: RoBERTa for Chinese

README.md

中文预训练RoBERTa模型

发布计划 Release Plan：

RoBERTa中文版 Chinese Version

效果测试与对比 Performance

自然语言推断：XNLI

Sentence Pair Matching (SPM): LCQMC

Reference

Recommend

GitHub - inorichi/tachiyomi: Free and open source manga reader for Android

GitHub - zalo/MathUtilities: A collection of some of the neat math and physics t...

GitHub - chakra-ui/chakra-ui: ⚡️Simple, Modular & Accessible UI Components f...

GitHub - zio/zio: ZIO — A type-safe, composable library for asynchronous and con...

外交部：加拿大为取悦美国配合美国炮制孟晚舟事件

蜘蛛如何「御电而行」？

GitHub - fizyr/keras-retinanet: Keras implementation of RetinaNet object detecti...

GitHub - llSourcell/The-Neural-Qubit: This is the code "The Neural Qubit&qu...

GitHub - apachecn/awesome-data-comp-solution: 数据科学/人工智能比赛解决方案汇总

GitHub - chineseocr/chineseocr: yolo3+ocr

About Joyk