0

知名数据集(一)

 2 years ago
source link: http://antkillerfarm.github.io/resource/2017/08/24/dataset.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

知名数据集

MNIST

MNIST是一个手写字符集,也是学习深度学习和SVM的入门必备数据集。目前由Yann LeCun维护。网址:

http://yann.lecun.com/exdb/mnist/

MNIST是NIST的一个子集,包含了6万个训练样本和1万个测试样本。为了避免碎小文件的问题,所有的手写字符图片都被放到一个文件中。整个数据集包含4个这样的文件。它们的格式说明,实际上在官网就有,只是比较靠后面,容易被忽视。

Iris flower Data Set

Iris是一种叫做鸢尾的植物。Iris flower Data Set是Ronald Fisher在1936年的论文中给出的数据集。该数据集包含了三种鸢尾花的4个特征的样本集。Fisher基于该数据集,提出了linear discriminant analysis算法。

下图是该数据集的LDA图示。

这个数据集并没有专门的网站,但实际上大多数ML软件都自带该数据集,比如R、sklearn等。

https://en.wikipedia.org/wiki/Iris_flower_data_set

http://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html

CIFAR-10

CIFAR-10是由Hinton的两个大弟子Alex Krizhevsky、Ilya Sutskever收集的一个用于普适物体识别的数据集。Cifar是加拿大政府牵头投资的一个先进科学项目研究所。

说白了,就是看你穷的没钱搞研究,就施舍给你。Hinton、Bengio和他的学生在2004年拿到了Cifar投资的少量资金,建立了神经计算和自适应感知项目。

这个项目结集了不少计算机科学家、生物学家、电气工程师、神经科学家、物理学家、心理学家,加速推动了DL的进程。从这个阵容来看,DL已经和ML系的数据挖掘分的很远了。

DL强调的是自适应感知和人工智能,是计算机与神经科学交叉。DM强调的是高速、大数据、统计数学分析,是计算机和数学的交叉。

CIFAR-10由60000张32x32的RGB彩色图片构成,共10个分类。50000张训练,10000张测试(交叉验证)。这个数据集最大的特点在于将识别迁移到了普适物体,而且应用于多分类(姊妹数据集CIFAR-100达到100类,ILSVRC比赛则是1000类)。

https://www.cs.toronto.edu/~kriz/cifar.html

http://www.cnblogs.com/neopenx/p/4480701.html

CNN训练Cifar-10技巧

ImageNet

ImageNet是由李飞飞等创建的一个计算机视觉系统识别项目,是目前世界上图像识别最大的数据库。

http://www.image-net.org/

需要注意的是,由于ImageNet的数据过于庞大,因此主页下载的数据文件,仅仅只是图片的URL而已。

ImageNet的标签包含在图片的文件名中,具体的对应关系参见imagenet_class_index.json:

"812": ["n04266014", "space_shuttle"],

以上面片段为例:

812:类别ID。

n04266014:该类别在图片文件名中的名字前缀。

space_shuttle:该类别的真实名称。

https://blog.csdn.net/weixin_41770169/article/details/80482942

ImageNet图像库1000个类别名称

PASCAL VOC

PASCAL VOC是一个标有物体类别和位置的图片库。

http://host.robots.ox.ac.uk/pascal/VOC/

2005~2012年期间,围绕着该数据集展开了Pascal VOC挑战赛。

https://zhuanlan.zhihu.com/p/53068162

如何用自己的数据制作Pascal VOC格式数据集详细教程(附带所有代码脚本)

https://mp.weixin.qq.com/s/INyw9X2dXJfpfZbBHbXPJg

PASCAL VOC2012数据集详解

MSCOCO

COCO数据集是微软团队获取的一个可以用来图像recognition+segmentation+captioning的数据集,包含超过200000张图片,250000个标注的人体实例,每个人体包含17个关键点。

http://cocodataset.org/

https://mp.weixin.qq.com/s/EKh9lq9TDum4zC3snNi5bA

MS COCO数据集详解

UCI数据集

UCI大学有个专门提供数据集的网站:

http://archive.ics.uci.edu/ml/datasets

其中包含360+的数据集,实在是个宝库啊。

猫狗数据集

最早的宠物数据集,当属Ronald Fisher在1947年的论文中给出的数据集。它包含了144只猫的性别、体重和心脏重量。该数据集的地址:

https://github.com/mathisonian/datasets-cats

其他的宠物数据集还包括:

http://www.robots.ox.ac.uk/~vgg/data/pets/

VGG提供的图片数据集,有语义分割的标签。

https://www.kaggle.com/c/dogs-vs-cats/data

kaggle的猫狗图片数据集

http://vision.stanford.edu/aditya86/ImageNetDogs/

Stanford的狗图片数据集。

WMT数据集是一个多语种的机器翻译数据集。

http://www.statmt.org/

这里不仅包含数据,还包含了若干相关软件。

数据下载:

http://data.statmt.org/

https://mp.weixin.qq.com/s/jezxjPZTnOXWca-VUpfslw

AI研发者福利!谷歌推出数据集搜索专用引擎Dataset Search

https://mp.weixin.qq.com/s/Kmq2tG5XQUO9k1pD3YW2oA

从文本处理到自动驾驶:机器学习最常用的50大免费数据集

https://mp.weixin.qq.com/s?__biz=MzA3NDIyMjM1NA==&mid=2649030010&idx=1&sn=76e0123bf24064c4cb1eb7acacac86fd

深度学习从“数据集”开始

http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics/1

100+诡异的数据集

https://mp.weixin.qq.com/s/NjJRSim8DLvKoI01PMkNfw

机器学习高质量数据集大合辑

http://www.sogou.com/labs/

搜狗实验室的网站可以下载很多NLP和图片识别方面的数据

https://mp.weixin.qq.com/s/ywjgVzEh8e7-lcUmIAtzCA

这是一份非常全面的开源数据集,你真的不想要吗

https://zhuanlan.zhihu.com/p/25138563

各领域公开数据集下载

https://mp.weixin.qq.com/s/_A71fTgwSyaW5XTAySIGOA

最强数据集集合:50个最佳机器学习公共数据集

https://mp.weixin.qq.com/s/Aatv0Q-Mfkkb75h_ZF8AIA

100大机器学习数据集,总有一款适合你!

https://mp.weixin.qq.com/s/484E_ycxQVwKOD6Lcpy-GQ

开放数据集

http://www.dataonthemind.org/data-resources/datasets

认知科学数据集大列表Center for Data on the Mind

https://mp.weixin.qq.com/s/0-gBsoxKaXZz7ojtFrGlvQ

史上最全数据集网站汇总

https://mp.weixin.qq.com/s/B-dEz-uUfjG1r98glkY3Fg

数据科学家必用的25个深度学习的开放数据集!

https://mp.weixin.qq.com/s/vaIhDnyQ7vh8kfrgCpXpQA

从医疗语音到灾难响应,这八大优质数据集快抱走

https://mp.weixin.qq.com/s/COnDB9EveANOBmCksCqoYg

微软内部研究数据集正式对外开放,覆盖NLP、CV等9个领域

https://mp.weixin.qq.com/s/4jhtCUtv_szfMvyDCWKvoQ

最强数据集50个最佳机器学习公共数据,可以帮你验证idea!

https://mp.weixin.qq.com/s/e_mVkS-mZdKwHiGvrNeaMQ

8种寻找机器学习数据集的方法

https://www.datasetlist.com/

收藏:全网最大机器学习数据集,视觉、NLP、音频都在这了

https://mp.weixin.qq.com/s/_7uGn2HadW896co4qSzC3g

这是一份非常全面的开源数据集!

SQuAD(The Stanford Question Answering Dataset)大概算是NLP领域最知名的数据集了。


https://mp.weixin.qq.com/s/xoOFbUjABKmQIVzTcHE6KQ

CLUEDatasetSearch:搜索所有中文数据集,附常用英文数据集

https://mp.weixin.qq.com/s/tewjGzfAVCKcG1dlURxyeg

MIT发布的10大自然语言处理数据集和语料库

https://github.com/candlewill/Dialog_Corpus/blob/master/README.md

用于对话系统的中英文语料

https://mp.weixin.qq.com/s/6T7hNPNtWtBSXyno4MQ3jQ

中文公开聊天语料库

https://mp.weixin.qq.com/s/qh4evahPVjvZlzqan7RIKg

囊括欧亚非大陆多种语言的25个平行语料库数据集

https://mp.weixin.qq.com/s/37cUxUzcSZ_OgfuN_yTmlA

阅读理解与问答数据集

https://mp.weixin.qq.com/s/W48TlxSLPk2E2DuSzEidNA

免费文本语料训练数据集

https://mp.weixin.qq.com/s/K1eYjrrWuHu8JgWgoDliJw

百度的中文问答数据集WebQA

https://mp.weixin.qq.com/s/WfcFiRXBKAMqnDi5KFpIEA

百万级字符:清华大学提出中文自然文本数据集CTW

https://mp.weixin.qq.com/s/AdzBrseH3SOgo5BrbjWVpw

机器能做中/高考英语试题吗?

https://mp.weixin.qq.com/s/myg_PCdHB3DUtdA7ROmTOg

100+个自然语言处理数据集大放送,再不愁找不到数据!

https://mp.weixin.qq.com/s/eAqtNDT7LDdMg_41QWJ5iA

DuReader:百度大规模的中文机器阅读理解数据集

https://mp.weixin.qq.com/s/tENiB4P1–sD5B5r3Af16w

Chinese Word Vectors:目前最全的中文预训练词向量集合

https://mp.weixin.qq.com/s/S6KrNNz3TJQr8i3-fAZe-Q

今日头条新闻文本分类数据集

https://mp.weixin.qq.com/s/gAFNbMhatFVwnGmBEUFOQA

耶鲁大学发布自然语言处理资源引擎TutorialBank: 让NLP学习不再困难

https://mp.weixin.qq.com/s/WkDTGxWtgUMjpIoO4LkLRg

腾讯AI Lab开源800万中文词的NLP数据集

https://mp.weixin.qq.com/s/isUT–guYrsIWRXApcutrg

耶鲁大学11名学生标注完成大规模复杂跨域Text-to-SQL数据集Spider

http://universaldependencies.org/

一个依存语法方面的标注数据集。这类数据也叫做treebank数据,原因是依存语法生成的结果是一棵语法树。

https://mp.weixin.qq.com/s/7xFlELcm325Q6wEB5Pyphg

让AI学会刨根问底和放飞自我,斯坦福最新问答数据集CoQA

https://mp.weixin.qq.com/s/Rf3NAYlNMrcVythVA-90cQ

端到端对话模型新突破!Facebook发布大规模个性化对话数据库

https://mp.weixin.qq.com/s/LC6bJOsJczTLolQ1Yx5cvg

最全中华古诗词数据库:近14k唐宋古诗人, 55k首唐诗,60k宋诗

https://mp.weixin.qq.com/s/yZ138cMv4203wJdIY_0sUA

FAIR重磅发布大规模语料库XNLI:解决跨15种语言理解难题

https://mp.weixin.qq.com/s/RduLMsu599YRSsxd-mjX2A

最新任务型对话数据集大全

https://github.com/fighting41love/funNLP

40个中文NLP词库

https://mp.weixin.qq.com/s/KK7jCN5yN_TOrnNQWLuUNg

CMU多语种语音数据集:700多种语言的语音/文本对齐语料

https://mp.weixin.qq.com/s/xzHMzQ4uVBJaUR8b_KNptA

你说“神马”?非正式汉语数据集资源上线,帮你训练网络语言处理

https://mp.weixin.qq.com/s/v4XjU2UGe1ikVj8d70gTSw

基于知识图谱的问答系统入门—NLPCC2016KBQA数据集

https://mp.weixin.qq.com/s/a1XhQKOfxTCD9wVddQG8gw

Google发布新的问答语料库,专攻篇章级的NLU问题

https://mp.weixin.qq.com/s/5NWqq3iRnTB_FJAfopBEeg

NLP Chinese Corpus项目:大规模中文自然语言处理语料

https://mp.weixin.qq.com/s/txlWG1yAFlSMMVNKYssMsw

微软亚洲研究院开源表格数据集TableBank,数据量达41.7万

https://mp.weixin.qq.com/s/dlmzRrAeB-jkhk7rbUrNpg

微软亚洲研究院发布业界最全面的语义分析数据集MSParS


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK