nlp-datasets

github2019-02-19 更新2024-05-31 收录

下载链接：

https://github.com/sinjihn/nlp-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

包含自然语言处理(NLP)领域使用的免费/公共域文本数据集的字母顺序列表。

An alphabetical list of free/public domain text datasets used in the field of Natural Language Processing (NLP).

创建时间：

2019-02-19

原始信息汇总

数据集概述

自然语言处理（NLP）相关数据集列表

以下是按字母顺序排列的自然语言处理（NLP）相关数据集列表，主要包含英文和多语言文本数据。这些数据集大多数为原始非结构化文本数据，如需标注语料库或树库，请参考底部提供的资源。

Apache Software Foundation Public Mail Archives
- 描述：所有公开的Apache Software Foundation邮件档案，截至2011年7月11日，共200GB。
- 链接：http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/
Blog Authorship Corpus
- 描述：2004年8月从blogger.com收集的19,320名博主的帖子，共681,288篇帖子，超过1400万字，大小为298MB。
- 链接：http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
Amazon Fine Food Reviews [Kaggle]
- 描述：截至2012年10月的568,454条亚马逊用户留下的食品评论，大小为240MB。
- 链接：https://www.kaggle.com/snap/amazon-fine-food-reviews
Amazon Reviews
- 描述：斯坦福大学收集的3500万条亚马逊评论，大小为11GB。
- 链接：https://snap.stanford.edu/data/web-Amazon.html
ArXiv
- 描述：档案中的所有论文全文（270GB）+源文件（190GB）。
- 链接：http://arxiv.org/help/bulk_data_s3
ASAP Automated Essay Scoring [Kaggle]
- 描述：本竞赛包含八个论文集，每个论文集由一个提示生成，论文平均长度为150至550字，由7至10年级学生撰写，均手工评分并双评分，大小为100MB。
- 链接：https://www.kaggle.com/c/asap-aes/data
ASAP Short Answer Scoring [Kaggle]
- 描述：每个数据集由一个提示生成，选定响应平均长度为50字，由10年级学生主要撰写，所有响应均手工评分并双评分，大小为35MB。
- 链接：https://www.kaggle.com/c/asap-sas/data
Classification of political social media
- 描述：政治社交媒体消息根据内容分类，大小为4MB。
- 链接：https://www.crowdflower.com/data-for-everyone/
CLiPS Stylometry Investigation (CSI) Corpus
- 描述：每年扩充的学生文本语料库，包含两种体裁：论文和评论，主要用于文体学研究，其他应用亦可，需申请。
- 链接：http://www.clips.uantwerpen.be/datasets/csi-corpus
ClueWeb09 FACC
- 描述：ClueWeb09带Freebase注释，大小为72GB。
- 链接：http://lemurproject.org/clueweb09/FACC1/
ClueWeb11 FACC
- 描述：ClueWeb11带Freebase注释，大小为92GB。
- 链接：http://lemurproject.org/clueweb12/FACC1/
Common Crawl Corpus
- 描述：由超过50亿个网页组成的网络爬虫数据，大小为541TB。
- 链接：http://aws.amazon.com/de/datasets/common-crawl-corpus/
Cornell Movie Dialog Corpus
- 描述：包含大量元数据丰富的虚构对话，从原始电影剧本中提取，包含220,579次对话，涉及10,292对电影角色，617部电影，大小为9.5MB。
- 链接：http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
Corporate messaging
- 描述：关于公司在社交媒体上实际谈论内容的数据分类工作，贡献者被要求将声明分类为信息（关于公司或其活动的客观声明）、对话（回复用户等）或行动（请求投票或请求用户点击链接等），大小为600KB。
- 链接：http://aws.amazon.com/de/datasets/common-crawl-corpus/
Crosswikis
- 描述：英文短语到相关维基百科文章的数据库，大小为11GB。
- 链接：http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/
DBpedia
- 描述：从维基百科中提取的结构化信息，并使其在网络上可用，大小为17GB。
- 链接：http://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedic
Death Row
- 描述：自1984年以来被执行的每个囚犯的最后遗言，以HTML表格形式在线提供。
- 链接：http://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html
Del.icio.us
- 描述：delicious.com上的125万书签，大小为170MB。
- 链接：http://arvindn.livejournal.com/116137.html
Disasters on social media
- 描述：10,000条推文，标注是否提及灾难事件，大小为2MB。
- 链接：https://www.crowdflower.com/data-for-everyone/
Economic News Article Tone and Relevance
- 描述：判断新闻文章是否与美国经济相关，如果是，则判断文章的语气，日期范围从1951年到2014年，大小为12MB。
- 链接：https://www.crowdflower.com/data-for-everyone/
Enron Email Data
- 描述：包含1,227,255封电子邮件，493,384个附件，涵盖151个保管人，大小为210GB。
- 链接：http://aws.amazon.com/de/datasets/enron-email-data/
Event Registry
- 描述：实时访问来自全球100,000家新闻出版商的新闻文章的免费工具，提供API。
- 链接：http://eventregistry.org/
Examiner.com - Spam Clickbait News Headlines [Kaggle]
- 描述：2010年至2015年间由现已关闭的点击诱饵网站The Examiner发布的300万条新闻标题，大小为200MB。
- 链接：https://www.kaggle.com/therohk/examine-the-examiner
Federal Contracts from the Federal Procurement Data Center (USASpending.gov)
- 描述：联邦采购数据中心在USASpending.gov上找到的所有联邦合同的数据转储，大小为180GB。
- 链接：http://aws.amazon.com/de/datasets/federal-contracts-from-the-federal-procurement-data-center-usaspending-gov/
Flickr Personal Taxonomies
- 描述：个人标签的树形数据集，大小为40MB。
- 链接：http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html
Freebase Data Dump
- 描述：Freebase中所有当前事实和断言的数据转储，大小为26GB。
- 链接：http://aws.amazon.com/de/datasets/freebase-data-dump/
Freebase Simple Topic Dump
- 描述：Freebase中每个主题的基本识别事实的数据转储，大小为5GB。
- 链接：http://aws.amazon.com/de/datasets/freebase-simple-topic-dump/
Freebase Quad Dump
- 描述：Freebase中所有当前事实和断言的数据转储，大小为35GB。
- 链接：http://aws.amazon.com/de/datasets/freebase-quad-dump/
GigaOM Wordpress Challenge [Kaggle]
- 描述：博客文章、元数据、用户喜欢，大小为1.5GB。
- 链接：https://www.kaggle.com/c/predict-wordpress-likes/data
Google Books Ngrams
- 描述：在亚马逊S3上也可用hadoop格式，大小为2.2TB。
- 链接：http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
Google Web 5gram
- 描述：包含英语单词n-gram及其观察频率计数，大小为24GB。
- 链接：https://catalog.ldc.upenn.edu/LDC2006T13
Gutenberg Ebook List
- 描述：带注释的电子书列表，大小为2MB。
- 链接：http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs
Hansards text chunks of Canadian Parliament
- 描述：加拿大第36届议会的官方记录（Hansards）中的130万对对齐文本块（句子或更小的片段），大小为82MB。
- 链接：http://www.isi.edu/natural-language/download/hansard/
Harvard Library
- 描述：哈佛图书馆持有的超过1200万条书目记录，包括书籍、期刊、电子资源、手稿、档案材料、乐谱、音频、视频和其他材料，大小为4GB。
- 链接：http://library.harvard.edu/open-metadata#Harvard-Library-Bibliographic-Dataset
Hate speech identification
- 描述：贡献者查看简短文本并识别其是否包含仇恨言论、具有攻击性但不含仇恨言论，或根本不具有攻击性。包含近15,000行，每行文本有三个贡献者判断，大小为3MB。
- 链接：https://github.com/t-davidson/hate-speech-and-offensive-language
Hillary Clinton Emails [Kaggle]
- 描述：克林顿的近7,000页经过大量编辑的电子邮件，大小为12MB。
- 链接：https://www.kaggle.com/kaggle/hillary-clinton-emails
Historical Newspapers Yearly N-grams and Entities Dataset
- 描述：来自英国报纸档案馆语料库的一个子集的1,000,000个最频繁的1-, 2-, 和3-grams的年使用时间序列，以及与维基百科链接的100,000个最频繁的命名实体的年使用时间序列，以及数据集中包含的所有文章和报纸的列表，大小为3.1GB。
- 链接：https://data.bris.ac.uk/data/dataset/dobuvuu00mh51q773bo8ybkdz
Historical Newspapers Daily Word Time Series Dataset
- 描述：1836年至1922年间87年的英国和美国历史报纸中25,000个最频繁单词的每日使用时间序列，大小为2.7GB。
- 链接：https://datadryad.org/resource/doi:10.5061/dryad.nh775
Home Depot Product Search Relevance [Kaggle]
- 描述：包含Home Depot网站上的多个产品和真实客户搜索词。挑战是预测提供的搜索词和产品组合的相关性得分。为了创建地面实况标签，Home Depot将搜索/产品对众包给多个人类评分者，大小为65MB。
- 链接：https://www.kaggle.com/c/home-depot-product-search-relevance/data
Identifying key phrases in text
- 描述：问题/答案对+上下文；上下文被判断是否与问题/答案相关，大小为8MB。
- 链接：https://www.crowdflower.com/data-for-everyone/
Jeopardy
- 描述：216,930个过去的Jeopardy问题存档，大小为53MB

搜集汇总

数据集介绍

构建方式

nlp-datasets是一个包含多种自然语言处理（NLP）任务所需文本数据的综合数据集。该数据集的构建主要通过网络爬虫收集公开可用的文本数据，包括但不限于邮件存档、博客文章、产品评论、学术论文等，涵盖了从原始未结构化文本到经过注释的语料库等多种类型。

特点

该数据集的特点在于其内容的多样性，既包含了大量的未加工的原始文本数据，也提供了经过人工注释的语料库，适用于不同的NLP研究与应用场景。此外，数据集包含了多种语言的数据，不仅限于英语，也涵盖了其他语言的数据资源，为多语言NLP研究提供了便利。

使用方法

用户可以通过数据集提供的URL链接直接访问和下载数据。对于部分大型数据集，可能需要通过特定的平台或工具进行查询和获取。在使用数据集时，应遵循相应的数据使用条款和版权规定，确保合法合规地利用数据资源。

背景与挑战

背景概述

nlp-datasets是一个包含自然语言处理（NLP）领域免费/公共领域文本数据集的列表。该数据集涵盖了从原始的非结构化文本数据到经过注释的语料库和树库等多种类型的数据资源，旨在为NLP研究提供丰富多样的文本材料。自其创建以来，nlp-datasets已经成为推动自然语言处理领域发展的重要资源之一，吸引了众多研究人员和机构的使用和引用。

当前挑战

尽管nlp-datasets为NLP研究提供了宝贵的资源，但在使用过程中也存在一些挑战。首先，数据集的多样性和规模带来了数据清洗和处理的挑战，特别是在构建统一的数据处理流程时。其次，由于数据集的来源广泛，确保数据的质量和一致性也是一个挑战。此外，对于特定任务，如文本分类、情感分析等，选择合适的数据集和特征工程方法也具有一定的难度。

常用场景

经典使用场景

nlp-datasets数据集是一个全面收录自然语言处理领域公开数据集的资源库。其经典使用场景在于为研究者提供丰富的文本数据资源，包括但不限于邮件档案、博客文章、产品评论、论文摘要等，这些数据被广泛用于语言模型训练、文本分类、情感分析、信息抽取等自然语言处理任务。

解决学术问题

该数据集解决了自然语言处理领域中的多个学术研究问题，如语言模型预训练中的数据匮乏问题、文本分类中的标注数据不足问题、情感分析中的多语言处理问题等。通过提供多样化的文本数据，nlp-datasets极大地推动了相关学术研究的进展。

衍生相关工作

基于nlp-datasets，衍生出了一系列相关的经典工作，如构建了大规模的预训练语言模型、开发了一系列文本挖掘工具和算法、发表了众多高水平的研究论文等，这些成果进一步推动了自然语言处理领域的技术创新和应用发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集