nlp-datasets

github2023-07-06 更新2024-05-31 收录

下载链接：

https://github.com/Danny2097/nlp-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

包含自然语言处理(NLP)相关文本数据集的字母顺序列表，这些数据集均为免费/公共领域，适用于NLP研究。

An alphabetically ordered list of natural language processing (NLP) related text datasets, all of which are free/public domain and suitable for NLP research.

创建时间：

2019-10-16

原始信息汇总

数据集概述

自然语言处理（NLP）相关数据集列表

英文及多语言数据集

Apache Software Foundation Public Mail Archives
- 描述：所有公开的Apache Software Foundation邮件存档，截至2011年7月11日。
- 大小：200 GB
Blog Authorship Corpus
- 描述：2004年8月从blogger.com收集的19,320名博主的帖子。
- 大小：298 MB
Amazon Fine Food Reviews [Kaggle]
- 描述：截至2012年10月的568,454条亚马逊食品评论。
- 大小：240 MB
Amazon Reviews
- 描述：斯坦福大学收集的3500万亚马逊评论。
- 大小：11 GB
ArXiv
- 描述：档案中的所有论文全文及源文件。
- 大小：270 GB + 190 GB
CLiPS Stylometry Investigation (CSI) Corpus
- 描述：每年扩充的学生文本，主要用于风格学研究。
- 大小：需请求
ClueWeb09 FACC
- 描述：带有Freebase注释的ClueWeb09。
- 大小：72 GB
ClueWeb11 FACC
- 描述：带有Freebase注释的ClueWeb11。
- 大小：92 GB
Common Crawl Corpus
- 描述：超过50亿网页的网络爬虫数据。
- 大小：541 TB
Cornell Movie Dialog Corpus
- 描述：从原始电影剧本中提取的大量元数据丰富的虚构对话集合。
- 大小：9.5 MB
Crosswikis
- 描述：英文短语与相关维基百科文章的数据库。
- 大小：11 GB
DBpedia
- 描述：从维基百科提取的结构化信息。
- 大小：17 GB
Death Row
- 描述：自1984年以来被执行的每位囚犯的最后遗言。
- 大小：HTML表格
Diplomacy
- 描述：来自12场外交游戏的17,000条对话消息，注释了真实性。
- 大小：3 MB
Elsevier OA CC-BY Corpus
- 描述：40,001篇开放获取全文科学文章，包含完整元数据。
- 大小：963 MB
Enron Email Data
- 描述：包含1,227,255封电子邮件和493,384个附件，覆盖151个保管人。
- 大小：210 GB
Event Registry
- 描述：实时访问来自全球100,000家新闻出版商的新闻文章的免费工具。
- 大小：查询工具
Examiner.com - Spam Clickbait News Headlines [Kaggle]
- 描述：2010年至2015年间由现已关闭的点击诱饵网站The Examiner发布的300万条新闻标题。
- 大小：200 MB
Federal Contracts from the Federal Procurement Data Center (USASpending.gov)
- 描述：联邦采购数据中心的所有联邦合同数据。
- 大小：180 GB
Flickr Personal Taxonomies
- 描述：个人标签的树形数据集。
- 大小：40 MB
Freebase Data Dump
- 描述：Freebase中的所有当前事实和断言的数据转储。
- 大小：26 GB
Freebase Simple Topic Dump
- 描述：Freebase中每个主题的基本识别事实的数据转储。
- 大小：5 GB
Freebase Quad Dump
- 描述：Freebase中的所有当前事实和断言的数据转储。
- 大小：35 GB
GigaOM Wordpress Challenge [Kaggle]
- 描述：博客帖子、元数据、用户点赞。
- 大小：1.5 GB
Google Books Ngrams
- 描述：Google图书中的n-grams数据，也可在Amazon S3上以Hadoop格式提供。
- 大小：2.2 TB
Google Web 5gram
- 描述：包含英语单词n-grams及其观察频率计数。
- 大小：24 GB
Gutenberg Ebook List
- 描述：电子书的注释列表。
- 大小：2 MB
Gutenberg Standardized Corpus
- 描述：标准化Project Gutenberg语料库，包含55,905本书。
- 大小：3GB counts + 18GB tokens
Hansards text chunks of Canadian Parliament
- 描述：加拿大第36届议会的官方记录（Hansards）中的130万对对齐文本块。
- 大小：82 MB
Harvard Library
- 描述：哈佛图书馆持有的超过1200万条书目记录。
- 大小：4 GB
Hate speech identification
- 描述：近15,000行文本，每行文本有三个贡献者的判断。
- 大小：3 MB
Hillary Clinton Emails [Kaggle]
- 描述：克林顿的近7,000页电子邮件。
- 大小：12 MB
Historical Newspapers Yearly N-grams and Entities Dataset
- 描述：英国报纸档案语料库中1,000,000个最频繁的1-, 2-, 和 3-grams的年使用时间序列，以及100,000个最频繁的命名实体。
- 大小：3.1 GB
Historical Newspapers Daily Word Time Series Dataset
- 描述：1836年至1922年间87年的英国和美国历史报纸中25,000个最频繁单词的每日使用时间序列。
- 大小：2.7 GB
Home Depot Product Search Relevance [Kaggle]
- 描述：Home Depot网站上的多个产品和真实客户搜索词。
- 大小：65 MB
Identifying key phrases in text
- 描述：问题/答案对+上下文；上下文被判断是否与问题/答案相关。
- 大小：8 MB
Jeopardy
- 描述：216,930个过去的Jeopardy问题。
- 大小：53 MB
200k English plaintext jokes
- 描述：来自各种来源的208,000个纯文本笑话。
- 大小：未提供
Machine Translation of European Languages
- 描述：欧洲语言的机器翻译。
- 大小：612 MB
Material Safety Datasheets
- 描述：230,000份材料安全数据表。
- 大小：3 GB
Million News Headlines - ABC Australia [Kaggle]
- 描述：ABC新闻澳大利亚2003年至2017年间发布的130万条新闻标题。
- 大小：56 MB
Millions of News Article URLs
- 描述：2014年10月至2015年4月期间来自950多家英语新闻网站的230万条新闻文章URL。
- 大小：101 MB
News Headlines of India - Times of India [Kaggle]
- 描述：《印度时报》2001年至2017年间发布的270万条新闻标题。
- 大小：185 MB
News article / Wikipedia page pairings
- 描述：贡献者阅读简短文章并被问及它与哪个维基百科文章最匹配。
- 大小：6 MB
NIPS2015 Papers (version 2) [Kaggle]
- 描述：所有NIPS2015论文的全文。
- 大小：335 MB
NYTimes Facebook Data
- 描述：所有纽约时报的Facebook帖子。
- 大小：5 MB
One Week of Global News Feeds [Kaggle]
- 描述：2017年8月一周内全球发布的140万篇文章的新闻事件数据集。
- 大小：115 MB
Objective truths of sentences/concept pairs
- 描述：贡献者阅读包含两个概念的句子，并被问及句子是否可能为真，并按1-5级评分。
- 大小：700 KB
Open Library Data Dumps
- 描述：Open Library中所有记录的所有修订的数据转储。
- 大小：16 GB
Personae Corpus
- 描述：用于作者归属和个性预测实验的145篇荷兰语论文。
- 大小：需请求
Reddit Comments
- 描述：截至2015年7月的所有公开Reddit评论。
- 大小：250 GB
Reddit Comments (May ‘15) [Kaggle]
- 描述：上述数据集的子集。
- 大小：8 GB
Reddit Submission Corpus
- 描述：2006年1月至2015年8月31日的所有公开Reddit提交。
- 大小：42 GB
Reuters Corpus
- 描述：用于自然语言处理、信息检索和机器学习系统研究和开发的大型路透社新闻故事集合。
- 大小：2.5 GB
SMS Spam Collection
- 描述：5,574条英语、真实且非编码的SMS消息，标记为合法（ham）或垃圾邮件（spam）。
- 大小：200 KB
SouthparkData
- 描述：包含季节、剧集、角色和台词的脚本信息。
- 大小：3.6 MB
Stanford Question Answering Dataset (SQUAD 2.0)
- 描述：阅读理解数据集，包含由众包工作者在维基百科文章上提出的问题，答案为阅读段落中的文本段落，或问题可能无法回答。
- 大小：未提供
Stackoverflow
- 描述：730万StackOverflow问题和其他StackExchange网站。
- 大小：查询工具
Twitter Cheng-Caverlee-Lee Scrape
- 描述：2009年9月至2010年1月期间的地理定位推文。
- 大小：400 MB
Twitter New England Patriots Deflategate sentiment
- 描述：2015年超级碗前关于泄气足球和爱国者队是否作弊的大量讨论的Twitter情绪数据集。
- 大小：2 MB
Twitter Progressive issues sentiment analysis
- 描述：关于各种左倾问题（如堕胎合法化、女权主义、希拉里·克林顿等）的推文，分类为支持、反对或中立。
- 大小：600 KB
Twitter Sentiment140
- 描述：与品牌/关键词相关的推文。
- 大小：77 MB
Twitter sentiment analysis: Self-driving cars
- 描述：贡献者阅读推文并将其分类为非常积极、稍微积极、中立、稍微消极或非常消极。
- 大小：1 MB
Twitter Elections Integrity
- 描述：2016年美国选举期间的所有可疑推文和媒体。
- 大小：1.4 GB
Twitter Tokyo Geolocated Tweets
- 描述：东京的20万条推文。
- 大小：47 MB
Twitter UK Geolocated Tweets
- 描述：英国的17万条推文。
- 大小：47 MB
Twitter USA Geolocated Tweets
- 描述：美国的20万条推文。
- 大小：45 MB
Twitter US Airline Sentiment [Kaggle]
- 描述：关于美国主要航空公司问题的情绪分析工作。
- 大小：2.5 MB
U.S. economic performance based on news articles
- 描述：新闻文章标题和摘录，排名是否与美国经济相关。
- 大小：5 MB
Urban Dictionary Words and Definitions [Kaggle]
- 描述：2016年5月之前所有Urban Dictionary单词、定义、作者、投票的清理CSV语料库。
- 大小：238 MB
Wesbury Lab Usenet Corpus
- 描述：2005-2010年间来自47,860个英语新闻组的匿名汇编帖子。
- 大小：40 GB
Wesbury Lab Wikipedia Corpus
- 描述：2010年4月对英语维基百科文章的快照，处理以删除所有链接和无关材料。
- 大小：1.8 GB
WorldTree Corpus of Explanation Graphs for Elementary Science Questions
- 描述：为美国公开可用的小学科学考试问题构建的解释图、解释角色评级和相关半结构化表格存储。
- 大小：8 MB
Wikipedia Extraction (WEX)
- 描述：英语维基百科的处理转储。
- 大小：66 GB
Wikipedia XML Data
- 描述：所有维基媒体维基的完整副本，以wikitext源和嵌入在XML中的元数据形式。
- 大小：500 GB
Yahoo! Answers Comprehensive Questions and Answers
- 描述：截至2007年10月25日的Yahoo! Answers语料库。
- 大小：3.6 GB
Yahoo! Answers consisting of questions asked in French
- 描述：2006年至2015年间由法语提问的Yahoo! Answers语料库的子集。
- 大小：3.8 GB
Yahoo! Answers Manner Questions
- 描述：2007年10月25日转储的Yahoo! Answers语料库的子集，选定用于其语言特性。
- 大小：104 MB
Yahoo! HTML Forms Extracted from Publicly Available Webpages
- 描述：从公开可用的网页中提取的小样本复杂HTML表单。
- 大小：50+ GB
Yahoo! Metadata Extracted from Publicly Available Web Pages
- 描述：1亿个RDF数据三元组。
- 大小：2 GB
Yahoo N-Gram Representations
- 描述：n-gram表示数据集。
- 大小：2.6 GB
Yahoo! N-Grams, version 2.0
- 描述：从14.6百万文档中提取的n-grams（n=1至5）。
- 大小：12 GB
Yahoo! Search Logs with Relevance Judgments
- 描述：带有相关性判断的匿名Yahoo!搜索日志。
- 大小：1.3 GB
Yahoo! Semantically Annotated Snapshot of the English Wikipedia
- 描述：2006年11月4日处理的英语维基百科的语义注释快照。
- 大小：6 GB
Yelp
- 描述：包括餐厅排名和220万条评论。
- 大小：需请求
Youtube
- 描述：170万个YouTube视频描述。
- 大小：未提供

以上数据集涵盖了从邮件存档、社交媒体、新闻文章到科学论文

搜集汇总

数据集介绍

构建方式

nlp-datasets 数据集通过整合多个公开的自然语言处理（NLP）领域的数据源构建而成。这些数据源包括来自 Apache 软件基金会的邮件存档、博客文章、亚马逊产品评论、arXiv 论文、维基百科数据、新闻文章、社交媒体内容等。数据集涵盖了从结构化到非结构化的多种文本形式，旨在为 NLP 研究提供丰富的语料库支持。数据集的构建过程依赖于公开的数据集平台（如 Kaggle、AWS）、学术机构的数据发布以及社区贡献，确保了数据的多样性和广泛性。

特点

nlp-datasets 数据集的特点在于其多样性和规模。数据集涵盖了多种语言和领域，包括英语、多语言文本、社交媒体内容、新闻文章、学术论文等。数据形式从简单的文本片段到复杂的结构化数据（如 Freebase 的知识图谱）均有涉及。此外，数据集还包含大量带有注释的语料库，如情感分析、问答对、命名实体识别等任务所需的标注数据。这些特点使得该数据集适用于多种 NLP 任务，如文本分类、机器翻译、情感分析、信息抽取等。

使用方法

nlp-datasets 数据集的使用方法灵活多样，适用于多种 NLP 研究和应用场景。研究人员可以通过下载数据集中的特定子集，针对不同的任务进行实验。例如，使用亚马逊评论数据进行情感分析，或利用维基百科数据进行知识图谱构建。数据集中的部分子集（如 Kaggle 数据集）还提供了详细的标注和任务描述，便于直接用于模型训练和评估。此外，数据集中的 API 接口（如 Event Registry）支持实时数据访问，适用于动态数据分析和应用开发。

背景与挑战

背景概述

nlp-datasets是一个专注于自然语言处理（NLP）领域的公开数据集集合，涵盖了从邮件存档、博客文章、商品评论到新闻文章、社交媒体数据等多种类型的文本数据。该数据集由多个研究机构和数据平台共同维护，旨在为NLP研究者提供丰富的数据资源，以支持文本分类、情感分析、机器翻译等任务的研究与开发。其数据来源广泛，包括Apache软件基金会、斯坦福大学、Kaggle等知名机构，涵盖了从2004年至2017年间的多种文本数据。这些数据不仅为NLP领域的研究提供了坚实的基础，还推动了相关技术的快速发展。

当前挑战

nlp-datasets在解决NLP领域的核心问题时，面临诸多挑战。首先，数据集的多样性和规模庞大，导致数据预处理和标注的复杂性增加，尤其是在处理非结构化文本时，如何有效提取有用信息成为一大难题。其次，数据来源的广泛性带来了数据质量和一致性问题，不同数据集的格式、语言和标注标准差异较大，增加了数据整合的难度。此外，构建过程中还需应对数据隐私和版权问题，尤其是在处理社交媒体和用户生成内容时，如何在不侵犯隐私的前提下合法使用数据，是数据集构建者必须解决的伦理和法律挑战。

常用场景

经典使用场景

nlp-datasets 数据集广泛应用于自然语言处理（NLP）领域的研究与开发。其经典使用场景包括文本分类、情感分析、机器翻译、信息检索等任务。例如，Amazon Fine Food Reviews 数据集常用于情感分析，帮助研究者理解用户对产品的评价；Cornell Movie Dialog Corpus 则被用于对话系统的开发，模拟电影角色之间的对话。这些数据集为研究者提供了丰富的文本资源，支持多种NLP任务的实验与验证。

衍生相关工作

nlp-datasets 衍生了许多经典的研究工作。例如，基于 Stanford Question Answering Dataset (SQuAD 2.0)，研究者开发了多种先进的问答模型，如 BERT 和 GPT，这些模型在多个NLP任务中取得了突破性进展。此外，Google Books Ngrams 数据集被用于语言演变的研究，揭示了词汇使用频率随时间变化的规律。这些衍生工作不仅推动了NLP技术的发展，还为语言学、社会学等学科提供了新的研究视角。

数据集最近研究