nlp-datasets

github2019-04-14 更新2024-05-31 收录

下载链接：

https://github.com/nahidalam/nlp-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

包含自然语言处理(NLP)使用的免费/公共领域文本数据集的字母顺序列表。大多数数据集包含原始非结构化文本数据，如果需要注释的语料库或树库，请参考底部来源。

An alphabetical list of free/public domain text datasets for natural language processing (NLP) usage. Most datasets contain raw unstructured text data. For annotated corpora or treebanks, please refer to the sources listed at the bottom.

创建时间：

2017-10-29

原始信息汇总

数据集概述

自然语言处理相关数据集列表

Apache Software Foundation Public Mail Archives
- 描述：所有公开的Apache Software Foundation邮件存档，截至2011年7月11日。
- 大小：200 GB
Blog Authorship Corpus
- 描述：2004年8月从blogger.com收集的19,320名博主的帖子。
- 大小：298 MB
Amazon Fine Food Reviews [Kaggle]
- 描述：2012年10月前亚马逊用户留下的568,454条食品评论。
- 大小：240 MB
Amazon Reviews
- 描述：斯坦福大学收集的3500万亚马逊评论。
- 大小：11 GB
ArXiv
- 描述：arXiv上的所有论文全文及源文件。
- 大小：270 GB（全文）+ 190 GB（源文件）
ASAP Automated Essay Scoring [Kaggle]
- 描述：此竞赛包含八个论文集，每集由单一提示生成。
- 大小：100 MB
ASAP Short Answer Scoring [Kaggle]
- 描述：每个数据集由单一提示生成，平均长度为50字。
- 大小：35 MB
Classification of political social media
- 描述：政治社交媒体消息的内容分类。
- 大小：4 MB
CLiPS Stylometry Investigation (CSI) Corpus
- 描述：每年扩充的学生文本，主要用于文体学研究。
- 大小：（请求获取）
ClueWeb09 FACC
- 描述：ClueWeb09数据集，带有Freebase注释。
- 大小：72 GB
ClueWeb11 FACC
- 描述：ClueWeb11数据集，带有Freebase注释。
- 大小：92 GB
Common Crawl Corpus
- 描述：包含超过50亿网页的网络爬虫数据。
- 大小：541 TB
Cornell Movie Dialog Corpus
- 描述：从原始电影剧本中提取的大量元数据丰富的虚构对话集合。
- 大小：9.5 MB
Corporate messaging
- 描述：关于公司在社交媒体上实际讨论内容的数据分类。
- 大小：600 KB
Crosswikis
- 描述：英语短语与相关维基百科文章的数据库。
- 大小：11 GB
DBpedia
- 描述：从维基百科中提取的结构化信息，使其在网络上可用。
- 大小：17 GB
Death Row
- 描述：自1984年以来被执行的每个囚犯的最后遗言。
- 大小：（HTML表格）
Del.icio.us
- 描述：delicious.com上的125万书签。
- 大小：（未提供）
Disasters on social media
- 描述：10,000条带有灾难事件标注的推文。
- 大小：2 MB
Economic News Article Tone and Relevance
- 描述：判断新闻文章是否与美国经济相关及其语气。
- 大小：12 MB
Enron Email Data
- 描述：包含1,227,255封电子邮件，涵盖151个保管人。
- 大小：210 GB
Event Registry
- 描述：提供实时访问全球100,000家新闻出版商的新闻文章的免费工具。
- 大小：（查询工具）
Federal Contracts from the Federal Procurement Data Center (USASpending.gov)
- 描述：美国联邦采购数据中心的所有联邦合同数据。
- 大小：180 GB
Flickr Personal Taxonomies
- 描述：个人标签的树形数据集。
- 大小：40 MB
Freebase Data Dump
- 描述：Freebase中的所有当前事实和断言的数据转储。
- 大小：26 GB
Freebase Simple Topic Dump
- 描述：Freebase中每个主题的基本识别事实的数据转储。
- 大小：5 GB
Freebase Quad Dump
- 描述：Freebase中的所有当前事实和断言的数据转储。
- 大小：35 GB
GigaOM Wordpress Challenge [Kaggle]
- 描述：博客文章、元数据、用户点赞。
- 大小：1.5 GB
Google Books Ngrams
- 描述：Google图书中的n-gram数据，也可在Amazon S3上以Hadoop格式提供。
- 大小：2.2 TB
Google Web 5gram
- 描述：包含英语单词n-gram及其观察频率计数。
- 大小：24 GB
Gutenberg Ebook List
- 描述：电子书的注释列表。
- 大小：2 MB
Hansards text chunks of Canadian Parliament
- 描述：加拿大议会官方记录（Hansards）中的130万对对齐文本块。
- 大小：82 MB
Harvard Library
- 描述：哈佛图书馆持有的超过1200万条书目记录，包括书籍、期刊、电子资源等。
- 大小：4 GB
Hate speech identification
- 描述：查看短文本并识别是否包含仇恨言论、冒犯性言论或完全不冒犯。
- 大小：3 MB
Hillary Clinton Emails [Kaggle]
- 描述：克林顿的近7000页经过大量编辑的电子邮件。
- 大小：12 MB
Home Depot Product Search Relevance [Kaggle]
- 描述：包含Home Depot网站上的多个产品和真实客户搜索词。
- 大小：65 MB
Identifying key phrases in text
- 描述：问题/答案对+上下文；上下文是否与问题/答案相关。
- 大小：8 MB
Jeopardy
- 描述：216,930个过去的Jeopardy问题存档。
- 大小：53 MB
Machine Translation of European Languages
- 描述：欧洲语言的机器翻译数据。
- 大小：612 MB
Material Safety Datasheets
- 描述：230,000份材料安全数据表。
- 大小：3 GB
MCTest
- 描述：用于研究机器文本理解的660个故事及其相关问题。
- 大小：1 MB
NEGRA
- 描述：德语报纸文本的语法标注语料库。
- 大小：（请求获取）
News article / Wikipedia page pairings
- 描述：阅读短文并询问哪两个维基百科文章与之最匹配。
- 大小：6 MB
NIPS2015 Papers (version 2) [Kaggle]
- 描述：NIPS2015论文的全文。
- 大小：335 MB
NYTimes Facebook Data
- 描述：所有纽约时报的Facebook帖子。
- 大小：5 MB
Objective truths of sentences/concept pairs
- 描述：阅读包含两个概念的句子，并判断句子是否可能为真。
- 大小：700 KB
Open Library Data Dumps
- 描述：Open Library中所有记录的所有修订的数据转储。
- 大小：16 GB
Personae Corpus
- 描述：用于作者归属和个性预测实验的145篇荷兰语论文。
- 大小：（请求获取）
Reddit Comments
- 描述：截至2015年7月的所有公开Reddit评论。
- 大小：250 GB
Reddit Comments (May ‘15) [Kaggle]
- 描述：上述数据集的子集。
- 大小：8 GB
Reddit Submission Corpus
- 描述：2006年1月至2015年8月31日所有公开的Reddit提交内容。
- 大小：42 GB
Reuters Corpus
- 描述：用于研究和开发自然语言处理、信息检索和机器学习系统的大型路透社新闻故事集合。
- 大小：2.5 GB
SaudiNewsNet
- 描述：从各种在线沙特报纸提取的31,030篇阿拉伯语新闻文章及其元数据。
- 大小：2 MB
SMS Spam Collection
- 描述：5,574条英语、真实且未编码的SMS消息，标记为合法（ham）或垃圾邮件（spam）。
- 大小：200 KB
SouthparkData
- 描述：包含季节、剧集、角色和台词的脚本信息。
- 大小：3.6 MB
Stackoverflow
- 描述：730万条Stackoverflow问题及其他Stack Exchange。
- 大小：（查询工具）
Twitter Cheng-Caverlee-Lee Scrape
- 描述：2009年9月至2010年1月期间的推文，地理位置定位。
- 大小：400 MB
Twitter New England Patriots Deflategate sentiment
- 描述：2015年超级碗前关于泄气足球和爱国者队是否作弊的大量讨论的Twitter情绪分析。
- 大小：2 MB
Twitter Progressive issues sentiment analysis
- 描述：关于各种左倾问题的推文，如堕胎合法化、女权主义、希拉里·克林顿等，分类为支持、反对或中立。
- 大小：600 KB
Twitter Sentiment140
- 描述：与品牌/关键词相关的推文。
- 大小：77 MB
Twitter sentiment analysis: Self-driving cars
- 描述：阅读推文并将其分类为非常积极、稍微积极、中性、稍微消极或非常消极。
- 大小：1 MB
Twitter Tokyo Geolocated Tweets
- 描述：东京的200,000条推文。
- 大小：47 MB
Twitter UK Geolocated Tweets
- 描述：英国的170,000条推文。
- 大小：47 MB
Twitter USA Geolocated Tweets
- 描述：美国的200,000条推文。
- 大小：45 MB
Twitter US Airline Sentiment [Kaggle]
- 描述：关于美国主要航空公司问题的情绪分析工作。
- 大小：2.5 MB
U.S. economic performance based on news articles
- 描述：新闻文章标题和摘要对美国经济的相关性排名。
- 大小：5 MB
Wesbury Lab Usenet Corpus
- 描述：2005-2010年英语新闻组的47,860个匿名帖子汇编。
- 大小：40 GB
Wesbury Lab Wikipedia Corpus
- 描述：2010年4月对英语维基百科文章的快照，处理后移除了所有链接和无关材料。
- 大小：1.8 GB
Wikipedia Extraction (WEX)
- 描述：英语维基百科的处理转储。
- 大小：66 GB
Wikipedia XML Data
- 描述：所有维基媒体站点的完整副本，形式为wikitext源和嵌入XML的元数据。
- 大小：500 GB
Yahoo! Answers Comprehensive Questions and Answers
- 描述：截至2007年10月25日的雅虎答案语料库，包含4,483,032个问题及其答案。
- 大小：3.6 GB
Yahoo! Answers consisting of questions asked in French
- 描述：2006年至2015年雅虎答案语料库的子集，包含170万个用法语提出的问题及其答案。
- 大小：3.8 GB
Yahoo! Answers Manner Questions
- 描述：2007年10月25日转储的雅虎答案语料库子集，选定其语言特性。
- 大小：104 MB
Yahoo! HTML Forms Extracted from Publicly Available Webpages
- 描述：包含复杂HTML表单的小样本页面，包含267万个复杂表单。
- 大小：50+ GB
Yahoo! Metadata Extracted from Publicly Available Web Pages
- 描述：1亿个RDF数据三元组。
- 大小：2 GB
Yahoo N-Gram Representations
- 描述：此数据集包含n-gram表示。
- 大小：2.6 GB
Yahoo! N-Grams, version 2.0
- 描述：从1460万份文档中提取的n-grams（n = 1到5）。
- 大小：12 GB
Yahoo! Search Logs with Relevance Judgments
- 描述：匿名的雅虎搜索日志与相关性判断。
- 大小：1.3 GB
Yahoo! Semantically Annotated Snapshot of the English Wikipedia
- 描述：2006年11月4日处理的英语维基百科，使用多种公开可用的NLP工具。
- 大小：6 GB
Yelp
- 描述：包括餐厅排名和220万条评论。
- 大小：（请求获取）
Youtube
- 描述：170万个YouTube视频描述。
- 大小：（torrent）

搜集汇总

数据集介绍

构建方式

nlp-datasets是一个包含自然语言处理（NLP）领域内众多公开数据集的列表，涵盖了从原始未结构化文本数据到经过注释的语料库和树库等。该数据集的构建主要通过搜集和整理互联网上可公开获取的NLP相关数据资源，包括但不限于邮件存档、博客文章、产品评论、新闻文章、社交媒体帖子等。

使用方法

用户可以通过数据集中的链接直接访问和下载所需的数据集。对于部分受版权保护的数据集，可能需要遵守特定的使用条款或申请使用权限。在使用时，应确保遵守数据集的许可协议，并在必要时引用数据集的来源。

背景与挑战

背景概述

nlp-datasets是一个自然语言处理（NLP）领域的数据集列表，旨在为研究人员提供丰富的文本资源。该数据集涵盖了从邮件存档、博客文章到社交媒体评论等多样化的文本数据，创建时间不等，由多个研究人员和机构共同维护。它不仅包含了原始的非结构化文本数据，还包含了经过注释的语料库和树库，对NLP领域的研究产生了深远影响。

当前挑战

nlp-datasets在构建和利用过程中面临诸多挑战。首先，多样化的数据源带来了数据质量和一致性的挑战。其次，由于数据集规模庞大，数据存储和处理成为一大难题。此外，数据集的标注和注释质量直接关系到NLP模型的训练效果，因此确保标注的准确性和一致性也是一项重要挑战。

常用场景

经典使用场景

nlp-datasets数据集被广泛用于自然语言处理领域，其经典使用场景包括构建语言模型、文本分类、情感分析、信息检索等任务。该数据集集合了多种类型的文本数据，如邮件档案、博客文章、产品评论等，为研究人员提供了丰富的文本资源，以便于开展各种NLP相关的研究和开发工作。

解决学术问题

该数据集解决了学术研究中对于大规模、多样化文本数据的需求问题。通过提供不同来源和类型的文本数据，nlp-datasets有助于研究人员克服数据不足的难题，进而能够在文本分析、机器翻译、情感分析等领域取得更有意义的成果。此外，它还促进了跨语言和跨文化的研究，为全球化背景下的NLP研究提供了支持。

实际应用

在实际应用中，nlp-datasets的数据被用于改善机器翻译系统、构建智能客服、分析社交媒体情绪以及进行网络内容审核等。这些应用场景展示了该数据集在商业、服务和监管等领域的实用价值，为实际问题的解决提供了数据支撑。

数据集最近研究