Apache Software Foundation Public Mail Archives
收藏数据集概述
自然语言处理(NLP)数据集列表
以下是一些用于自然语言处理(NLP)的免费/公共领域数据集,主要包含英文或多语言的文本数据。这些数据集大多数是原始的非结构化文本数据。
-
Apache Software Foundation Public Mail Archives
- 数据量:200 GB
- 描述:所有公开可用的Apache Software Foundation邮件存档,截至2011年7月11日。
-
Blog Authorship Corpus
- 数据量:298 MB
- 描述:包含19,320位博主在2004年8月从blogger.com收集的帖子,共计681,288篇帖子,超过1400万字。
-
Amazon Fine Food Reviews [Kaggle]
- 数据量:240 MB
- 描述:包含截至2012年10月的568,454条亚马逊用户留下的食品评论。
-
Amazon Reviews
- 数据量:11 GB
- 描述:斯坦福大学收集的3500万条亚马逊评论。
-
ArXiv
- 数据量:270 GB(全文)+ 190 GB(源文件)
- 描述:存档中的所有论文全文及源文件。
-
ASAP Automated Essay Scoring [Kaggle]
- 数据量:100 MB
- 描述:此竞赛包含八个论文集,每个集由一个提示生成。选定的论文平均长度为150至550字,由7至10年级学生撰写,并经过手工评分和双评分。
-
ASAP Short Answer Scoring [Kaggle]
- 数据量:35 MB
- 描述:每个数据集由一个提示生成,选定的响应平均长度为50字,主要由10年级学生撰写,并经过手工评分和双评分。
-
Classification of political social media
- 数据量:4 MB
- 描述:政治社交媒体消息按内容分类。
-
CLiPS Stylometry Investigation (CSI) Corpus
- 描述:一个每年扩充的学生文本语料库,包含两种体裁:论文和评论,主要用于文体学研究。
-
ClueWeb09 FACC
- 数据量:72 GB
- 描述:ClueWeb09数据集,带有Freebase注释。
-
ClueWeb11 FACC
- 数据量:92 GB
- 描述:ClueWeb11数据集,带有Freebase注释。
-
Common Crawl Corpus
- 数据量:541 TB
- 描述:由超过50亿个网页组成的网络爬虫数据。
-
Cornell Movie Dialog Corpus
- 数据量:9.5 MB
- 描述:包含从原始电影剧本中提取的大量元数据丰富的虚构对话集合,涉及10,292对电影角色,617部电影。
-
Corporate messaging
- 数据量:600 KB
- 描述:关于公司在社交媒体上实际讨论内容的数据分类任务。
-
Crosswikis
- 数据量:11 GB
- 描述:英语短语与相关维基百科文章的数据库。
-
DBpedia
- 数据量:17 GB
- 描述:从维基百科中提取的结构化信息,并使其在网络上可用。
-
Death Row
- 描述:自1984年以来被执行的每个囚犯的最后话语在线HTML表格。
-
Del.icio.us
- 数据量:170 MB
- 描述:delicious.com上的125万个书签。
-
Disasters on social media
- 数据量:2 MB
- 描述:10,000条带有注释的推文,指示推文是否指涉灾难事件。
-
Economic News Article Tone and Relevance
- 数据量:12 MB
- 描述:判断新闻文章是否与美国经济相关,如果是,文章的语气是什么。日期范围从1951年到2014年。
-
Enron Email Data
- 数据量:210 GB
- 描述:包含1,227,255封电子邮件,涵盖151个保管人。
-
Event Registry
- 描述:提供对全球100,000家新闻出版商实时新闻文章的访问的免费工具。
-
Examiner.com - Spam Clickbait News Headlines [Kaggle]
- 数据量:200 MB
- 描述:2010年至2015年间由现已解散的点击诱饵网站The Examiner发布的300万条众包新闻标题。
-
Federal Contracts from the Federal Procurement Data Center (USASpending.gov)
- 数据量:180 GB
- 描述:联邦采购数据中心在USASpending.gov上找到的所有联邦合同的数据显示。
-
Flickr Personal Taxonomies
- 数据量:40 MB
- 描述:个人标签的树形数据集。
-
Freebase Data Dump
- 数据量:26 GB
- 描述:Freebase中所有当前事实和断言的数据转储。
-
Freebase Simple Topic Dump
- 数据量:5 GB
- 描述:Freebase中每个主题的基本识别事实的数据转储。
-
Freebase Quad Dump
- 数据量:35 GB
- 描述:Freebase中所有当前事实和断言的数据转储。
-
GigaOM Wordpress Challenge [Kaggle]
- 数据量:1.5 GB
- 描述:博客文章、元数据、用户点赞。
-
Google Books Ngrams
- 数据量:2.2 TB
- 描述:Google Books中的Ngrams数据,也可在Amazon S3上以Hadoop格式提供。
-
Google Web 5gram
- 数据量:24 GB
- 描述:包含英语单词n-gram及其观察频率计数。
-
Gutenberg Ebook List
- 数据量:2 MB
- 描述:电子书的注释列表。
-
Hansards text chunks of Canadian Parliament
- 数据量:82 MB
- 描述:加拿大第36届议会官方记录(Hansards)中的130万对对齐文本块(句子或更小的片段)。
-
Harvard Library
- 数据量:4 GB
- 描述:哈佛图书馆持有的超过1200万条书目记录,包括书籍、期刊、电子资源、手稿、档案材料、乐谱、音频、视频和其他材料。
-
Hate speech identification
- 数据量:3 MB
- 描述:包含近15,000行数据,每行文本有三个贡献者判断是否包含仇恨言论、冒犯性言论或完全不冒犯。
-
Hillary Clinton Emails [Kaggle]
- 数据量:12 MB
- 描述:克林顿的近7,000页经过大量编辑的电子邮件。
-
Historical Newspapers Yearly N-grams and Entities Dataset
- 数据量:3.1 GB
- 描述:英国报纸档案库子集中使用频率最高的1,000,000个1-、2-和3-grams的年使用时间序列,以及与维基百科链接的100,000个最频繁命名实体的年使用时间序列,以及数据集中包含的所有文章和报纸的列表。
-
Historical Newspapers Daily Word Time Series Dataset
- 数据量:2.7 GB
- 描述:1836年至1922年间87年的英国和美国历史报纸中使用频率最高的25,000个单词的每日使用时间序列。
-
Home Depot Product Search Relevance [Kaggle]
- 数据量:65 MB
- 描述:包含Home Depot网站上的多个产品和真实客户搜索词。挑战是预测提供的搜索词和产品组合的相关性得分。为了创建地面实况标签,Home Depot将搜索/产品对众包给多个人类评分者。
-
Identifying key phrases in text
- 数据量:8 MB
- 描述:问题/答案对+上下文;上下文被判断是否与问题/答案相关。
-
Jeopardy
- 数据量:53 MB
- 描述:216,930个过去的Jeopardy问题的存档。
-
200k English plaintext jokes
- 数据量:描述:208,000个来自各种来源的纯文本笑话的存档。
-
Machine Translation of European Languages
- 数据量:612 MB
- 描述:欧洲语言的机器翻译。
-
Material Safety Datasheets
- 数据量:3 GB
- 描述:230,000个材料安全数据表。
-
Million News Headlines - ABC Australia [Kaggle]
- 数据量:56 MB
- 描述:ABC新闻澳大利亚从2003年到2017年发布的130万个新闻标题。
-
Millions of News Article URLs
- 数据量:101 MB
- 描述:2014年10月至2015年4月期间,来自950多个英语新闻媒体的230万个新闻文章URL。
-
MCTest
- 数据量:1 MB
- 描述:一个包含660个故事和相关问题的免费可用集合,用于研究机器对文本的理解;用于问答。
-
News Headlines of India - Times of India [Kaggle]
- 数据量:185 MB
- 描述:印度时报从2001年到2017年发布的270万个新闻标题,带有类别。
-
News article / Wikipedia page pairings
- 数据量:6 MB
- 描述:贡献者阅读一篇短文,并被要求判断它最接近哪两个维基百科文章。
-
NIPS2015 Papers (version 2) [Kaggle]
- 数据量:335 MB
- 描述:所有NIPS2015论文的全文。
-
NYTimes Facebook Data
- 数据量:5 MB
- 描述:所有纽约时报的Facebook帖子。
-
One Week of Global News Feeds [Kaggle]
- 数据量:115 MB
- 描述:2017年8月一周内全球20种语言发布的140万篇文章的新闻事件数据集。
-
Objective truths of sentences/concept pairs
- 数据量:700 KB
- 描述:贡献者阅读包含两个概念的句子,例如“狗是一种动物”或“船长可以与主人有相同的含义”。然后他们被要求判断句子是否可能为真,并按1-5的等级评分。
-
Open Library Data Dumps
- 数据量:16 GB
- 描述:Open Library中所有记录的所有修订的数据转储。
-
Personae Corpus
- 描述:用于作者归属和人格预测实验收集的145篇荷兰语论文的语料库。
-
Reddit Comments
- 数据量:250 GB
- 描述:截至2015年7月的所有公开可用Reddit评论,共17亿条评论。
-
Reddit Comments (May ‘15) [Kaggle]
- 数据量:8 GB
- 描述:上述数据集的子集。
-
Reddit Submission Corpus
- 数据量:42 GB
- 描述:2006年1月至2015年8月31日期间所有公开可用的Reddit提交。
-
Reuters Corpus
- 数据量:2.5 GB
- 描述:用于研究和开发自然语言处理、信息检索和机器学习系统的大型路透社新闻故事集合。需要签署协议并通过邮件发送以获取。
-
SMS Spam Collection
- 数据量:200 KB
- 描述:5,574条英语、真实且非编码的短信,标记为合法(ham)或垃圾邮件(spam)。
-
SouthparkData
- 数据量:3.6 MB
- 描述:包含季节、剧集、角色和台词的脚本信息的.csv文件。
-
Stanford Question Answering Dataset (SQUAD 2.0)
- 描述:一个阅读理解数据集,由众包工作者在维基百科文章上提出的问题组成,每个问题的答案是相应阅读段落中的文本段,或者问题可能无法回答。
-
Stackoverflow
- 描述:730万条Stackoverflow问题以及其他StackExchange网站的查询工具。
-
Twitter Cheng-Caverlee-Lee Scrape
- 数据量:400 MB
- 描述:2009年9月至2010年1月期间的推文,地理位置定位。
-
Twitter New England Patriots Deflategate sentiment
- 数据量:2 MB
- 描述:2015年超级碗之前,关于足球泄气事件的大量讨论。这个数据集分析了重要日期的Twitter情绪,以衡量公众对整个事件的看法。
-
Twitter Progressive issues sentiment analysis
- 数据量:600 KB
- 描述:关于各种左倾问题的推文,如堕胎合法化、女权主义、希拉里·克林顿等,分类为支持、反对或中立(以及以上都不是)。
-
Twitter Sentiment140
- 数据量:77 MB
- 描述:与品牌/关键词相关的推文。网站包括论文和研究想法。
-
Twitter sentiment analysis: Self-driving cars
- 数据量:1 MB
- 描述:贡献者阅读推文并将其分类为非常积极、稍微积极、中性、稍微消极或非常消极。他们还被提示标记推文是否与自动驾驶汽车无关。
-
Twitter Elections Integrity
- 数据量:1.4 GB
- 描述:2016年美国选举中的所有可疑推文和媒体。
-
Twitter Tokyo Geolocated Tweets
- 数据量:47 MB
- 描述:东京的20万条推文。
-
Twitter UK Geolocated Tweets
- 数据量:47 MB
- 描述:英国的17万条推文。
-
Twitter USA Geolocated Tweets
- 数据量:45 MB
- 描述:美国的20万条推文。
-
Twitter US Airline Sentiment [Kaggle]
- 数据量:2.5 MB
- 描述:一项关于美国主要航空公司问题的情绪分析工作。Twitter数据是从2015年2月开始抓取的,贡献者被要求首先将推文分类为积极、消极和中性,然后对消极原因进行分类(如“航班延误”或“粗鲁服务”)。
-
U.S. economic performance based on news articles
- 数据量:5 MB
- 描述:新闻文章标题和摘录被排名为是否与美国经济相关。
-
Urban Dictionary Words and Definitions [Kaggle]
- 数据量:238 MB
- 描述:2016年5月所有Urban Dictionary单词、定义、作者、投票的清理CSV语料库,共260万个。
-
Wesbury Lab Usenet Corpus
- 数据量:40 GB
- 描述:2005-2010年期间来自47,860个英语新闻组的匿名汇编帖子。
-
Wesbury Lab Wikipedia Corpus
- 数据量:1.8 GB
- 描述:2010年4月对英语维基百科所有文章的快照。经过处理,去除了所有链接和无关材料(导航文本等)。该语料库是未标记的原始文本。
-
**WorldTree Corpus of Explanation Graph




