nlp-datasets

github2018-11-23 更新2024-05-31 收录

下载链接：

https://github.com/monkeymq/nlp-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

包含自然语言处理(NLP)使用的免费/公共领域文本数据集的字母顺序列表。大多数数据集为原始非结构化文本数据，如需注释语料库或树库，请参考底部来源。

An alphabetical list of free/public domain text datasets for natural language processing (NLP) usage. Most datasets consist of raw unstructured text data. For annotated corpora or treebanks, please refer to the sources listed at the bottom.

创建时间：

2018-04-11

原始信息汇总

数据集概述

自然语言处理（NLP）相关数据集列表

1. Apache Software Foundation Public Mail Archives

描述: 所有公开的Apache Software Foundation邮件档案，截至2011年7月11日。
大小: 200 GB

2. Blog Authorship Corpus

描述: 2004年8月从blogger.com收集的19,320名博主的帖子。
大小: 298 MB

3. Amazon Fine Food Reviews [Kaggle]

描述: 截至2012年10月的568,454条亚马逊食品评论。
大小: 240 MB

4. Amazon Reviews

描述: 斯坦福大学收集的3500万条亚马逊评论。
大小: 11 GB

5. ArXiv

描述: 档案中的所有论文全文及源文件。
大小: 270 GB (全文) + 190 GB (源文件)

6. ASAP Automated Essay Scoring [Kaggle]

描述: 八组论文，由7至10年级学生撰写，均手工评分并双评分。
大小: 100 MB

7. ASAP Short Answer Scoring [Kaggle]

描述: 由10年级学生撰写，平均长度为50字的响应，均手工评分并双评分。
大小: 35 MB

8. Classification of political social media

描述: 政治社交媒体消息按内容分类。
大小: 4 MB

9. CLiPS Stylometry Investigation (CSI) Corpus

描述: 用于文体学研究的年度扩展学生文本语料库。
获取方式: 需请求

10. ClueWeb09 FACC

描述: ClueWeb09带有Freebase注释。
大小: 72 GB

11. ClueWeb11 FACC

描述: ClueWeb11带有Freebase注释。
大小: 92 GB

12. Common Crawl Corpus

描述: 包含超过50亿网页的网络爬虫数据。
大小: 541 TB

13. Cornell Movie Dialog Corpus

描述: 从原始电影剧本中提取的大量元数据丰富的虚构对话集合。
大小: 9.5 MB

14. Corporate messaging

描述: 关于公司在社交媒体上实际谈论内容的数据分类。
大小: 600 KB

15. Crosswikis

描述: 英语短语与相关维基百科文章的数据库。
大小: 11 GB

16. DBpedia

描述: 从维基百科中提取的结构化信息。
大小: 17 GB

17. Death Row

描述: 自1984年以来被执行的每个囚犯的最后遗言。

18. Del.icio.us

描述: 125万条美味书签。

19. Disasters on social media

描述: 10,000条带有灾难事件标注的推文。
大小: 2 MB

20. Economic News Article Tone and Relevance

描述: 1951至2014年间的新闻文章，判断其是否与美国经济相关及其语气。
大小: 12 MB

21. Enron Email Data

描述: 包含1,227,255封电子邮件，涵盖151个保管人。
大小: 210 GB

22. Event Registry

描述: 提供来自全球100,000家新闻出版商的实时新闻文章访问。

23. Examiner.com - Spam Clickbait News Headlines [Kaggle]

描述: 2010至2015年间由现已关闭的点击诱饵网站The Examiner发布的300万条新闻标题。
大小: 200 MB

24. Federal Contracts from the Federal Procurement Data Center (USASpending.gov)

描述: 联邦采购数据中心的所有联邦合同数据。
大小: 180 GB

25. Flickr Personal Taxonomies

描述: 个人标签的树形数据集。
大小: 40 MB

26. Freebase Data Dump

描述: Freebase中的所有当前事实和断言的数据转储。
大小: 26 GB

27. Freebase Simple Topic Dump

描述: Freebase中每个主题的基本识别事实的数据转储。
大小: 5 GB

28. Freebase Quad Dump

描述: Freebase中的所有当前事实和断言的数据转储。
大小: 35 GB

29. GigaOM Wordpress Challenge [Kaggle]

描述: 博客文章、元数据、用户点赞。
大小: 1.5 GB

30. Google Books Ngrams

描述: 在亚马逊S3上也可用的Hadoop格式。
大小: 2.2 TB

31. Google Web 5gram

描述: 包含英语单词n-gram及其观察频率计数。
大小: 24 GB

32. Gutenberg Ebook List

描述: 带注释的电子书列表。
大小: 2 MB

33. Hansards text chunks of Canadian Parliament

描述: 来自加拿大第36届议会的官方记录（Hansards）的130万对对齐文本块。
大小: 82 MB

34. Harvard Library

描述: 哈佛图书馆持有的超过1200万条书目记录，包括书籍、期刊、电子资源等。
大小: 4 GB

35. Hate speech identification

描述: 包含近15,000行，每个文本字符串有三个贡献者判断。
大小: 3 MB

36. Hillary Clinton Emails [Kaggle]

描述: 近7,000页的克林顿高度编辑的电子邮件。
大小: 12 MB

37. Home Depot Product Search Relevance [Kaggle]

描述: 包含Home Depot网站上的多个产品和真实客户搜索词。
大小: 65 MB

38. Identifying key phrases in text

描述: 问题/答案对+上下文；上下文是否与问题/答案相关。
大小: 8 MB

39. Jeopardy

描述: 216,930个过去的Jeopardy问题存档。
大小: 53 MB

40. 200k English plaintext jokes

描述: 来自各种来源的208,000个纯文本笑话存档。

41. Machine Translation of European Languages

描述: 欧洲语言的机器翻译。
大小: 612 MB

42. Material Safety Datasheets

描述: 230,000份材料安全数据表。
大小: 3 GB

43. Million News Headlines - ABC Australia [Kaggle]

描述: 2003至2017年间ABC新闻澳大利亚发布的130万条新闻标题。
大小: 56 MB

44. MCTest

描述: 用于研究机器文本理解的660个故事和相关问题集。
大小: 1 MB

45. NEGRA

描述: 德语报纸文本的句法注释语料库。
获取方式: 需请求

46. News Headlines of India - Times of India [Kaggle]

描述: 2001至2017年间《印度时报》发布的270万条新闻标题。
大小: 185 MB

47. News article / Wikipedia page pairings

描述: 贡献者阅读短文章并询问哪两个维基百科文章与之最接近。
大小: 6 MB

48. NIPS2015 Papers (version 2) [Kaggle]

描述: NIPS2015会议的所有论文全文。
大小: 335 MB

49. NYTimes Facebook Data

描述: 所有纽约时报的Facebook帖子。
大小: 5 MB

50. One Week of Global News Feeds [Kaggle]

描述: 2017年8月一周内全球发布的140万篇文章，涵盖20种语言。
大小: 115 MB

51. Objective truths of sentences/concept pairs

描述: 贡献者阅读包含两个概念的句子，并询问句子是否可能为真，并按1-5级评分。
大小: 700 KB

52. Open Library Data Dumps

描述: Open Library中所有记录的所有修订的数据转储。
大小: 16 GB

53. Personae Corpus

描述: 用于作者归属和个性预测实验的145个荷兰语论文语料库。
获取方式: 需请求

54. Reddit Comments

描述: 截至2015年7月的所有公开Reddit评论。
大小: 250 GB

55. Reddit Comments (May ‘15) [Kaggle]

描述: 上述数据集的子集。
大小: 8 GB

56. Reddit Submission Corpus

描述: 2006年1月至2015年8月31日所有公开的Reddit提交。
大小: 42 GB

57. Reuters Corpus

描述: 用于研究和开发自然语言处理、信息检索和机器学习系统的大型路透社新闻故事集合。
大小: 2.5 GB

58. SaudiNewsNet

描述: 来自各种在线沙特报纸的31,030篇阿拉伯语新闻文章及其元数据。
大小: 2 MB

59. SMS Spam Collection

描述: 5,574条英语、真实和非编码的SMS消息，标记为合法（ham）或垃圾邮件（spam）。
大小: 200 KB

60. SouthparkData

描述: 包含季节、剧集、角色和台词的.csv文件。
大小: 3.6 MB

61. Stackoverflow

描述: 730万条Stackoverflow问题+其他Stack Exchange。

62. Twitter Cheng-Caverlee-Lee Scrape

描述: 2009年9月至2010年1月期间的推文，地理位置定位。
大小: 400 MB

63. Twitter New England Patriots Deflategate sentiment

描述: 2015年超级碗前关于漏气足球和爱国者队是否作弊的大量讨论的Twitter情绪。
大小: 2 MB

64. Twitter Progressive issues sentiment analysis

描述: 关于各种左倾问题的推文，如堕胎合法化、女权主义、希拉里·克林顿等，分类为支持、反对或中立。
大小: 600 KB

65. Twitter Sentiment140

描述: 与品牌/关键词相关的推文。
大小: 77 MB

66. Twitter sentiment analysis: Self-driving cars

描述: 贡献者阅读推文并将其分类为非常积极、稍微积极、中性、稍微消极或非常消极。
大小: 1 MB

67. Twitter Tokyo Geolocated Tweets

描述: 来自东京的200,000条推文。
大小: 47 MB

68. Twitter UK Geolocated Tweets

描述: 来自英国的170,000条推文。
大小: 47 MB

69. Twitter USA Geolocated Tweets

描述: 来自美国的200,000条推文。
大小: 45 MB

70. Twitter US Airline Sentiment [Kaggle]

描述: 关于美国主要航空公司问题的情绪分析工作。
大小: 2.5 MB

71. U.S. economic performance based on news articles

描述: 新闻文章标题和摘录，判断其是否与美国经济相关。
大小: 5 MB

72. Urban Dictionary Words and Definitions [Kaggle]

描述: 截至2016年5月的所有Urban Dictionary单词、定义、作者、投票的清理CSV语料库。
大小: 238 MB

73. Wesbury Lab Usenet Corpus

描述: 2005-2010年间来自47,860个英语语言新闻组的匿名汇编。
大小: 40 GB

74. Wesbury Lab Wikipedia Corpus

描述: 2010年4月对英语维基百科部分的快照，处理以去除所有链接和无关材料。
大小: 1.8 GB

75. Wikipedia Extraction (WEX)

描述: 英语维基百科的加工转储。
大小: 66 GB

76. Wikipedia XML Data

描述: 所有维基媒体维基的完整副本，以wikitext源和嵌入XML中的元数据形式。
大小: 500 GB

77. Yahoo! Answers Comprehensive Questions and Answers

描述: 截至2007年10月25日的Yahoo! Answers语料库。
大小: 3.6 GB

78. Yahoo! Answers consisting of questions asked in French

描述: 2006至2015年间在法语中提出的170万个问题及其相应答案的Yahoo! Answers语料库子集。
大小: 3.8 GB

79. Yahoo! Answers Manner Questions

描述: 从2007年10月25日的Yahoo! Answers转储中选择的具有其语言特性的问题子集。
大小: 104 MB

80. Yahoo! HTML Forms Extracted from Publicly Available Webpages

描述: 包含复杂HTML表单的小样本页面，包含267万个复杂表单。
大小: 50+ GB

81. Yahoo! Metadata Extracted from Publicly Available Web Pages

描述: 1亿个RDF数据三元组。
大小: 2 GB

82. Yahoo N-Gram Representations

描述: 包含n-gram表示的数据集。
大小: 2.6 GB

83. Yahoo! N-Grams, version 2.0

描述: 从1460万个文档中提取的n-grams（n = 1到5），涵盖12000多个新闻导向站点。
大小: 12 GB

84. Yahoo! Search Logs with Relevance Judgments

描述: 带有关联判断的匿名Yahoo!搜索日志。
大小: 1.3 GB

85. Yahoo! Semantically Annotated Snapshot of the English Wikipedia

描述: 2006年11月4日处理的英语维基百科，使用多个公开可用的NLP工具。
大小: 6 GB

86. Yelp

描述: 包括餐厅排名和220万条评论。
获取方式: 需请求

87. Youtube

描述: 170万个YouTube视频描述。
大小: 通过torrent获取

以上数据集涵盖了从邮件档案、社交媒体、新闻文章到特定主题的评论和对话等多种文本数据，适用于自然语言处理的各种研究和应用。

搜集汇总

数据集介绍

构建方式

该数据集是一个按字母顺序排列的免费/公共领域文本数据集列表，主要用于自然语言处理（NLP）。大多数数据集是原始的非结构化文本数据，如果用户寻找的是注释过的语料库或树库，则需要参考页面底部的资源。

特点

nlp-datasets的特点在于其全面性和易于访问性，提供了多种类型的文本数据，包括邮件存档、博客文章、产品评论、学术论文等，涵盖了广泛的主题和格式，为研究者提供了丰富的数据资源。

使用方法

背景与挑战

背景概述

nlp-datasets是一个自然语言处理（NLP）领域的数据集列表，由Alphabetical order进行排列。该数据集涵盖了从Apache软件基金会公共邮件存档到YouTube视频描述的广泛文本数据，创建于2011年，主要研究人员或机构不明，但贡献者众多，包括学术研究者、数据科学家和开放数据爱好者。该数据集的核心研究问题是提供多样化的文本数据资源，以促进NLP领域的研究和应用开发，对相关领域的影响力体现在为NLP研究提供了丰富的数据支持。

当前挑战

nlp-datasets面临的挑战主要包括：1）数据多样性和质量的保证，由于数据集涵盖范围广泛，确保每份数据的质量和适用性是一大挑战；2）数据集的更新和维护，随着新的文本数据不断产生，如何更新和维护这些数据集以保持其时效性和相关性；3）数据标注和分类的准确性，许多数据集需要准确标注和分类以供特定任务使用，这需要大量的人力投入和专业知识。

常用场景

经典使用场景

nlp-datasets数据集的典型应用场景在于自然语言处理领域的研究与开发。该数据集涵盖了多种类型的文本数据，如邮件档案、博客文章、产品评论等，为语言模型训练、文本分类、情感分析等任务提供了丰富的原料。学者和开发者可以借助这些数据进行模型构建和算法验证，从而推动NLP技术的进步。

衍生相关工作

基于nlp-datasets数据集，已经衍生出了一系列相关的研究工作。这些工作包括但不限于文本分类算法的研究、情感分析模型的构建、以及用于信息检索和推荐的复杂语言模型的开发。这些衍生工作进一步扩展了nlp-datasets的应用范围，并推动了自然语言处理技术的创新。

数据集最近研究