nlp-datasets

github2019-06-22 更新2024-05-31 收录

下载链接：

https://github.com/mohnkhan/nlp-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

包含自然语言处理(NLP)领域使用的免费/公共领域文本数据集的字母列表。大部分数据为原始非结构化文本数据，如需注释语料库或树库，请参考底部来源。

An alphabetical list of free/public domain text datasets used in the field of Natural Language Processing (NLP). Most of the data consists of raw unstructured text. For annotated corpora or treebanks, please refer to the sources listed at the bottom.

创建时间：

2018-12-03

原始信息汇总

数据集概述

1. Apache Software Foundation Public Mail Archives

描述: 包含所有公开的Apache Software Foundation邮件档案，截至2011年7月11日。
大小: 200 GB

2. Blog Authorship Corpus

描述: 收集了19,320名博主在2004年8月从blogger.com发布的帖子。
大小: 298 MB

3. Amazon Fine Food Reviews [Kaggle]

描述: 包含568,454条亚马逊用户至2012年10月留下的食品评论。
大小: 240 MB

4. Amazon Reviews

描述: 斯坦福大学收集的3500万亚马逊评论。
大小: 11 GB

5. ArXiv

描述: 档案中的所有论文全文及源文件。
大小: 270 GB (全文) + 190 GB (源文件)

6. ASAP Automated Essay Scoring [Kaggle]

描述: 包含八组论文，每组由一个提示生成，由7至10年级学生撰写。
大小: 100 MB

7. ASAP Short Answer Scoring [Kaggle]

描述: 包含由单个提示生成的数据集，主要由10年级学生撰写。
大小: 35 MB

8. Classification of political social media

描述: 政治社交媒体消息按内容分类。
大小: 4 MB

9. CLiPS Stylometry Investigation (CSI) Corpus

描述: 每年扩充的学生文本语料库，主要用于文体学研究。
大小: 请求获取

10. ClueWeb09 FACC

描述: ClueWeb09数据集带有Freebase注释。
大小: 72 GB

11. ClueWeb11 FACC

描述: ClueWeb11数据集带有Freebase注释。
大小: 92 GB

12. Common Crawl Corpus

描述: 包含超过50亿个网页的网络爬虫数据。
大小: 541 TB

13. Cornell Movie Dialog Corpus

描述: 包含从电影剧本中提取的大量虚构对话。
大小: 9.5 MB

14. Corporate messaging

描述: 关于公司在社交媒体上实际讨论内容的数据分类。
大小: 600 KB

15. Crosswikis

描述: 英语短语与相关维基百科文章的数据库。
大小: 11 GB

16. DBpedia

描述: 从维基百科中提取的结构化信息。
大小: 17 GB

17. Death Row

描述: 自1984年以来被执行的每个囚犯的最后遗言。
大小: HTML表格

18. Del.icio.us

描述: 125万个美味书签。
大小: 170 MB

19. Disasters on social media

描述: 10,000条带有灾难事件标注的推文。
大小: 2 MB

20. Economic News Article Tone and Relevance

描述: 判断新闻文章是否与美国经济相关及其语气。
大小: 12 MB

21. Enron Email Data

描述: 包含1,227,255封电子邮件，涉及151个保管人。
大小: 210 GB

22. Event Registry

描述: 提供实时新闻文章访问的免费工具。
大小: 查询工具

23. Examiner.com - Spam Clickbait News Headlines [Kaggle]

描述: 300万条由现已关闭的点击诱饵网站The Examiner发布的众包新闻标题。
大小: 200 MB

24. Federal Contracts from the Federal Procurement Data Center (USASpending.gov)

描述: 联邦采购数据中心的所有联邦合同数据。
大小: 180 GB

25. Flickr Personal Taxonomies

描述: 个人标签的树形数据集。
大小: 40 MB

26. Freebase Data Dump

描述: Freebase中的所有当前事实和断言的数据转储。
大小: 26 GB

27. Freebase Simple Topic Dump

描述: Freebase中每个主题的基本识别事实的数据转储。
大小: 5 GB

28. Freebase Quad Dump

描述: Freebase中的所有当前事实和断言的数据转储。
大小: 35 GB

29. German Political Speeches Corpus

描述: 德国顶级代表的近期演讲集合。
大小: 25 MB, 11 MTokens

30. GigaOM Wordpress Challenge [Kaggle]

描述: 博客文章、元数据、用户喜欢。
大小: 1.5 GB

31. Google Books Ngrams

描述: 谷歌图书中的Ngrams数据，也可在亚马逊S3上以Hadoop格式获取。
大小: 2.2 TB

32. Google Web 5gram

描述: 包含英语单词n-grams及其观察频率计数。
大小: 24 GB

33. Gutenberg Ebook List

描述: 电子书的注释列表。
大小: 2 MB

34. Hansards text chunks of Canadian Parliament

描述: 来自加拿大议会官方记录的130万对对齐文本块。
大小: 82 MB

35. Harvard Library

描述: 哈佛图书馆持有的超过1200万条书目记录。
大小: 4 GB

36. Hate speech identification

描述: 包含近15,000行数据，每行文本有三个贡献者判断是否包含仇恨言论。
大小: 3 MB

37. Hillary Clinton Emails [Kaggle]

描述: 近7,000页的克林顿电子邮件。
大小: 12 MB

38. Historical Newspapers Yearly N-grams and Entities Dataset

描述: 包含英国报纸档案库中1,000,000个最频繁的1-, 2-, 3-grams和100,000个最频繁的命名实体的年度时间序列。
大小: 3.1 GB

39. Historical Newspapers Daily Word Time Series Dataset

描述: 1836年至1922年间87年的英国和美国历史报纸中25,000个最频繁单词的每日使用时间序列。
大小: 2.7 GB

40. Home Depot Product Search Relevance [Kaggle]

描述: 包含Home Depot网站上的产品和真实客户搜索词。
大小: 65 MB

41. Identifying key phrases in text

描述: 问题/答案对+上下文，上下文被判断是否与问题/答案相关。
大小: 8 MB

42. Jeopardy

描述: 216,930个过去的Jeopardy问题存档。
大小: 53 MB

43. 200k English plaintext jokes

描述: 208,000个来自各种来源的纯文本笑话存档。
大小: 未提供

44. Machine Translation of European Languages

描述: 欧洲语言的机器翻译。
大小: 612 MB

45. Material Safety Datasheets

描述: 230,000份材料安全数据表。
大小: 3 GB

46. Million News Headlines - ABC Australia [Kaggle]

描述: 2003年至2017年间ABC新闻澳大利亚发布的130万个新闻标题。
大小: 56 MB

47. Millions of News Article URLs

描述: 2014年10月至2015年4月期间，来自950多个英语新闻网站的230万个新闻文章URL。
大小: 101 MB

48. MCTest

描述: 包含660个故事和相关问题的数据集，用于机器文本理解研究。
大小: 1 MB

49. NEGRA

描述: 德语报纸文本的句法注释语料库。
大小: 请求获取

50. News Headlines of India - Times of India [Kaggle]

描述: 2001年至2017年间《印度时报》发布的270万个新闻标题。
大小: 185 MB

51. News article / Wikipedia page pairings

描述: 新闻文章与维基百科页面的配对。
大小: 6 MB

52. NIPS2015 Papers (version 2) [Kaggle]

描述: NIPS2015会议的所有论文全文。
大小: 335 MB

53. NYTimes Facebook Data

描述: 所有《纽约时报》的Facebook帖子。
大小: 5 MB

54. One Week of Global News Feeds [Kaggle]

描述: 2017年8月一周内全球发布的140万篇文章的数据集。
大小: 115 MB

55. Objective truths of sentences/concept pairs

描述: 包含句子与概念对的客观真理数据集。
大小: 700 KB

56. Open Library Data Dumps

描述: Open Library中所有记录的所有修订的数据转储。
大小: 16 GB

57. Personae Corpus

描述: 用于作者归属和个性预测实验的荷兰语语料库。
大小: 请求获取

58. Reddit Comments

描述: 截至2015年7月的所有公开Reddit评论。
大小: 250 GB

59. Reddit Comments (May ‘15) [Kaggle]

描述: 上述数据集的子集。
大小: 8 GB

60. Reddit Submission Corpus

描述: 2006年1月至2015年8月31日的所有公开Reddit提交。
大小: 42 GB

61. Reuters Corpus

描述: 用于研究和开发自然语言处理、信息检索和机器学习系统的大型路透社新闻故事集合。
大小: 2.5 GB

62. SaudiNewsNet

描述: 包含来自各种在线沙特报纸的31,030篇阿拉伯语新闻文章及其元数据。
大小: 2 MB

63. SMS Spam Collection

描述: 5,574条英语真实非编码SMS消息，标记为合法或垃圾邮件。
大小: 200 KB

64. SouthparkData

描述: 包含季节、剧集、角色和台词的脚本信息的.csv文件。
大小: 3.6 MB

65. Stanford Question Answering Dataset (SQUAD 2.0)

描述: 阅读理解数据集，包含由众包工作者在维基百科文章上提出的问题，答案为文本片段或不可回答的问题。
大小: 未提供

66. Stackoverflow

描述: 730万条Stackoverflow问题及其他Stack Exchange网站的数据。
大小: 查询工具

67. Twitter Cheng-Caverlee-Lee Scrape

描述: 2009年9月至2010年1月期间的地理定位推文。
大小: 400 MB

68. Twitter New England Patriots Deflategate sentiment

描述: 2015年超级碗前关于充气不足足球和爱国者队是否作弊的推特情绪分析。
大小: 2 MB

69. Twitter Progressive issues sentiment analysis

描述: 关于各种左倾问题的推文，如堕胎合法化、女权主义、希拉里·克林顿等，分类为支持、反对或中立。
大小: 600 KB

70. Twitter Sentiment140

描述: 与品牌/关键词相关的推文。
大小: 77 MB

71. Twitter sentiment analysis: Self-driving cars

描述: 关于自动驾驶汽车的推文情绪分析。
大小: 1 MB

72. Twitter Elections Integrity

描述: 2016年美国选举中所有可疑推文和媒体。
大小: 1.4 GB

73. Twitter Tokyo Geolocated Tweets

描述: 来自东京的200,000条推文。
大小: 47 MB

74. Twitter UK Geolocated Tweets

描述: 来自英国的170,000条推文。
大小: 47 MB

75. Twitter USA Geolocated Tweets

描述: 来自美国的200,000条推文。
大小: 45 MB

76. Twitter US Airline Sentiment [Kaggle]

描述: 关于美国主要航空公司问题的情绪分析工作。
大小: 2.5 MB

77. U.S. economic performance based on news articles

描述: 新闻文章标题和摘要对美国经济的相关性排名。
大小: 5 MB

78. Urban Dictionary Words and Definitions [Kaggle]

描述: 2016年5月之前所有Urban Dictionary单词、定义、作者、投票的清理CSV语料库。
大小: 238 MB

79. Wesbury Lab Usenet Corpus

描述: 2005-2010年间的47,860个英语新闻组的匿名汇编。
大小: 40 GB

80. Wesbury Lab Wikipedia Corpus

描述: 2010年4月对英语维基百科文章的快照，去除了所有链接和无关材料。
大小: 1.8 GB

81. WorldTree Corpus of Explanation Graphs for Elementary Science Questions

描述: 为美国公开可用的小学科学考试问题构建的解释图语料库。
大小: 8 MB

82. Wikipedia Extraction (WEX)

描述: 英语维基百科的加工转储。
大小: 66 GB

83. Wikipedia XML Data

描述: 所有维基媒体维基的完整副本，形式为wikitext源和嵌入XML的元数据。
大小: 500 GB

84. Yahoo! Answers Comprehensive Questions and Answers

描述: 2007年10月25日的雅虎答案语料库。
大小: 3.6 GB

85. Yahoo! Answers consisting of questions asked in French

描述: 2006年至2015年间，由法语提问的雅虎答案语料库子集。
大小: 3.8 GB

86. Yahoo! Answers Manner Questions

描述: 2007年10月25日雅虎答案语料库的子集，选定其语言属性。
大小: 104 MB

87. Yahoo! HTML Forms Extracted from Publicly Available Webpages

描述: 从公开可用的网页中提取的复杂HTML表单的小样本。
大小: 50+ GB

88. Yahoo! Metadata Extracted from Publicly Available Web Pages

描述: 1亿个RDF数据三元组。
大小: 2 GB

89. Yahoo N-Gram Representations

描述: 未提供完整信息。

搜集汇总

数据集介绍

构建方式

nlp-datasets数据集是一个全面性的自然语言处理数据集列表，涵盖了从邮件存档、博客文章到新闻评论等多种类型的文本数据。该数据集的构建主要通过收集和整理网络上公开的、免费的文本数据资源，涵盖了结构化和非结构化的文本数据，旨在为NLP研究提供丰富的数据支持。

特点

nlp-datasets的特点在于其全面性和多样性。它不仅包含了大量的原始文本数据，还包括了经过注释的语料库和树库等资源。数据集涵盖了从个人博客文章到大型新闻存档的各种文本，为不同的NLP任务提供了广泛的数据选择。

使用方法

用户可以通过数据集中的链接直接访问各个子数据集的详情页面，从而获取所需的文本数据。对于每个数据集，用户应当仔细阅读其使用条款，以确保合法合规地使用数据。部分数据集可能需要注册或特殊请求才能获得访问权限。

背景与挑战

背景概述

nlp-datasets是一个包含自然语言处理（NLP）领域免费/公有领域文本数据集的列表。该数据集涵盖了从原始非结构化文本数据到注解语料库和树库等多种类型的数据资源，旨在为NLP研究和开发提供丰富的数据支持。该数据集的创建并非由单一研究人员或机构完成，而是由多个贡献者在不同的时间和背景下收集整理而成，其影响力遍及NLP的各个子领域，为相关研究提供了宝贵的数据资源。

当前挑战

nlp-datasets在构建过程中所遇到的挑战主要包括数据的多样性和质量保证。由于数据集涵盖了多种类型和来源的数据，确保数据的一致性和准确性是一项艰巨的任务。此外，随着数据集的不断扩大，维护和更新也成为了持续的挑战。在解决的问题方面，nlp-datasets所面临的挑战包括如何有效地支持各种NLP任务，如文本分类、情感分析、机器翻译等，同时还要应对数据标注的不一致性以及数据隐私和版权的问题。

常用场景

经典使用场景

nlp-datasets数据集在自然语言处理领域中的应用极为广泛，其经典使用场景在于为研究者提供了丰富的文本数据资源，这些数据涵盖了从邮件档案、博客文章、产品评论到新闻头条等多种类型。研究者可以借助这些数据集进行语言模型训练、文本分类、情感分析等任务，例如使用Amazon Fine Food Reviews数据集进行情感分析，或是利用Apache Software Foundation Public Mail Archives进行邮件内容挖掘。

衍生相关工作

基于nlp-datasets的数据集，衍生出了大量的相关工作，包括但不限于情感分析、文本分类、机器翻译等领域的经典研究。这些工作不仅推动了自然语言处理技术的进步，也为其他相关领域如社会学、心理学等提供了重要的数据资源和研究方法。

数据集最近研究