nlp-datasets

github2019-07-11 更新2024-05-31 收录

下载链接：

https://github.com/ahmedfadhil/nlp-datasets-1

下载链接

链接失效反馈

官方服务：

资源简介：

包含自然语言处理(NLP)相关文本数据的免费/公共领域数据集的字母顺序列表。大多数数据集包含原始非结构化文本数据，如果需要注释语料库或树库，请参考底部来源。

An alphabetically ordered list of free/public domain datasets containing text data related to Natural Language Processing (NLP). Most of these datasets contain raw unstructured text data. For annotated corpora or treebanks, please refer to the sources at the bottom.

创建时间：

2017-08-08

原始信息汇总

数据集概述

1. Apache Software Foundation Public Mail Archives

描述: 包含截至2011年7月11日的所有公开Apache Software Foundation邮件档案。
大小: 200 GB

2. Blog Authorship Corpus

描述: 收集自2004年8月的19,320名博客作者的帖子，共681,288篇帖子，超过1400万字。
大小: 298 MB

3. Amazon Fine Food Reviews [Kaggle]

描述: 包含截至2012年10月的568,454条亚马逊用户留下的食品评论。
大小: 240 MB

4. Amazon Reviews

描述: 斯坦福收集的3500万亚马逊评论。
大小: 11 GB

5. ArXiv

描述: 档案中的所有论文全文及源文件。
大小: 270 GB (全文) + 190 GB (源文件)

6. ASAP Automated Essay Scoring [Kaggle]

描述: 包含八组论文，每组由单一提示生成，由7至10年级学生撰写，均手工评分并双评分。
大小: 100 MB

7. ASAP Short Answer Scoring [Kaggle]

描述: 包含由单一提示生成的数据集，主要由10年级学生撰写，均手工评分并双评分。
大小: 35 MB

8. Classification of political social media

描述: 政治社交媒体消息按内容分类。
大小: 4 MB

9. CLiPS Stylometry Investigation (CSI) Corpus

描述: 每年扩充的学生文本语料库，主要用于文体学研究。
大小: 需请求

10. ClueWeb09 FACC

描述: ClueWeb09带Freebase注释。
大小: 72 GB

11. ClueWeb11 FACC

描述: ClueWeb11带Freebase注释。
大小: 92 GB

12. Common Crawl Corpus

描述: 包含超过50亿网页的网络爬虫数据。
大小: 541 TB

13. Cornell Movie Dialog Corpus

描述: 包含从原始电影剧本中提取的大量元数据丰富的虚构对话。
大小: 9.5 MB

14. Corporate messaging

描述: 关于公司在社交媒体上实际讨论内容的数据分类。
大小: 600 KB

15. Crosswikis

描述: 英语短语到关联维基百科文章的数据库。
大小: 11 GB

16. DBpedia

描述: 从维基百科提取的结构化信息，并使其在网络上可用。
大小: 17 GB

17. Death Row

描述: 自1984年以来被执行的每个囚犯的最后遗言。
大小: HTML表

18. Del.icio.us

描述: 125万美味书签。
大小: 不详

19. Disasters on social media

描述: 10,000条带有灾难事件标注的推文。
大小: 2 MB

20. Economic News Article Tone and Relevance

描述: 判断是否与美国经济相关的新闻文章及其语气。
大小: 12 MB

21. Enron Email Data

描述: 包含1,227,255封电子邮件，覆盖151个保管人。
大小: 210 GB

22. Event Registry

描述: 提供来自全球100,000家新闻出版商的实时新闻文章访问。
大小: 查询工具

23. Federal Contracts from the Federal Procurement Data Center (USASpending.gov)

描述: 联邦采购数据中心的所有联邦合同数据。
大小: 180 GB

24. Flickr Personal Taxonomies

描述: 个人标签的树形数据集。
大小: 40 MB

25. Freebase Data Dump

描述: Freebase中的所有当前事实和断言的数据转储。
大小: 26 GB

26. Freebase Simple Topic Dump

描述: Freebase中每个主题的基本识别事实的数据转储。
大小: 5 GB

27. Freebase Quad Dump

描述: Freebase中的所有当前事实和断言的数据转储。
大小: 35 GB

28. GigaOM Wordpress Challenge [Kaggle]

描述: 博客文章、元数据、用户点赞。
大小: 1.5 GB

29. Google Books Ngrams

描述: 谷歌图书中的N元语法数据。
大小: 2.2 TB

30. Google Web 5gram

描述: 包含英语单词n元语法及其观察频率计数。
大小: 24 GB

31. Gutenberg Ebook List

描述: 带注释的电子书列表。
大小: 2 MB

32. Hansards text chunks of Canadian Parliament

描述: 加拿大议会官方记录中的130万对对齐文本块。
大小: 82 MB

33. Harvard Library

描述: 哈佛图书馆持有的超过1200万条书目记录。
大小: 4 GB

34. Hate speech identification

描述: 包含近15,000行文本，每行文本有三个贡献者判断是否包含仇恨言论。
大小: 3 MB

35. Hillary Clinton Emails [Kaggle]

描述: 近7000页的克林顿电子邮件。
大小: 12 MB

36. Home Depot Product Search Relevance [Kaggle]

描述: 包含Home Depot网站上的产品和真实客户搜索词，挑战是预测提供的搜索词和产品组合的相关性得分。
大小: 65 MB

37. Identifying key phrases in text

描述: 问题/答案对+上下文；上下文被判断是否与问题/答案相关。
大小: 8 MB

38. Jeopardy

描述: 216,930个过去的Jeopardy问题存档。
大小: 53 MB

39. Machine Translation of European Languages

描述: 欧洲语言的机器翻译。
大小: 612 MB

40. Material Safety Datasheets

描述: 230,000份材料安全数据表。
大小: 3 GB

41. MCTest

描述: 用于研究机器文本理解的660个故事及其相关问题。
大小: 1 MB

42. NEGRA

描述: 德语报纸文本的语法注释语料库，免费提供给所有大学和非营利组织。
大小: 需请求

43. News article / Wikipedia page pairings

描述: 新闻文章与维基百科页面的配对。
大小: 6 MB

44. NIPS2015 Papers (version 2) [Kaggle]

描述: NIPS2015会议的所有论文全文。
大小: 335 MB

45. NYTimes Facebook Data

描述: 所有纽约时报的Facebook帖子。
大小: 5 MB

46. Objective truths of sentences/concept pairs

描述: 包含句子/概念对的客观真理数据集。
大小: 700 KB

47. Open Library Data Dumps

描述: Open Library中所有记录的所有修订的数据转储。
大小: 16 GB

48. Personae Corpus

描述: 用于作者归属和个性预测实验的荷兰语语料库。
大小: 需请求

49. Reddit Comments

描述: 截至2015年7月的所有公开Reddit评论。
大小: 250 GB

50. Reddit Comments (May ‘15) [Kaggle]

描述: 上述数据集的子集。
大小: 8 GB

51. Reddit Submission Corpus

描述: 2006年1月至2015年8月31日的所有公开Reddit提交。
大小: 42 GB

52. Reuters Corpus

描述: 用于研究和开发自然语言处理、信息检索和机器学习系统的大型路透社新闻故事集合。
大小: 2.5 GB

53. SaudiNewsNet

描述: 来自各种在线沙特报纸的31,030篇阿拉伯语新闻文章及其元数据。
大小: 2 MB

54. SMS Spam Collection

描述: 5,574条英语、真实且非编码的SMS消息，标记为合法(ham)或垃圾邮件(spam)。
大小: 200 KB

55. SouthparkData

描述: 包含季节、剧集、角色和台词信息的.csv文件。
大小: 3.6 MB

56. Stackoverflow

描述: 730万Stackoverflow问题及其他Stack Exchange站点。
大小: 查询工具

57. Twitter Cheng-Caverlee-Lee Scrape

描述: 2009年9月至2010年1月的地理位置定位推文。
大小: 400 MB

58. Twitter New England Patriots Deflategate sentiment

描述: 2015年超级碗前关于放气足球和爱国者是否作弊的Twitter情绪分析。
大小: 2 MB

59. Twitter Progressive issues sentiment analysis

描述: 关于各种左倾问题的推文，如堕胎合法化、女权主义、希拉里·克林顿等，分类为支持、反对或中立。
大小: 600 KB

60. Twitter Sentiment140

描述: 与品牌/关键词相关的推文。
大小: 77 MB

61. Twitter sentiment analysis: Self-driving cars

描述: 贡献者阅读推文并将其分类为非常积极、稍微积极、中性、稍微消极或非常消极。
大小: 1 MB

62. Twitter Tokyo Geolocated Tweets

描述: 来自东京的200,000条推文。
大小: 47 MB

63. Twitter UK Geolocated Tweets

描述: 来自英国的170,000条推文。
大小: 47 MB

64. Twitter USA Geolocated Tweets

描述: 来自美国的200,000条推文。
大小: 45 MB

65. Twitter US Airline Sentiment [Kaggle]

描述: 关于美国主要航空公司问题的情绪分析工作。
大小: 2.5 MB

66. U.S. economic performance based on news articles

描述: 新闻文章标题和摘录，排名是否与美国经济相关。
大小: 5 MB

67. Wesbury Lab Usenet Corpus

描述: 2005-2010年间的47,860个英语新闻组的匿名汇编。
大小: 40 GB

68. Wesbury Lab Wikipedia Corpus

描述: 2010年4月对英语维基百科文章的快照，经过处理以去除所有链接和无关材料。
大小: 1.8 GB

69. Wikipedia Extraction (WEX)

描述: 英语维基百科的预处理转储。
大小: 66 GB

70. Wikipedia XML Data

描述: 所有维基媒体维基的完整副本，以wikitext源和嵌入XML中的元数据形式。
大小: 500 GB

71. Yahoo! Answers Comprehensive Questions and Answers

描述: 截至2007年10月25日的Yahoo! Answers语料库。
大小: 3.6 GB

72. Yahoo! Answers consisting of questions asked in French

描述: 2006年至2015年间在法语中提出的170万个问题及其相应的答案。
大小: 3.8 GB

73. Yahoo! Answers Manner Questions

描述: 从2007年10月25日的Yahoo! Answers语料库中选出的具有特定语言特性的子集。
大小: 104 MB

74. Yahoo! HTML Forms Extracted from Publicly Available Webpages

描述: 从公开可用的网页中提取的复杂HTML表单的小样本。
大小: 50+ GB

75. Yahoo! Metadata Extracted from Publicly Available Web Pages

描述: 1亿个RDF数据三元组。
大小: 2 GB

76. Yahoo N-Gram Representations

描述: 包含n元语法表示的数据集。
大小: 2.6 GB

77. Yahoo! N-Grams, version 2.0

描述: 从1460万份文档中提取的n元语法（n=1至5）。
大小: 12 GB

78. Yahoo! Search Logs with Relevance Judgments

描述: 带有相关性判断的匿名Yahoo!搜索日志。
大小: 1.3 GB

79. Yahoo! Semantically Annotated Snapshot of the English Wikipedia

描述: 2006年11月4日的英语维基百科快照，经过多种公开可用的NLP工具处理。
大小: 6 GB

80. Yelp

描述: 包括餐厅排名和220万条评论。
大小: 需请求

81. Youtube

描述: 170万个YouTube视频描述。
大小: 不详

以上数据集涵盖了从邮件档案、博客、评论、新闻文章到社交媒体内容等多种文本数据，适用于自然语言处理（NLP）领域的研究与应用。

搜集汇总

数据集介绍

构建方式

nlp-datasets 是一个包含众多自然语言处理（NLP）领域公共数据集的集合，涵盖了从邮件存档、博客文章到社交媒体评论等多样化的文本数据。该数据集的构建主要依赖于对公开可获得的数据资源进行整合，包括但不限于网络爬虫抓取、开源项目贡献以及学术研究机构的公开数据。数据集构建者对原始文本数据进行了分类整理，确保了数据的多样性和可用性。

特点

nlp-datasets 的特点在于其广泛的数据类型和来源，不仅包含了未经标注的原始文本数据，也提供了经过人工标注的语料库。数据集覆盖了从个人博客、产品评论到学术文章等不同领域的文本，为 NLP 研究提供了丰富的资源。此外，数据集的规模庞大，包含数十亿级别的文本数据，有助于支持大规模的语言模型训练和复杂语言现象的研究。

使用方法

背景与挑战

背景概述

nlp-datasets数据集是一个全面的自然语言处理（NLP）领域的数据集列表，旨在为研究人员提供丰富的文本资源。该数据集涵盖了从Apache软件基金会邮件存档到Yahoo!答案等众多领域，创建时间跨越了多年，由不同的研究机构和个人维护更新。其核心研究问题是收集和整理可用于NLP研究的文本数据，对相关领域的影响力在于为各种NLP任务如文本分类、情感分析、机器翻译等提供了基础数据支持。

当前挑战

nlp-datasets在构建过程中遇到的挑战主要包括数据的多样性和质量保证。首先，数据集的多样性带来了整合和标准化的困难，因为每个数据集的格式和内容都可能有所不同。其次，确保数据质量，特别是对于标注数据集，需要大量的人力进行验证和校对。此外，所解决的领域问题如情感分析、机器翻译等，面临着如何准确捕捉和表达语言细微差异的挑战。

常用场景

经典使用场景

nlp-datasets数据集被广泛应用于自然语言处理领域，其经典使用场景包括构建语言模型、文本分类、情感分析、信息检索以及机器翻译等任务。该数据集涵盖了从文学作品到网络评论的各种文本数据，为研究人员提供了丰富的文本资源，以便他们能够开发和测试各种NLP算法和应用。

衍生相关工作

基于nlp-datasets数据集，衍生出了大量相关的工作，包括但不限于文本分类算法的研究、情感分析模型的构建、跨语言信息检索系统的开发，以及用于作者归属和个性预测的模型等。这些工作进一步推动了自然语言处理领域的发展，并拓宽了其应用范围。

数据集最近研究