nlp-datasets

github2023-01-18 更新2024-05-31 收录

下载链接：

https://github.com/kmario23/nlp-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

包含自然语言处理(NLP)使用的免费/公共领域文本数据集的字母顺序列表。大多数数据集包含原始非结构化文本数据，如需注释语料库或树库，请参考底部来源。

An alphabetical list of free/public domain text datasets for natural language processing (NLP) usage. Most datasets contain raw unstructured text data. For annotated corpora or treebanks, please refer to the sources at the bottom.

创建时间：

2017-06-30

原始信息汇总

数据集概述

1. Apache Software Foundation Public Mail Archives

描述: 所有公开的Apache Software Foundation邮件存档，截至2011年7月11日。
大小: 200 GB

2. Blog Authorship Corpus

描述: 收集自2004年8月的19,320名博主的帖子，共681,288篇帖子，超过140百万字。
大小: 298 MB

3. Amazon Fine Food Reviews [Kaggle]

描述: 包含至2012年10月的568,454条亚马逊食品评论。
大小: 240 MB

4. Amazon Reviews

描述: 斯坦福大学收集的3500万条亚马逊评论。
大小: 11 GB

5. ArXiv

描述: 存档中的所有论文全文（270 GB）+源文件（190 GB）。
大小: 总计460 GB

6. ASAP Automated Essay Scoring [Kaggle]

描述: 包含八套论文集，每套由单一提示生成，平均长度150至550字。
大小: 100 MB

7. ASAP Short Answer Scoring [Kaggle]

描述: 每套数据集由单一提示生成，平均长度50字。
大小: 35 MB

8. Classification of political social media

描述: 政治社交媒体消息的内容分类。
大小: 4 MB

9. CLiPS Stylometry Investigation (CSI) Corpus

描述: 用于文体学研究的年度扩展学生文本语料库，包含论文和评论。
大小: 请求获取

10. ClueWeb09 FACC

描述: ClueWeb09带Freebase注释。
大小: 72 GB

11. ClueWeb11 FACC

描述: ClueWeb11带Freebase注释。
大小: 92 GB

12. Common Crawl Corpus

描述: 包含超过50亿网页的网络爬虫数据。
大小: 541 TB

13. Cornell Movie Dialog Corpus

描述: 包含617部电影中的220,579对电影角色对话。
大小: 9.5 MB

14. Corporate messaging

描述: 关于公司在社交媒体上实际讨论内容的数据分类。
大小: 600 KB

15. Crosswikis

描述: 英语短语到相关维基百科文章的数据库。
大小: 11 GB

16. DBpedia

描述: 从维基百科提取的结构化信息，使其在网络上可用。
大小: 17 GB

17. Death Row

描述: 自1984年以来被执行的每个囚犯的最后话语。
大小: HTML表

18. Del.icio.us

描述: 125万条美味书签。
大小: 未提供

19. Disasters on social media

描述: 10,000条带有灾难事件标注的推文。
大小: 2 MB

20. Economic News Article Tone and Relevance

描述: 1951年至2014年间的新闻文章，判断其是否与美国经济相关及其语气。
大小: 12 MB

21. Enron Email Data

描述: 包含1,227,255封电子邮件，覆盖151个保管人。
大小: 210 GB

22. Event Registry

描述: 提供来自全球100,000家新闻出版商的实时新闻文章访问的免费工具。
大小: 查询工具

23. Federal Contracts from the Federal Procurement Data Center (USASpending.gov)

描述: 来自联邦采购数据中心的联邦合同数据。
大小: 180 GB

24. Flickr Personal Taxonomies

描述: 个人标签的树形数据集。
大小: 40 MB

25. Freebase Data Dump

描述: Freebase中的所有当前事实和断言的数据转储。
大小: 26 GB

26. Freebase Simple Topic Dump

描述: Freebase中每个主题的基本识别事实的数据转储。
大小: 5 GB

27. Freebase Quad Dump

描述: Freebase中的所有当前事实和断言的数据转储。
大小: 35 GB

28. GigaOM Wordpress Challenge [Kaggle]

描述: 博客帖子、元数据、用户点赞。
大小: 1.5 GB

29. Google Books Ngrams

描述: 谷歌图书中的n-grams数据，也可在亚马逊S3上以Hadoop格式获得。
大小: 2.2 TB

30. Google Web 5gram

描述: 包含英语单词n-grams及其观察频率计数。
大小: 24 GB

31. Gutenberg Ebook List

描述: 带注释的电子书列表。
大小: 2 MB

32. Hansards text chunks of Canadian Parliament

描述: 来自加拿大议会官方记录的130万对对齐文本块。
大小: 82 MB

33. Harvard Library

描述: 哈佛图书馆持有的超过1200万条书目记录，包括书籍、期刊、电子资源等。
大小: 4 GB

34. Hate speech identification

描述: 包含近15,000行文本，每行文本有三个贡献者判断是否包含仇恨言论。
大小: 3 MB

35. Hillary Clinton Emails [Kaggle]

描述: 近7,000页的克林顿电子邮件。
大小: 12 MB

36. Home Depot Product Search Relevance [Kaggle]

描述: 包含Home Depot网站上的产品和真实客户搜索词，挑战是预测提供的搜索词和产品组合的相关性得分。
大小: 65 MB

37. Identifying key phrases in text

描述: 问题/答案对+上下文；上下文被判断是否与问题/答案相关。
大小: 8 MB

38. Jeopardy

描述: 216,930个过去的Jeopardy问题存档。
大小: 53 MB

39. Machine Translation of European Languages

描述: 欧洲语言的机器翻译。
大小: 612 MB

40. Material Safety Datasheets

描述: 230,000份材料安全数据表。
大小: 3 GB

41. MCTest

描述: 用于研究机器文本理解的660个故事及其相关问题。
大小: 1 MB

42. NEGRA

描述: 德语报纸文本的句法注释语料库，可供所有大学和非营利组织免费使用。
大小: 请求获取

43. News article / Wikipedia page pairings

描述: 贡献者阅读简短文章并被要求判断哪个维基百科文章与之最匹配。
大小: 6 MB

44. NIPS2015 Papers (version 2) [Kaggle]

描述: NIPS2015会议的所有论文全文。
大小: 335 MB

45. NYTimes Facebook Data

描述: 所有纽约时报的Facebook帖子。
大小: 5 MB

46. Objective truths of sentences/concept pairs

描述: 贡献者阅读包含两个概念的句子，并被要求判断句子是否可能为真，并按1-5级评分。
大小: 700 KB

47. Open Library Data Dumps

描述: Open Library中所有记录的所有修订的数据转储。
大小: 16 GB

48. Personae Corpus

描述: 用于作者归属和个性预测实验的145篇荷兰语论文。
大小: 请求获取

49. Reddit Comments

描述: 截至2015年7月的所有公开Reddit评论，共17亿条评论。
大小: 250 GB

50. Reddit Comments (May ‘15) [Kaggle]

描述: 上述数据集的子集。
大小: 8 GB

51. Reddit Submission Corpus

描述: 2006年1月至2015年8月31日的所有公开Reddit提交。
大小: 42 GB

52. Reuters Corpus

描述: 用于研究和开发自然语言处理、信息检索和机器学习系统的大型路透社新闻故事集合。
大小: 2.5 GB

53. SaudiNewsNet

描述: 来自各种在线沙特报纸的31,030篇阿拉伯语新闻文章及其元数据。
大小: 2 MB

54. SMS Spam Collection

描述: 5,574条英语真实非编码SMS消息，标记为合法（ham）或垃圾邮件（spam）。
大小: 200 KB

55. SouthparkData

描述: 包含季节、集数、角色和台词的.csv文件。
大小: 3.6 MB

56. Stackoverflow

描述: 730万条Stackoverflow问题及其他Stack Exchange站点的问题。
大小: 查询工具

57. Twitter Cheng-Caverlee-Lee Scrape

描述: 2009年9月至2010年1月的地理位置定位推文。
大小: 400 MB

58. Twitter New England Patriots Deflategate sentiment

描述: 2015年超级碗前关于放气足球和爱国者队是否作弊的推特情绪分析。
大小: 2 MB

59. Twitter Progressive issues sentiment analysis

描述: 关于各种左倾问题的推文，如堕胎合法化、女权主义、希拉里·克林顿等，分类为支持、反对或中立。
大小: 600 KB

60. Twitter Sentiment140

描述: 与品牌/关键词相关的推文。
大小: 77 MB

61. Twitter sentiment analysis: Self-driving cars

描述: 贡献者阅读推文并将其分类为非常积极、稍微积极、中性、稍微消极或非常消极。
大小: 1 MB

62. Twitter Tokyo Geolocated Tweets

描述: 来自东京的200,000条推文。
大小: 47 MB

63. Twitter UK Geolocated Tweets

描述: 来自英国的170,000条推文。
大小: 47 MB

64. Twitter USA Geolocated Tweets

描述: 来自美国的200,000条推文。
大小: 45 MB

65. Twitter US Airline Sentiment [Kaggle]

描述: 关于美国主要航空公司问题的情绪分析工作。
大小: 2.5 MB

66. U.S. economic performance based on news articles

描述: 新闻文章标题和摘录，排名是否与美国经济相关。
大小: 5 MB

67. Wesbury Lab Usenet Corpus

描述: 2005-2010年间的47,860个英语语言新闻组的匿名汇编。
大小: 40 GB

68. Wesbury Lab Wikipedia Corpus

描述: 2010年4月对英语维基百科文章的快照，处理后去除所有链接和无关材料。
大小: 1.8 GB

69. Wikipedia Extraction (WEX)

描述: 英语维基百科的加工转储。
大小: 66 GB

70. Wikipedia XML Data

描述: 所有维基媒体站点的完整副本，形式为wikitext源和嵌入XML的元数据。
大小: 500 GB

71. Yahoo! Answers Comprehensive Questions and Answers

描述: 截至2007年10月25日的雅虎答案语料库，包含4,483,032个问题及其答案。
大小: 3.6 GB

72. Yahoo! Answers consisting of questions asked in French

描述: 2006年至2015年间，包含170万个用法语提问的问题及其相应的答案。
大小: 3.8 GB

73. Yahoo! Answers Manner Questions

描述: 2007年10月25日转储的雅虎答案语料库子集，选定用于其语言属性。
大小: 104 MB

74. Yahoo! HTML Forms Extracted from Publicly Available Webpages

描述: 包含复杂HTML表单的小样本页面，包含267万个复杂表单。
大小: 50+ GB

75. Yahoo! Metadata Extracted from Publicly Available Web Pages

描述: 1亿个RDF数据三元组。
大小: 2 GB

76. Yahoo N-Gram Representations

描述: 包含n-gram表示的数据集。
大小: 2.6 GB

77. Yahoo! N-Grams, version 2.0

描述: 从1460万份文档中提取的n-grams（n=1至5），涵盖12,000多个新闻导向站点。
大小: 12 GB

78. Yahoo! Search Logs with Relevance Judgments

描述: 带有相关性判断的匿名雅虎搜索日志。
大小: 1.3 GB

79. Yahoo! Semantically Annotated Snapshot of the English Wikipedia

描述: 2006年11月4日处理的英语维基百科快照，使用多个公开可用的NLP工具。
大小: 6 GB

80. Yelp

描述: 包括餐厅排名和220万条评论。
大小: 请求获取

81. Youtube

描述: 170万个YouTube视频描述。
大小: 未提供（torrent）

搜集汇总

数据集介绍

构建方式

nlp-datasets数据集通过整合多个公开的自然语言处理（NLP）领域的数据源构建而成。这些数据源包括来自Apache软件基金会的邮件存档、博客文章、亚马逊商品评论、学术论文、社交媒体消息等。数据集的内容涵盖了从非结构化文本到带有注释的语料库，数据来源多样且广泛，确保了数据的丰富性和多样性。

使用方法

nlp-datasets数据集的使用方法灵活多样，适用于多种自然语言处理任务。研究人员可以根据具体需求选择合适的数据子集，如情感分析、文本分类、机器翻译等。数据集中的每个子集通常附有详细的元数据和来源信息，便于用户快速定位和使用。此外，部分数据集还提供了API接口或查询工具，方便用户进行实时数据访问和分析。

背景与挑战

背景概述

nlp-datasets是一个专注于自然语言处理（NLP）领域的公开数据集集合，涵盖了从邮件存档、博客文章、商品评论到社交媒体文本等多种类型的文本数据。该数据集由多个研究机构和平台共同贡献，包括Apache Software Foundation、Kaggle、Stanford University等。其核心研究问题在于如何利用这些多样化的文本数据进行自然语言处理任务，如文本分类、情感分析、机器翻译等。该数据集自2011年起逐步积累，已成为NLP领域的重要资源，推动了文本分析、信息检索和语言模型等技术的发展。

当前挑战

nlp-datasets面临的挑战主要体现在两个方面。首先，数据集的多样性和规模虽然为研究提供了丰富的素材，但也带来了数据质量和一致性问题。例如，不同来源的文本数据可能存在格式不统一、标注标准不一致等问题，增加了数据预处理的复杂性。其次，构建过程中需要解决数据隐私和版权问题，尤其是在处理社交媒体和用户生成内容时，如何在不侵犯隐私的前提下合法使用数据是一个重要挑战。此外，部分数据集规模庞大，存储和处理这些数据对计算资源提出了较高要求，进一步增加了研究门槛。

常用场景

经典使用场景

在自然语言处理（NLP）领域，nlp-datasets数据集为研究人员提供了丰富的文本数据资源，涵盖了从社交媒体内容到学术论文的广泛领域。这些数据集常用于训练和评估文本分类、情感分析、机器翻译等模型。例如，Amazon Fine Food Reviews数据集被广泛用于情感分析和产品推荐系统的研究，而Cornell Movie Dialog Corpus则常用于对话生成和自然语言理解任务。

解决学术问题

nlp-datasets数据集解决了自然语言处理中的多个核心问题。通过提供多样化的文本数据，研究人员能够更好地理解语言的结构和语义。例如，Enron Email Data数据集帮助研究者分析电子邮件中的信息提取和主题分类问题，而Twitter Sentiment140数据集则为情感分析提供了大量标注数据，推动了情感分类算法的发展。这些数据集的存在极大地促进了NLP领域的学术研究和技术进步。

实际应用

在实际应用中，nlp-datasets数据集被广泛用于构建智能系统。例如，Amazon Reviews数据集被电商平台用于分析用户反馈，优化产品推荐算法；Twitter US Airline Sentiment数据集则被航空公司用于监控社交媒体上的客户情绪，及时响应客户投诉。此外，Google Books Ngrams数据集被用于语言模型的训练，支持搜索引擎和语音助手的开发。这些应用展示了数据集在商业和技术领域的巨大潜力。

数据集最近研究