nlp-datasets
收藏github2018-11-23 更新2024-05-31 收录
下载链接:
https://github.com/monkeymq/nlp-datasets
下载链接
链接失效反馈官方服务:
资源简介:
包含自然语言处理(NLP)使用的免费/公共领域文本数据集的字母顺序列表。大多数数据集为原始非结构化文本数据,如需注释语料库或树库,请参考底部来源。
An alphabetical list of free/public domain text datasets for natural language processing (NLP) usage. Most datasets consist of raw unstructured text data. For annotated corpora or treebanks, please refer to the sources listed at the bottom.
创建时间:
2018-04-11
原始信息汇总
数据集概述
自然语言处理(NLP)相关数据集列表
1. Apache Software Foundation Public Mail Archives
- 描述: 所有公开的Apache Software Foundation邮件档案,截至2011年7月11日。
- 大小: 200 GB
2. Blog Authorship Corpus
- 描述: 2004年8月从blogger.com收集的19,320名博主的帖子。
- 大小: 298 MB
3. Amazon Fine Food Reviews [Kaggle]
- 描述: 截至2012年10月的568,454条亚马逊食品评论。
- 大小: 240 MB
4. Amazon Reviews
- 描述: 斯坦福大学收集的3500万条亚马逊评论。
- 大小: 11 GB
5. ArXiv
- 描述: 档案中的所有论文全文及源文件。
- 大小: 270 GB (全文) + 190 GB (源文件)
6. ASAP Automated Essay Scoring [Kaggle]
- 描述: 八组论文,由7至10年级学生撰写,均手工评分并双评分。
- 大小: 100 MB
7. ASAP Short Answer Scoring [Kaggle]
- 描述: 由10年级学生撰写,平均长度为50字的响应,均手工评分并双评分。
- 大小: 35 MB
8. Classification of political social media
- 描述: 政治社交媒体消息按内容分类。
- 大小: 4 MB
9. CLiPS Stylometry Investigation (CSI) Corpus
- 描述: 用于文体学研究的年度扩展学生文本语料库。
- 获取方式: 需请求
10. ClueWeb09 FACC
- 描述: ClueWeb09带有Freebase注释。
- 大小: 72 GB
11. ClueWeb11 FACC
- 描述: ClueWeb11带有Freebase注释。
- 大小: 92 GB
12. Common Crawl Corpus
- 描述: 包含超过50亿网页的网络爬虫数据。
- 大小: 541 TB
13. Cornell Movie Dialog Corpus
- 描述: 从原始电影剧本中提取的大量元数据丰富的虚构对话集合。
- 大小: 9.5 MB
14. Corporate messaging
- 描述: 关于公司在社交媒体上实际谈论内容的数据分类。
- 大小: 600 KB
15. Crosswikis
- 描述: 英语短语与相关维基百科文章的数据库。
- 大小: 11 GB
16. DBpedia
- 描述: 从维基百科中提取的结构化信息。
- 大小: 17 GB
17. Death Row
- 描述: 自1984年以来被执行的每个囚犯的最后遗言。
18. Del.icio.us
- 描述: 125万条美味书签。
19. Disasters on social media
- 描述: 10,000条带有灾难事件标注的推文。
- 大小: 2 MB
20. Economic News Article Tone and Relevance
- 描述: 1951至2014年间的新闻文章,判断其是否与美国经济相关及其语气。
- 大小: 12 MB
21. Enron Email Data
- 描述: 包含1,227,255封电子邮件,涵盖151个保管人。
- 大小: 210 GB
22. Event Registry
- 描述: 提供来自全球100,000家新闻出版商的实时新闻文章访问。
23. Examiner.com - Spam Clickbait News Headlines [Kaggle]
- 描述: 2010至2015年间由现已关闭的点击诱饵网站The Examiner发布的300万条新闻标题。
- 大小: 200 MB
24. Federal Contracts from the Federal Procurement Data Center (USASpending.gov)
- 描述: 联邦采购数据中心的所有联邦合同数据。
- 大小: 180 GB
25. Flickr Personal Taxonomies
- 描述: 个人标签的树形数据集。
- 大小: 40 MB
26. Freebase Data Dump
- 描述: Freebase中的所有当前事实和断言的数据转储。
- 大小: 26 GB
27. Freebase Simple Topic Dump
- 描述: Freebase中每个主题的基本识别事实的数据转储。
- 大小: 5 GB
28. Freebase Quad Dump
- 描述: Freebase中的所有当前事实和断言的数据转储。
- 大小: 35 GB
29. GigaOM Wordpress Challenge [Kaggle]
- 描述: 博客文章、元数据、用户点赞。
- 大小: 1.5 GB
30. Google Books Ngrams
- 描述: 在亚马逊S3上也可用的Hadoop格式。
- 大小: 2.2 TB
31. Google Web 5gram
- 描述: 包含英语单词n-gram及其观察频率计数。
- 大小: 24 GB
32. Gutenberg Ebook List
- 描述: 带注释的电子书列表。
- 大小: 2 MB
33. Hansards text chunks of Canadian Parliament
- 描述: 来自加拿大第36届议会的官方记录(Hansards)的130万对对齐文本块。
- 大小: 82 MB
34. Harvard Library
- 描述: 哈佛图书馆持有的超过1200万条书目记录,包括书籍、期刊、电子资源等。
- 大小: 4 GB
35. Hate speech identification
- 描述: 包含近15,000行,每个文本字符串有三个贡献者判断。
- 大小: 3 MB
36. Hillary Clinton Emails [Kaggle]
- 描述: 近7,000页的克林顿高度编辑的电子邮件。
- 大小: 12 MB
37. Home Depot Product Search Relevance [Kaggle]
- 描述: 包含Home Depot网站上的多个产品和真实客户搜索词。
- 大小: 65 MB
38. Identifying key phrases in text
- 描述: 问题/答案对+上下文;上下文是否与问题/答案相关。
- 大小: 8 MB
39. Jeopardy
- 描述: 216,930个过去的Jeopardy问题存档。
- 大小: 53 MB
40. 200k English plaintext jokes
- 描述: 来自各种来源的208,000个纯文本笑话存档。
41. Machine Translation of European Languages
- 描述: 欧洲语言的机器翻译。
- 大小: 612 MB
42. Material Safety Datasheets
- 描述: 230,000份材料安全数据表。
- 大小: 3 GB
43. Million News Headlines - ABC Australia [Kaggle]
- 描述: 2003至2017年间ABC新闻澳大利亚发布的130万条新闻标题。
- 大小: 56 MB
44. MCTest
- 描述: 用于研究机器文本理解的660个故事和相关问题集。
- 大小: 1 MB
45. NEGRA
- 描述: 德语报纸文本的句法注释语料库。
- 获取方式: 需请求
46. News Headlines of India - Times of India [Kaggle]
- 描述: 2001至2017年间《印度时报》发布的270万条新闻标题。
- 大小: 185 MB
47. News article / Wikipedia page pairings
- 描述: 贡献者阅读短文章并询问哪两个维基百科文章与之最接近。
- 大小: 6 MB
48. NIPS2015 Papers (version 2) [Kaggle]
- 描述: NIPS2015会议的所有论文全文。
- 大小: 335 MB
49. NYTimes Facebook Data
- 描述: 所有纽约时报的Facebook帖子。
- 大小: 5 MB
50. One Week of Global News Feeds [Kaggle]
- 描述: 2017年8月一周内全球发布的140万篇文章,涵盖20种语言。
- 大小: 115 MB
51. Objective truths of sentences/concept pairs
- 描述: 贡献者阅读包含两个概念的句子,并询问句子是否可能为真,并按1-5级评分。
- 大小: 700 KB
52. Open Library Data Dumps
- 描述: Open Library中所有记录的所有修订的数据转储。
- 大小: 16 GB
53. Personae Corpus
- 描述: 用于作者归属和个性预测实验的145个荷兰语论文语料库。
- 获取方式: 需请求
54. Reddit Comments
- 描述: 截至2015年7月的所有公开Reddit评论。
- 大小: 250 GB
55. Reddit Comments (May ‘15) [Kaggle]
- 描述: 上述数据集的子集。
- 大小: 8 GB
56. Reddit Submission Corpus
- 描述: 2006年1月至2015年8月31日所有公开的Reddit提交。
- 大小: 42 GB
57. Reuters Corpus
- 描述: 用于研究和开发自然语言处理、信息检索和机器学习系统的大型路透社新闻故事集合。
- 大小: 2.5 GB
58. SaudiNewsNet
- 描述: 来自各种在线沙特报纸的31,030篇阿拉伯语新闻文章及其元数据。
- 大小: 2 MB
59. SMS Spam Collection
- 描述: 5,574条英语、真实和非编码的SMS消息,标记为合法(ham)或垃圾邮件(spam)。
- 大小: 200 KB
60. SouthparkData
- 描述: 包含季节、剧集、角色和台词的.csv文件。
- 大小: 3.6 MB
61. Stackoverflow
- 描述: 730万条Stackoverflow问题+其他Stack Exchange。
62. Twitter Cheng-Caverlee-Lee Scrape
- 描述: 2009年9月至2010年1月期间的推文,地理位置定位。
- 大小: 400 MB
63. Twitter New England Patriots Deflategate sentiment
- 描述: 2015年超级碗前关于漏气足球和爱国者队是否作弊的大量讨论的Twitter情绪。
- 大小: 2 MB
64. Twitter Progressive issues sentiment analysis
- 描述: 关于各种左倾问题的推文,如堕胎合法化、女权主义、希拉里·克林顿等,分类为支持、反对或中立。
- 大小: 600 KB
65. Twitter Sentiment140
- 描述: 与品牌/关键词相关的推文。
- 大小: 77 MB
66. Twitter sentiment analysis: Self-driving cars
- 描述: 贡献者阅读推文并将其分类为非常积极、稍微积极、中性、稍微消极或非常消极。
- 大小: 1 MB
67. Twitter Tokyo Geolocated Tweets
- 描述: 来自东京的200,000条推文。
- 大小: 47 MB
68. Twitter UK Geolocated Tweets
- 描述: 来自英国的170,000条推文。
- 大小: 47 MB
69. Twitter USA Geolocated Tweets
- 描述: 来自美国的200,000条推文。
- 大小: 45 MB
70. Twitter US Airline Sentiment [Kaggle]
- 描述: 关于美国主要航空公司问题的情绪分析工作。
- 大小: 2.5 MB
71. U.S. economic performance based on news articles
- 描述: 新闻文章标题和摘录,判断其是否与美国经济相关。
- 大小: 5 MB
72. Urban Dictionary Words and Definitions [Kaggle]
- 描述: 截至2016年5月的所有Urban Dictionary单词、定义、作者、投票的清理CSV语料库。
- 大小: 238 MB
73. Wesbury Lab Usenet Corpus
- 描述: 2005-2010年间来自47,860个英语语言新闻组的匿名汇编。
- 大小: 40 GB
74. Wesbury Lab Wikipedia Corpus
- 描述: 2010年4月对英语维基百科部分的快照,处理以去除所有链接和无关材料。
- 大小: 1.8 GB
75. Wikipedia Extraction (WEX)
- 描述: 英语维基百科的加工转储。
- 大小: 66 GB
76. Wikipedia XML Data
- 描述: 所有维基媒体维基的完整副本,以wikitext源和嵌入XML中的元数据形式。
- 大小: 500 GB
77. Yahoo! Answers Comprehensive Questions and Answers
- 描述: 截至2007年10月25日的Yahoo! Answers语料库。
- 大小: 3.6 GB
78. Yahoo! Answers consisting of questions asked in French
- 描述: 2006至2015年间在法语中提出的170万个问题及其相应答案的Yahoo! Answers语料库子集。
- 大小: 3.8 GB
79. Yahoo! Answers Manner Questions
- 描述: 从2007年10月25日的Yahoo! Answers转储中选择的具有其语言特性的问题子集。
- 大小: 104 MB
80. Yahoo! HTML Forms Extracted from Publicly Available Webpages
- 描述: 包含复杂HTML表单的小样本页面,包含267万个复杂表单。
- 大小: 50+ GB
81. Yahoo! Metadata Extracted from Publicly Available Web Pages
- 描述: 1亿个RDF数据三元组。
- 大小: 2 GB
82. Yahoo N-Gram Representations
- 描述: 包含n-gram表示的数据集。
- 大小: 2.6 GB
83. Yahoo! N-Grams, version 2.0
- 描述: 从1460万个文档中提取的n-grams(n = 1到5),涵盖12000多个新闻导向站点。
- 大小: 12 GB
84. Yahoo! Search Logs with Relevance Judgments
- 描述: 带有关联判断的匿名Yahoo!搜索日志。
- 大小: 1.3 GB
85. Yahoo! Semantically Annotated Snapshot of the English Wikipedia
- 描述: 2006年11月4日处理的英语维基百科,使用多个公开可用的NLP工具。
- 大小: 6 GB
86. Yelp
- 描述: 包括餐厅排名和220万条评论。
- 获取方式: 需请求
87. Youtube
- 描述: 170万个YouTube视频描述。
- 大小: 通过torrent获取
以上数据集涵盖了从邮件档案、社交媒体、新闻文章到特定主题的评论和对话等多种文本数据,适用于自然语言处理的各种研究和应用。
搜集汇总
数据集介绍

构建方式
该数据集是一个按字母顺序排列的免费/公共领域文本数据集列表,主要用于自然语言处理(NLP)。大多数数据集是原始的非结构化文本数据,如果用户寻找的是注释过的语料库或树库,则需要参考页面底部的资源。
特点
nlp-datasets的特点在于其全面性和易于访问性,提供了多种类型的文本数据,包括邮件存档、博客文章、产品评论、学术论文等,涵盖了广泛的主题和格式,为研究者提供了丰富的数据资源。
使用方法
用户可以直接访问数据集详情页面,根据README文件中的描述和链接获取所需数据。对于部分需要请求的数据集,用户需要按照提供的信息进行申请。使用数据集时,应注意遵守相应的使用条款和版权声明。
背景与挑战
背景概述
nlp-datasets是一个自然语言处理(NLP)领域的数据集列表,由Alphabetical order进行排列。该数据集涵盖了从Apache软件基金会公共邮件存档到YouTube视频描述的广泛文本数据,创建于2011年,主要研究人员或机构不明,但贡献者众多,包括学术研究者、数据科学家和开放数据爱好者。该数据集的核心研究问题是提供多样化的文本数据资源,以促进NLP领域的研究和应用开发,对相关领域的影响力体现在为NLP研究提供了丰富的数据支持。
当前挑战
nlp-datasets面临的挑战主要包括:1)数据多样性和质量的保证,由于数据集涵盖范围广泛,确保每份数据的质量和适用性是一大挑战;2)数据集的更新和维护,随着新的文本数据不断产生,如何更新和维护这些数据集以保持其时效性和相关性;3)数据标注和分类的准确性,许多数据集需要准确标注和分类以供特定任务使用,这需要大量的人力投入和专业知识。
常用场景
经典使用场景
nlp-datasets数据集的典型应用场景在于自然语言处理领域的研究与开发。该数据集涵盖了多种类型的文本数据,如邮件档案、博客文章、产品评论等,为语言模型训练、文本分类、情感分析等任务提供了丰富的原料。学者和开发者可以借助这些数据进行模型构建和算法验证,从而推动NLP技术的进步。
衍生相关工作
基于nlp-datasets数据集,已经衍生出了一系列相关的研究工作。这些工作包括但不限于文本分类算法的研究、情感分析模型的构建、以及用于信息检索和推荐的复杂语言模型的开发。这些衍生工作进一步扩展了nlp-datasets的应用范围,并推动了自然语言处理技术的创新。
数据集最近研究
最新研究方向
nlp-datasets数据集涵盖了自然语言处理领域的大量文本数据,近期研究方向主要集中在文本分类、情感分析、机器翻译和作者ship属性预测等方面。这些数据集被用于开发和测试各种NLP模型,以提升其在实际应用中的性能和准确度。例如,利用亚马逊评论数据集进行情感分析,可以更准确地识别消费者的意见和态度。同时,通过机器翻译数据集的研究,可以进一步提高机器翻译的质量和效率。在作者ship属性预测方面,研究者通过分析文本特征来识别作者的身份和性格特点。这些研究对于提升自然语言处理技术的实际应用具有重要意义。
以上内容由遇见数据集搜集并总结生成



