nlp-datasets

github2017-09-21 更新2024-05-31 收录

下载链接：

https://github.com/yugrocks/nlp-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

包含自然语言处理(NLP)领域免费/公共域文本数据集的字母顺序列表。大多数数据集为原始非结构化文本数据，如果寻找标注语料库或树库，请参考底部来源。

An alphabetical list of free/public domain text datasets in the field of Natural Language Processing (NLP). Most datasets consist of raw unstructured text data. For those seeking annotated corpora or treebanks, please refer to the sources listed at the bottom.

创建时间：

2017-09-07

原始信息汇总

数据集概述

自然语言处理（NLP）数据集列表

1. Apache Software Foundation Public Mail Archives

描述: 包含2011年7月11日之前所有公开的Apache软件基金会邮件存档。
大小: 200 GB

2. Blog Authorship Corpus

描述: 收集了2004年8月来自blogger.com的19,320名博主的博客文章。
大小: 298 MB

3. Amazon Fine Food Reviews [Kaggle]

描述: 包含至2012年10月Amazon用户留下的568,454条食品评论。
大小: 240 MB

4. Amazon Reviews

描述: 斯坦福大学收集的3500万条Amazon评论。
大小: 11 GB

5. ArXiv

描述: 包含arXiv上的所有论文全文及源文件。
大小: 270 GB (全文) + 190 GB (源文件)

6. ASAP Automated Essay Scoring [Kaggle]

描述: 包含八组由单个提示生成的学生作文，用于自动作文评分。
大小: 100 MB

7. ASAP Short Answer Scoring [Kaggle]

描述: 包含由单个提示生成的学生短答案，用于短答案评分。
大小: 35 MB

8. Classification of political social media

描述: 政治社交媒体消息的内容分类。
大小: 4 MB

9. CLiPS Stylometry Investigation (CSI) Corpus

描述: 用于文体学研究的年度扩展学生文本语料库。
大小: 请求获取

10. ClueWeb09 FACC

描述: ClueWeb09数据集，带有Freebase注释。
大小: 72 GB

11. ClueWeb11 FACC

描述: ClueWeb11数据集，带有Freebase注释。
大小: 92 GB

12. Common Crawl Corpus

描述: 包含超过50亿网页的网络爬虫数据。
大小: 541 TB

13. Cornell Movie Dialog Corpus

描述: 包含从电影剧本中提取的大量虚构对话。
大小: 9.5 MB

14. Corporate messaging

描述: 关于公司在社交媒体上实际讨论内容的分类数据。
大小: 600 KB

15. Crosswikis

描述: 英语短语到关联维基百科文章的数据库。
大小: 11 GB

16. DBpedia

描述: 从维基百科中提取的结构化信息。
大小: 17 GB

17. Death Row

描述: 自1984年以来被执行的每个囚犯的最后遗言。
大小: HTML表格

18. Del.icio.us

描述: 来自delicious.com的125万书签。
大小: 未指定

19. Disasters on social media

描述: 10,000条带有灾难事件标注的推文。
大小: 2 MB

20. Economic News Article Tone and Relevance

描述: 判断新闻文章是否与美国经济相关及其语气。
大小: 12 MB

21. Enron Email Data

描述: 包含1,227,255封电子邮件，覆盖151个保管人。
大小: 210 GB

22. Event Registry

描述: 提供实时访问全球100,000家新闻出版商的新闻文章的免费工具。
大小: 查询工具

23. Federal Contracts from the Federal Procurement Data Center (USASpending.gov)

描述: 来自联邦采购数据中心的联邦合同数据。
大小: 180 GB

24. Flickr Personal Taxonomies

描述: 个人标签的树形数据集。
大小: 40 MB

25. Freebase Data Dump

描述: Freebase中的所有当前事实和断言的数据转储。
大小: 26 GB

26. Freebase Simple Topic Dump

描述: Freebase中每个主题的基本识别事实的数据转储。
大小: 5 GB

27. Freebase Quad Dump

描述: Freebase中的所有当前事实和断言的数据转储。
大小: 35 GB

28. GigaOM Wordpress Challenge [Kaggle]

描述: 博客文章、元数据、用户点赞数据。
大小: 1.5 GB

29. Google Books Ngrams

描述: 在Amazon S3上也可用的Hadoop格式。
大小: 2.2 TB

30. Google Web 5gram

描述: 包含英语单词n-grams及其观察频率计数。
大小: 24 GB

31. Gutenberg Ebook List

描述: 带注释的电子书列表。
大小: 2 MB

32. Hansards text chunks of Canadian Parliament

描述: 来自加拿大议会官方记录的130万对对齐文本块。
大小: 82 MB

33. Harvard Library

描述: 哈佛图书馆持有的超过1200万条书目记录。
大小: 4 GB

34. Hate speech identification

描述: 包含近15,000行，每行文本有三个贡献者判断。
大小: 3 MB

35. Hillary Clinton Emails [Kaggle]

描述: 包含克林顿的近7,000页高度编辑的电子邮件。
大小: 12 MB

36. Home Depot Product Search Relevance [Kaggle]

描述: 包含Home Depot网站上的产品和真实客户搜索词。
大小: 65 MB

37. Identifying key phrases in text

描述: 问题/答案对+上下文；上下文被判断是否与问题/答案相关。
大小: 8 MB

38. Jeopardy

描述: 包含216,930个过去的Jeopardy问题。
大小: 53 MB

39. Machine Translation of European Languages

描述: 欧洲语言的机器翻译数据。
大小: 612 MB

40. Material Safety Datasheets

描述: 230,000份材料安全数据表。
大小: 3 GB

41. MCTest

描述: 用于文本机器理解研究的故事和相关问题集。
大小: 1 MB

42. NEGRA

描述: 德语报纸文本的句法注释语料库。
大小: 请求获取

43. News article / Wikipedia page pairings

描述: 贡献者阅读短文章并被要求判断哪个维基百科页面与之最匹配。
大小: 6 MB

44. NIPS2015 Papers (version 2) [Kaggle]

描述: NIPS2015会议的所有论文全文。
大小: 335 MB

45. NYTimes Facebook Data

描述: 所有NYTimes的Facebook帖子。
大小: 5 MB

46. Objective truths of sentences/concept pairs

描述: 贡献者阅读包含两个概念的句子，并被要求判断句子是否可能为真。
大小: 700 KB

47. Open Library Data Dumps

描述: Open Library中所有记录的所有修订的数据转储。
大小: 16 GB

48. Personae Corpus

描述: 用于作者归属和个性预测实验的荷兰语作文语料库。
大小: 请求获取

49. Reddit Comments

描述: 2015年7月之前所有公开的Reddit评论。
大小: 250 GB

50. Reddit Comments (May ‘15) [Kaggle]

描述: 上述数据集的子集。
大小: 8 GB

51. Reddit Submission Corpus

描述: 2006年1月至2015年8月31日所有公开的Reddit提交。
大小: 42 GB

52. Reuters Corpus

描述: 用于自然语言处理、信息检索和机器学习系统研究和开发的大型路透社新闻故事集合。
大小: 2.5 GB

53. SaudiNewsNet

描述: 从各种在线沙特报纸提取的31,030篇阿拉伯语新闻文章及其元数据。
大小: 2 MB

54. SMS Spam Collection

描述: 5,574条英语、真实且非编码的SMS消息，标记为合法（ham）或垃圾邮件（spam）。
大小: 200 KB

55. SouthparkData

描述: 包含季节、集数、角色和台词的.csv文件。
大小: 3.6 MB

56. Stackoverflow

描述: 730万条Stackoverflow问题和其他Stack Exchange内容。
大小: 查询工具

57. Twitter Cheng-Caverlee-Lee Scrape

描述: 2009年9月至2010年1月期间的推文，带有地理定位。
大小: 400 MB

58. Twitter New England Patriots Deflategate sentiment

描述: 2015年超级碗前关于泄气足球和爱国者队是否作弊的Twitter情绪数据。
大小: 2 MB

59. Twitter Progressive issues sentiment analysis

描述: 关于各种左倾问题的推文，如堕胎合法化、女权主义、希拉里·克林顿等，分类为支持、反对或中立。
大小: 600 KB

60. Twitter Sentiment140

描述: 与品牌/关键词相关的推文。
大小: 77 MB

61. Twitter sentiment analysis: Self-driving cars

描述: 贡献者阅读推文并将其分类为非常积极、稍微积极、中性、稍微消极或非常消极。
大小: 1 MB

62. Twitter Tokyo Geolocated Tweets

描述: 来自东京的200,000条推文

搜集汇总

数据集介绍

构建方式

nlp-datasets是一个包含多种自然语言处理（NLP）文本数据的集合。该数据集的构建主要通过搜集和整理公开域内的文本数据，涵盖了从邮件档案到社交网络媒体的各种文本资源。构建过程中涉及了对大量文本数据的整理和分类，旨在为NLP研究和应用提供丰富的数据支持。

特点

该数据集的特点在于其内容的多样性和来源的广泛性。它不仅包含了未经加工的原始文本数据，还提供了经过特定任务标注的数据集，如情感分析、主题分类等。此外，数据集还注重持续更新和扩充，以适应不断发展的NLP技术需求。

使用方法

用户可以根据自己的研究或应用需求，通过数据集中的描述和链接获取相应的数据。数据集的使用通常需要遵守相应的数据使用条款和版权规定。对于标注数据，用户可以直接用于模型训练和评估；对于原始文本数据，用户可以进行预处理和特征提取，以适应不同的NLP任务。

背景与挑战

背景概述

nlp-datasets数据集是一个按照字母顺序排列的免费/公共领域文本数据集列表，旨在为自然语言处理（NLP）提供使用。该数据集涵盖了从Apache软件基金会邮件存档到YouTube视频描述的各种文本数据，创建时间不等，由多个研究机构和个人维护。它为NLP研究提供了丰富的资源，推动了该领域的发展。

当前挑战

nlp-datasets数据集在构建和使用过程中面临的挑战包括：确保数据的多样性和质量，处理不同来源和格式数据的整合问题，以及在使用这些数据进行模型训练时，如何避免偏见和确保公平性。此外，由于数据集规模庞大，对其进行有效的索引和查询也是一个挑战。

常用场景

经典使用场景

nlp-datasets数据集在自然语言处理领域被广泛使用，其经典的使用场景包括构建语言模型、文本分类、情感分析、信息抽取、机器翻译等任务。该数据集涵盖了从邮件档案到社交媒体评论，从新闻文章到电子书等多种类型的文本数据，为研究者提供了丰富的语言资源。

衍生相关工作

基于nlp-datasets数据集，衍生出了众多相关的研究工作，包括但不限于文本分类算法的改进、情感分析模型的构建、跨语言信息检索等。这些工作进一步拓展了自然语言处理技术在各个领域的应用范围。

数据集最近研究