nlp-datasets

github2018-11-14 更新2024-05-31 收录

下载链接：

https://github.com/LuJunru/nlp-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

包含自然语言处理(NLP)使用的免费/公共领域文本数据集的字母顺序列表。这里的大部分内容是原始非结构化文本数据，如果寻找标注语料库或树库，请参考底部的来源。

An alphabetical list of free/public domain text datasets used in Natural Language Processing (NLP). The majority of the content here consists of raw unstructured text data. For those seeking annotated corpora or treebanks, please refer to the sources listed at the bottom.

创建时间：

2018-07-15

原始信息汇总

数据集概述

1. Apache Software Foundation Public Mail Archives

描述: 包含截至2011年7月11日的所有公开的Apache Software Foundation邮件档案。
大小: 200 GB

2. Blog Authorship Corpus

描述: 收集了2004年8月来自blogger.com的19,320名博主的帖子。
大小: 298 MB

3. Amazon Fine Food Reviews [Kaggle]

描述: 包含截至2012年10月的568,454条亚马逊食品评论。
大小: 240 MB

4. Amazon Reviews

描述: 斯坦福大学收集的3500万亚马逊评论。
大小: 11 GB

5. ArXiv

描述: 档案中的所有论文全文及源文件。
大小: 270 GB (全文) + 190 GB (源文件)

6. ASAP Automated Essay Scoring [Kaggle]

描述: 包含八组论文，每组由单一提示生成。
大小: 100 MB

7. ASAP Short Answer Scoring [Kaggle]

描述: 每组数据由单一提示生成，平均长度为50字。
大小: 35 MB

8. Classification of political social media

描述: 政治社交媒体消息的内容分类。
大小: 4 MB

9. CLiPS Stylometry Investigation (CSI) Corpus

描述: 每年扩充的学生文本，主要用于文体学研究。
大小: 需请求

10. ClueWeb09 FACC

描述: ClueWeb09数据集，带有Freebase注释。
大小: 72 GB

11. ClueWeb11 FACC

描述: ClueWeb11数据集，带有Freebase注释。
大小: 92 GB

12. Common Crawl Corpus

描述: 包含超过50亿网页的网络爬虫数据。
大小: 541 TB

13. Cornell Movie Dialog Corpus

描述: 包含从电影剧本中提取的大量虚构对话。
大小: 9.5 MB

14. Corporate messaging

描述: 关于公司在社交媒体上实际谈论内容的分类数据。
大小: 600 KB

15. Crosswikis

描述: 英语短语与关联维基百科文章的数据库。
大小: 11 GB

16. DBpedia

描述: 从维基百科中提取的结构化信息。
大小: 17 GB

17. Death Row

描述: 自1984年以来被执行死刑的囚犯的最后遗言。
大小: HTML表格

18. Del.icio.us

描述: 来自delicious.com的125万书签。
大小: 未提供

19. Disasters on social media

描述: 10,000条带有灾难事件标注的推文。
大小: 2 MB

20. Economic News Article Tone and Relevance

描述: 判断新闻文章是否与美国经济相关及其语气。
大小: 12 MB

21. Enron Email Data

描述: 包含1,227,255封电子邮件，涵盖151个保管人。
大小: 210 GB

22. Event Registry

描述: 提供实时新闻文章访问的免费工具。
大小: 查询工具

23. Federal Contracts from the Federal Procurement Data Center (USASpending.gov)

描述: 美国联邦采购数据中心的联邦合同数据。
大小: 180 GB

24. Flickr Personal Taxonomies

描述: 个人标签的树形数据集。
大小: 40 MB

25. Freebase Data Dump

描述: Freebase中的所有当前事实和断言的数据转储。
大小: 26 GB

26. Freebase Simple Topic Dump

描述: Freebase中每个主题的基本识别事实的数据转储。
大小: 5 GB

27. Freebase Quad Dump

描述: Freebase中所有当前事实和断言的数据转储。
大小: 35 GB

28. GigaOM Wordpress Challenge [Kaggle]

描述: 博客文章、元数据和用户喜欢。
大小: 1.5 GB

29. Google Books Ngrams

描述: 谷歌图书中的n-grams数据。
大小: 2.2 TB

30. Google Web 5gram

描述: 包含英语单词n-grams及其观察频率计数。
大小: 24 GB

31. Gutenberg Ebook List

描述: 古腾堡电子书列表。
大小: 2 MB

32. Hansards text chunks of Canadian Parliament

描述: 加拿大议会官方记录中的130万对对齐文本块。
大小: 82 MB

33. Harvard Library

描述: 哈佛图书馆持有的超过1200万条书目记录。
大小: 4 GB

34. Hate speech identification

描述: 识别包含仇恨言论、冒犯性内容或非冒犯性内容的短文本。
大小: 3 MB

35. Hillary Clinton Emails [Kaggle]

描述: 希拉里·克林顿的近7000页电子邮件。
大小: 12 MB

36. Home Depot Product Search Relevance [Kaggle]

描述: 包含Home Depot网站上的产品和真实客户搜索词。
大小: 65 MB

37. Identifying key phrases in text

描述: 问题/答案对及其上下文的相关性判断。
大小: 8 MB

38. Jeopardy

描述: 216,930个Jeopardy问题存档。
大小: 53 MB

39. Machine Translation of European Languages

描述: 欧洲语言的机器翻译数据。
大小: 612 MB

40. Material Safety Datasheets

描述: 230,000份材料安全数据表。
大小: 3 GB

41. MCTest

描述: 用于机器理解文本研究的660个故事及其相关问题。
大小: 1 MB

42. NEGRA

描述: 德语报纸文本的语法标注语料库。
大小: 需请求

43. News article / Wikipedia page pairings

描述: 新闻文章与维基百科页面的配对数据。
大小: 6 MB

44. NIPS2015 Papers (version 2) [Kaggle]

描述: NIPS2015会议的所有论文全文。
大小: 335 MB

45. NYTimes Facebook Data

描述: 纽约时报的Facebook帖子。
大小: 5 MB

46. Objective truths of sentences/concept pairs

描述: 句子与概念对的客观真实性评估。
大小: 700 KB

47. Open Library Data Dumps

描述: Open Library中所有记录的所有修订的数据转储。
大小: 16 GB

48. Personae Corpus

描述: 用于作者归属和个性预测实验的荷兰语文本。
大小: 需请求

49. Reddit Comments

描述: 截至2015年7月的所有公开Reddit评论。
大小: 250 GB

50. Reddit Comments (May ‘15) [Kaggle]

描述: 上述数据集的子集。
大小: 8 GB

51. Reddit Submission Corpus

描述: 2006年1月至2015年8月的所有公开Reddit提交。
大小: 42 GB

52. Reuters Corpus

描述: 用于研究和开发自然语言处理、信息检索和机器学习系统的大型路透社新闻故事集合。
大小: 2.5 GB

53. SaudiNewsNet

描述: 来自各种在线沙特报纸的31,030篇阿拉伯语新闻文章及其元数据。
大小: 2 MB

54. SMS Spam Collection

描述: 5,574条英文真实非编码SMS消息，标记为合法或垃圾邮件。
大小: 200 KB

55. SouthparkData

描述: 包含季节、剧集、角色和台词的南方公园脚本信息。
大小: 3.6 MB

56. Stackoverflow

描述: 730万Stackoverflow问题及其他Stack Exchange网站的查询工具。
大小: 查询工具

57. Twitter Cheng-Caverlee-Lee Scrape

描述: 2009年9月至2010年1月的地理位置定位推文。
大小: 400 MB

58. Twitter New England Patriots Deflategate sentiment

描述: 关于2015年超级碗前充气足球争议的Twitter情绪分析。
大小: 2 MB

59. Twitter Progressive issues sentiment analysis

描述: 关于各种左倾问题的推文情绪分类。
大小: 600 KB

60. Twitter Sentiment140

描述: 与品牌/关键词相关的推文。
大小: 77 MB

61. Twitter sentiment analysis: Self-driving cars

描述: 关于自动驾驶汽车的推文情绪分析。
大小: 1 MB

62. Twitter Tokyo Geolocated Tweets

描述: 来自东京的200,000条推文。
大小: 47 MB

63. Twitter UK Geolocated Tweets

描述: 来自英国的170,000条推文。
大小: 47 MB

64. Twitter USA Geolocated Tweets

描述: 来自美国的200,000条推文。
大小: 45 MB

65. Twitter US Airline Sentiment [Kaggle]

描述: 关于美国主要航空公司问题的情绪分析。
大小: 2.5 MB

66. U.S. economic performance based on news articles

描述: 根据新闻文章判断美国经济表现。
大小: 5 MB

67. Wesbury Lab Usenet Corpus

描述: 2005-2010年英语新闻组的匿名汇编。
大小: 40 GB

68. Wesbury Lab Wikipedia Corpus

描述: 2010年4月对英语维基百科文章的快照。
大小: 1.8 GB

69. Wikipedia Extraction (WEX)

描述: 英语维基百科的加工转储。
大小: 66 GB

70. Wikipedia XML Data

描述: 所有维基媒体站点的完整副本，包括wikitext源和嵌入XML的元数据。
大小: 500 GB

71. Yahoo! Answers Comprehensive Questions and Answers

描述: 2007年10月25日的Yahoo! Answers语料库。
大小: 3.6 GB

72. Yahoo! Answers consisting of questions asked in French

描述: 2006年至2015年间用法语提问的Yahoo! Answers子集。
大小: 3.8 GB

73. Yahoo! Answers Manner Questions

描述: 2007年10月25日Yahoo! Answers语料库的子集，用于其语言特性。
大小: 104 MB

74. Yahoo! HTML Forms Extracted from Publicly Available Webpages

描述: 从公开可用的网页中提取的复杂HTML表单样本。
大小: 50+ GB

75. Yahoo! Metadata Extracted from Publicly Available Web Pages

描述: 1亿个RDF数据三元组。
大小: 2 GB

76. Yahoo N-Gram Representations

描述: 包含n-gram表示的数据集。
大小: 2.6 GB

77. Yahoo! N-Grams, version 2.0

描述: 从1460万文档中提取的n-grams（n=1至5）。
大小: 12 GB

78. Yahoo! Search Logs with Relevance Judgments

描述: 带有相关性判断的匿名Yahoo!搜索日志。
大小: 1.3 GB

79. Yahoo! Semantically Annotated Snapshot of the English Wikipedia

描述: 2006年11月4日英语维基百科的语义标注快照。
大小: 6 GB

80. Yelp

描述: 包括餐厅排名和220万条评论。
大小: 需请求

81. Youtube

描述: 170万YouTube视频描述。
大小: 未提供

搜集汇总

数据集介绍

构建方式

nlp-datasets 是一个包含多种自然语言处理（NLP）文本数据的集合。该数据集通过搜集和整理公开域内的文本数据，涵盖了从邮件存档到社交媒体帖子，再到新闻文章和书籍等多种类型的文本资源。构建过程中，开发者们注重数据的多样性和可用性，旨在为研究者提供丰富的文本素材。

特点

该数据集的特点在于其广泛性和开放性，涵盖了不同来源和类型的文本数据。这些数据不仅包括原始的非结构化文本，如邮件存档和社交媒体帖子，还包括经过注释的语料库和树库，适用于各种NLP任务。此外，数据集不断更新，保证了研究者的数据需求能够得到满足。

使用方法

使用 nlp-datasets 的方式多样，研究者可以直接从GitHub页面获取数据集列表，并根据提供的链接访问和下载数据。每个数据集都有详细的描述，包括数据来源、大小和用途，方便研究者选择适合自己研究需求的数据。此外，部分数据集还提供了API接口，便于自动化处理和分析数据。

背景与挑战

背景概述

nlp-datasets数据集是一个全面的自然语言处理（NLP）领域公开数据集列表，旨在为研究人员提供丰富的文本资源。该数据集涵盖了从邮件存档、博客文章、产品评论到社交媒体帖子等多样化的文本类型，为语言模型训练、文本分类、情感分析等任务提供了基础数据支持。创建于信息时代，nlp-datasets汇集了全球研究人员的智慧，成为了NLP领域不可或缺的资源库。

当前挑战

nlp-datasets在构建过程中遇到的挑战主要包括数据的多样性和质量保证。由于数据来源广泛，格式和内容质量参差不齐，确保数据的一致性和可用性是一项艰巨的任务。此外，所解决的领域问题如文本分类、情感分析等，需要应对标签不一致、数据偏差和模型泛化能力等挑战。

常用场景

经典使用场景

nlp-datasets作为自然语言处理领域的重要资源库，其经典使用场景主要集中于学术研究、语言模型训练、文本分析等。学者和研究人员可通过该数据集进行语言特征分析、情感分析、主题建模等研究，从而深入理解语言使用的规律和特点。

解决学术问题

该数据集解决了学术研究中对于大规模、多样化文本数据的迫切需求。它包含了从邮件档案到社交媒体帖子，从新闻报道到书籍文本的广泛数据，有助于研究人员克服数据不足的难题，进行更深入的语言学研究、信息检索和机器学习。

衍生相关工作

基于nlp-datasets，衍生出了众多相关的工作，包括但不限于构建语言模型、情感分析框架、信息抽取系统等。这些工作推动了自然语言处理领域的发展，促进了新算法和模型的诞生。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集