five

nlp-datasets

收藏
github2020-11-13 更新2024-05-31 收录
下载链接:
https://github.com/MyLuxH/nlp-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
包含自然语言处理(NLP)相关文本数据的免费/公共领域数据集的字母顺序列表。大多数数据集包含原始非结构化文本数据,如果需要注释的语料库或树库,请参考底部来源。

An alphabetical list of free/public domain datasets containing text data related to Natural Language Processing (NLP). Most datasets include raw unstructured text data; for annotated corpora or treebanks, please refer to the sources listed at the bottom.
创建时间:
2020-06-30
原始信息汇总

数据集概述

自然语言处理(NLP)数据集列表

本数据集列表包含多种自然语言处理相关的文本数据集,主要为英文,部分支持多语言。以下是部分数据集的详细信息:

  1. Apache Software Foundation Public Mail Archives

    • 描述:所有公开的Apache软件基金会邮件存档,截至2011年7月11日。
    • 大小:200 GB
  2. Blog Authorship Corpus

    • 描述:2004年8月从blogger.com收集的19,320名博主的帖子。
    • 大小:298 MB
  3. Amazon Fine Food Reviews [Kaggle]

    • 描述:截至2012年10月的568,454条亚马逊食品评论。
    • 大小:240 MB
  4. Amazon Reviews

    • 描述:斯坦福大学收集的3500万亚马逊评论。
    • 大小:11 GB
  5. ArXiv

    • 描述:arXiv上的所有论文全文及源文件。
    • 大小:270 GB(全文)+ 190 GB(源文件)
  6. Classification of political social media

    • 描述:政治社交媒体消息的内容分类。
    • 大小:4 MB
  7. CLiPS Stylometry Investigation (CSI) Corpus

    • 描述:每年扩充的学生文本,主要用于文体学研究。
    • 大小:按需提供
  8. ClueWeb09 FACC

    • 描述:带有Freebase注释的ClueWeb09数据集。
    • 大小:72 GB
  9. ClueWeb11 FACC

    • 描述:带有Freebase注释的ClueWeb11数据集。
    • 大小:92 GB
  10. Common Crawl Corpus

    • 描述:包含超过50亿网页的网络爬虫数据。
    • 大小:541 TB
  11. Cornell Movie Dialog Corpus

    • 描述:从电影剧本中提取的大量虚构对话。
    • 大小:9.5 MB
  12. Corporate messaging

    • 描述:关于公司在社交媒体上实际谈论内容的数据分类。
    • 大小:600 KB
  13. Crosswikis

    • 描述:英文短语到相关维基百科文章的数据库。
    • 大小:11 GB
  14. DBpedia

    • 描述:从维基百科中提取的结构化信息。
    • 大小:17 GB
  15. Death Row

    • 描述:自1984年以来被执行的每个囚犯的最后遗言。
    • 大小:HTML表格
  16. Del.icio.us

    • 描述:delicious.com上的125万书签。
    • 大小:170 MB
  17. Disasters on social media

    • 描述:10,000条带有灾难事件标注的推文。
    • 大小:2 MB
  18. Economic News Article Tone and Relevance

    • 描述:关于美国经济的新闻文章的相关性和语气判断。
    • 大小:12 MB
  19. Enron Email Data

    • 描述:包含1,227,255封电子邮件的数据集。
    • 大小:210 GB
  20. Event Registry

    • 描述:提供实时新闻文章访问的免费工具。
    • 大小:查询工具
  21. Examiner.com - Spam Clickbait News Headlines [Kaggle]

    • 描述:2010年至2015年间由The Examiner发布的300万条新闻标题。
    • 大小:200 MB
  22. Federal Contracts from the Federal Procurement Data Center (USASpending.gov)

    • 描述:联邦采购数据中心的所有联邦合同数据。
    • 大小:180 GB
  23. Flickr Personal Taxonomies

    • 描述:个人标签的树形数据集。
    • 大小:40 MB
  24. Freebase Data Dump

    • 描述:Freebase中的所有当前事实和断言的数据转储。
    • 大小:26 GB
  25. Freebase Simple Topic Dump

    • 描述:Freebase中每个主题的基本识别事实的数据转储。
    • 大小:5 GB
  26. Freebase Quad Dump

    • 描述:Freebase中的所有当前事实和断言的数据转储。
    • 大小:35 GB
  27. GigaOM Wordpress Challenge [Kaggle]

    • 描述:博客文章、元数据、用户点赞数据。
    • 大小:1.5 GB
  28. Google Books Ngrams

    • 描述:Google图书中的n-grams数据。
    • 大小:2.2 TB
  29. Google Web 5gram

    • 描述:包含英语单词n-grams及其观察频率计数的数据集。
    • 大小:24 GB
  30. Gutenberg Ebook List

    • 描述:电子书列表,带有注释。
    • 大小:2 MB
  31. Hansards text chunks of Canadian Parliament

    • 描述:加拿大议会官方记录中的130万对对齐文本块。
    • 大小:82 MB
  32. Harvard Library

    • 描述:哈佛图书馆持有的超过1200万条书目记录。
    • 大小:4 GB
  33. Hate speech identification

    • 描述:包含近15,000行文本,每行文本有三个贡献者判断。
    • 大小:3 MB
  34. Hillary Clinton Emails [Kaggle]

    • 描述:近7,000页的克林顿电子邮件。
    • 大小:12 MB
  35. Historical Newspapers Yearly N-grams and Entities Dataset

    • 描述:英国报纸档案库中1,000,000个最频繁的1-, 2-, 和 3-grams的年使用时间序列。
    • 大小:3.1 GB
  36. Historical Newspapers Daily Word Time Series Dataset

    • 描述:1836年至1922年间87年的英国和美国历史报纸中25,000个最频繁单词的每日使用时间序列。
    • 大小:2.7 GB
  37. Home Depot Product Search Relevance [Kaggle]

    • 描述:包含Home Depot网站上的多个产品和真实客户搜索词。
    • 大小:65 MB
  38. Identifying key phrases in text

    • 描述:问题/答案对+上下文,上下文被判断是否与问题/答案相关。
    • 大小:8 MB
  39. Jeopardy

    • 描述:216,930个过去的Jeopardy问题存档。
    • 大小:53 MB
  40. 200k English plaintext jokes

    • 描述:来自各种来源的208,000个纯文本笑话存档。
    • 大小:GitHub存储库
  41. Machine Translation of European Languages

    • 描述:欧洲语言的机器翻译数据。
    • 大小:612 MB
  42. Material Safety Datasheets

    • 描述:230,000份材料安全数据表。
    • 大小:3 GB
  43. Million News Headlines - ABC Australia [Kaggle]

    • 描述:2003年至2017年间ABC新闻澳大利亚发布的130万条新闻标题。
    • 大小:56 MB
  44. Millions of News Article URLs

    • 描述:2014年10月至2015年4月期间来自950多个英语新闻网站的前页的230万个新闻文章URL。
    • 大小:101 MB
  45. News Headlines of India - Times of India [Kaggle]

    • 描述:2001年至2017年间由印度时报发布的270万条新闻标题。
    • 大小:185 MB
  46. News article / Wikipedia page pairings

    • 描述:贡献者阅读短文章并被要求判断哪两个维基百科页面与之最匹配。
    • 大小:6 MB
  47. NIPS2015 Papers (version 2) [Kaggle]

    • 描述:所有NIPS2015论文的全文。
    • 大小:335 MB
  48. NYTimes Facebook Data

    • 描述:所有纽约时报的Facebook帖子。
    • 大小:5 MB
  49. One Week of Global News Feeds [Kaggle]

    • 描述:2017年8月一周内全球发布的140万篇文章的新闻事件数据集。
    • 大小:115 MB
  50. Objective truths of sentences/concept pairs

    • 描述:贡献者阅读包含两个概念的句子,并被要求判断句子是否可能为真,并按1-5级评分。
    • 大小:700 KB
  51. Open Library Data Dumps

    • 描述:Open Library中所有记录的所有修订的数据转储。
    • 大小:16 GB
  52. Personae Corpus

    • 描述:用于作者归属和个性预测实验的数据集。
    • 大小:按需提供
  53. Reddit Comments

    • 描述:截至2015年7月的所有公开Reddit评论。
    • 大小:250 GB
  54. Reddit Comments (May ‘15) [Kaggle]

    • 描述:上述数据集的子集。
    • 大小:8 GB
  55. Reddit Submission Corpus

    • 描述:2006年1月至2015年8月31日期间所有公开的Reddit提交。
    • 大小:42 GB
  56. Reuters Corpus

    • 描述:用于研究和开发自然语言处理、信息检索和机器学习系统的大量路透社新闻故事。
    • 大小:2.5 GB
  57. SMS Spam Collection

    • 描述:5,574条英文真实非编码SMS消息,标记为合法(ham)或垃圾邮件(spam)。
    • 大小:200 KB
  58. SouthparkData

    • 描述:包含季节、剧集、角色和台词信息的.csv文件。
    • 大小:3.6 MB
  59. Stanford Question Answering Dataset (SQUAD 2.0)

    • 描述:阅读理解数据集,包含人群工作者在维基百科文章上提出的问题,答案为相应阅读段落中的文本段,或问题可能无法回答。
  60. Stackoverflow

    • 描述:730万条Stackoverflow问题及其他StackExchange站点的问题。
    • 大小:查询工具
  61. Twitter Cheng-Caverlee-Lee Scrape

    • 描述:2009年9月至2010年1月期间的推文,地理位置定位。
    • 大小:400 MB
  62. Twitter New England Patriots Deflategate sentiment

    • 描述:2015年超级碗前关于足球泄气事件的Twitter情绪分析。
    • 大小:2 MB
  63. Twitter Progressive issues sentiment analysis

    • 描述:关于各种左倾问题的推文,如堕胎合法化、女权主义、希拉里·克林顿等,分类为支持、反对或中立。
    • 大小:600 KB
  64. Twitter Sentiment140

    • 描述:与品牌/关键词相关的推文。
    • 大小:77 MB
  65. Twitter sentiment analysis: Self-driving cars

    • 描述:贡献者阅读推文并将其分类为非常积极、稍微积极、中性、稍微消极或非常消极,并标记是否与自动驾驶汽车无关。
    • 大小:1 MB
  66. Twitter Elections Integrity

    • 描述:2016年美国选举期间的所有可疑推文和媒体。
    • 大小:1.4 GB
  67. Twitter Tokyo Geolocated Tweets

    • 描述:东京的20万条推文。
    • 大小:47 MB
  68. Twitter UK Geolocated Tweets

    • 描述:英国的17万条推文。
    • 大小:47 MB
  69. Twitter USA Geolocated Tweets

    • 描述:美国的20万条推文。
    • 大小:45 MB
  70. Twitter US Airline Sentiment [Kaggle]

    • 描述:关于美国主要航空公司问题的情绪分析工作。
    • 大小:2.5 MB
  71. U.S. economic performance based on news articles

    • 描述:新闻文章标题和摘要对美国经济的相关性排名。
    • 大小:5 MB
  72. Urban Dictionary Words and Definitions [Kaggle]

    • 描述:2016年5月以来的所有Urban Dictionary单词、定义、作者、投票的清理CSV语料库。
    • 大小:238 MB
  73. Wesbury Lab Usenet Corpus

    • 描述:2005-2010年间来自47,860个英语新闻组的匿名帖子汇编。
    • 大小:40 GB
  74. Wesbury Lab Wikipedia Corpus

    • 描述:2010年4月对英语维基百科所有文章的快照。
    • 大小:1.8 GB
  75. WorldTree Corpus of Explanation Graphs for Elementary Science Questions

    • 描述:为美国公开可用的小学科学考试问题构建的解释图语料库。
    • 大小:8 MB
  76. Wikipedia Extraction (WEX)

    • 描述:英语维基百科的处理转储。
    • 大小:66 GB
  77. Wikipedia XML Data

    • 描述:所有Wikimedia wiki的完整副本,以wikitext源和嵌入XML中的元数据形式。
    • 大小:500 GB
  78. Yahoo! Answers Comprehensive Questions and Answers

    • 描述:截至2007年10月25日的Yahoo! Answers语料库。
    • 大小:3.6 GB
  79. Yahoo! Answers consisting of questions asked in French

    • 描述:2006年至2015年间在法语中提出的170万个问题及其答案的子集。
    • 大小:3.8 GB
  80. Yahoo! Answers Manner Questions

    • 描述:2007年10月25日转储的Yahoo! Answers语料库的子集,选定用于其语言属性。
    • 大小:104 MB
  81. Yahoo! HTML Forms Extracted from Publicly Available Webpages

    • 描述:从公开可用的网页中提取的复杂HTML表单的小样本,包含267万个复杂表单。
    • 大小:50+ GB
  82. Yahoo! Metadata Extracted from Publicly Available Web Pages

    • 描述:1亿个RDF数据三元组。
    • 大小:2 GB
  83. Yahoo N-Gram Representations

    • 描述:n-gram表示的数据集。
    • 大小:2.6 GB
  84. Yahoo! N-Grams, version 2.0

    • 描述:从1460万个文档中提取的n-grams(n = 1到5),这些文档是从12000多个新闻导向站点爬取的。
    • 大小:12 GB
  85. Yahoo! Search Logs with Relevance Judgments

    • 描述:带有相关性判断的匿名Yahoo!搜索日志。
    • 大小:1.3 GB
  86. Yahoo! Semantically Annotated Snapshot of the English Wikipedia

    • 描述:2006年11月4日处理的英语维基百科快照,使用多个公开可用的NLP工具。
    • 大小:6 GB
  87. Yelp

    • 描述:包括餐厅排名和220万条评论。
    • 大小:按需提供
  88. Youtube

    • 描述:170万个YouTube视频描述。
    • 大小:Torrent文件

以上数据集涵盖了从电子

搜集汇总
数据集介绍
main_image_url
构建方式
nlp-datasets 数据集通过整合多个公开的自然语言处理(NLP)相关数据集构建而成,涵盖了从社交媒体、新闻文章到学术论文等多种文本类型。这些数据集主要来源于公开的邮件存档、博客文章、亚马逊评论、维基百科数据等,部分数据通过众包平台进行标注和分类。数据集的构建过程注重多样性和广泛性,确保能够覆盖不同领域的文本数据,为NLP研究提供丰富的语料支持。
特点
nlp-datasets 数据集的特点在于其多样性和规模。数据集包含了从短文本(如推文、短信)到长文本(如学术论文、新闻文章)的多种形式,涵盖了多个语言和领域。部分数据集经过人工标注,提供了情感分析、主题分类等任务的标签。此外,数据集的规模从几百KB到数百GB不等,能够满足不同研究需求。数据集的结构化程度不一,既有原始的未标注文本,也有经过预处理的标注数据,适合用于文本挖掘、机器翻译、情感分析等多种NLP任务。
使用方法
nlp-datasets 数据集的使用方法灵活多样,适用于多种自然语言处理任务。研究者可以根据具体需求选择合适的数据集进行实验。例如,情感分析任务可以使用标注了情感标签的推文数据集,机器翻译任务可以使用多语言平行语料库。数据集通常以CSV、JSON或XML格式提供,便于直接加载和处理。对于大规模数据集,建议使用分布式计算框架(如Hadoop或Spark)进行处理。此外,部分数据集提供了API接口,支持实时数据访问和查询,方便动态数据分析和应用开发。
背景与挑战
背景概述
nlp-datasets是一个专注于自然语言处理(NLP)领域的公开数据集集合,涵盖了从社交媒体文本到学术论文的广泛数据类型。该数据集由多个研究机构和数据平台提供,包括Apache、Kaggle、Stanford等,旨在为NLP研究者提供丰富的文本数据资源。这些数据集的时间跨度从2004年至2017年,涵盖了多种语言和文本类型,如邮件存档、博客文章、商品评论、新闻文章等。通过整合这些多样化的数据,nlp-datasets为NLP领域的研究者提供了强大的数据支持,推动了文本分类、情感分析、机器翻译等任务的发展。
当前挑战
nlp-datasets面临的挑战主要集中在数据多样性与标注质量上。首先,尽管数据集涵盖了广泛的文本类型,但不同数据源的格式和结构差异较大,增加了数据预处理和整合的难度。其次,许多数据集缺乏高质量的标注,尤其是在情感分析和文本分类任务中,标注的主观性可能导致模型训练的不稳定性。此外,数据集的规模差异显著,从小型数据集如SMS Spam Collection到超大规模数据集如Common Crawl Corpus,研究者需要根据任务需求选择合适的数据集,并处理数据不平衡问题。最后,数据隐私和伦理问题也不容忽视,尤其是在处理社交媒体和邮件数据时,如何确保数据使用的合法性和道德性是一个持续的挑战。
常用场景
经典使用场景
nlp-datasets数据集广泛应用于自然语言处理(NLP)领域的研究与开发。其包含的多样化文本数据,如社交媒体消息、新闻文章、电子邮件、博客文章等,为语言模型训练、文本分类、情感分析、机器翻译等任务提供了丰富的语料库。研究者可以利用这些数据构建和优化算法,提升模型在真实场景中的表现。
衍生相关工作
nlp-datasets的开放共享催生了许多经典研究工作。例如,基于Amazon Fine Food Reviews数据集的情感分析模型在电商领域得到了广泛应用;利用Cornell Movie Dialog Corpus开发的对话系统在智能助手领域取得了显著进展;此外,Stanford Question Answering Dataset (SQuAD)推动了问答系统的研究,成为NLP领域的基准数据集之一。这些衍生工作不仅验证了数据集的实用性,也为后续研究提供了重要参考。
数据集最近研究
最新研究方向
近年来,随着自然语言处理(NLP)技术的迅猛发展,nlp-datasets数据集在多个前沿研究方向上展现出重要价值。首先,情感分析领域的研究者利用该数据集中的社交媒体文本(如Twitter Sentiment140和Amazon Fine Food Reviews)进行情感极性分类,推动了情感分析模型的精度提升。其次,在机器翻译领域,该数据集中的多语言文本(如Machine Translation of European Languages)为跨语言翻译模型的训练提供了丰富语料,促进了翻译质量的显著改进。此外,问答系统研究也受益于该数据集中的问答对数据(如Stanford Question Answering Dataset),推动了问答系统在复杂语境下的理解与生成能力。这些研究方向不仅深化了NLP技术的应用场景,也为相关领域的学术研究提供了坚实的数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作