five

nlp-datasets

收藏
github2023-01-18 更新2024-05-31 收录
下载链接:
https://github.com/kmario23/nlp-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
包含自然语言处理(NLP)使用的免费/公共领域文本数据集的字母顺序列表。大多数数据集包含原始非结构化文本数据,如需注释语料库或树库,请参考底部来源。

An alphabetical list of free/public domain text datasets for natural language processing (NLP) usage. Most datasets contain raw unstructured text data. For annotated corpora or treebanks, please refer to the sources at the bottom.
创建时间:
2017-06-30
原始信息汇总

数据集概述

1. Apache Software Foundation Public Mail Archives

  • 描述: 所有公开的Apache Software Foundation邮件存档,截至2011年7月11日。
  • 大小: 200 GB

2. Blog Authorship Corpus

  • 描述: 收集自2004年8月的19,320名博主的帖子,共681,288篇帖子,超过140百万字。
  • 大小: 298 MB

3. Amazon Fine Food Reviews [Kaggle]

  • 描述: 包含至2012年10月的568,454条亚马逊食品评论。
  • 大小: 240 MB

4. Amazon Reviews

  • 描述: 斯坦福大学收集的3500万条亚马逊评论。
  • 大小: 11 GB

5. ArXiv

  • 描述: 存档中的所有论文全文(270 GB)+源文件(190 GB)。
  • 大小: 总计460 GB

6. ASAP Automated Essay Scoring [Kaggle]

  • 描述: 包含八套论文集,每套由单一提示生成,平均长度150至550字。
  • 大小: 100 MB

7. ASAP Short Answer Scoring [Kaggle]

  • 描述: 每套数据集由单一提示生成,平均长度50字。
  • 大小: 35 MB

8. Classification of political social media

  • 描述: 政治社交媒体消息的内容分类。
  • 大小: 4 MB

9. CLiPS Stylometry Investigation (CSI) Corpus

  • 描述: 用于文体学研究的年度扩展学生文本语料库,包含论文和评论。
  • 大小: 请求获取

10. ClueWeb09 FACC

  • 描述: ClueWeb09带Freebase注释。
  • 大小: 72 GB

11. ClueWeb11 FACC

  • 描述: ClueWeb11带Freebase注释。
  • 大小: 92 GB

12. Common Crawl Corpus

  • 描述: 包含超过50亿网页的网络爬虫数据。
  • 大小: 541 TB

13. Cornell Movie Dialog Corpus

  • 描述: 包含617部电影中的220,579对电影角色对话。
  • 大小: 9.5 MB

14. Corporate messaging

  • 描述: 关于公司在社交媒体上实际讨论内容的数据分类。
  • 大小: 600 KB

15. Crosswikis

  • 描述: 英语短语到相关维基百科文章的数据库。
  • 大小: 11 GB

16. DBpedia

  • 描述: 从维基百科提取的结构化信息,使其在网络上可用。
  • 大小: 17 GB

17. Death Row

  • 描述: 自1984年以来被执行的每个囚犯的最后话语。
  • 大小: HTML表

18. Del.icio.us

  • 描述: 125万条美味书签。
  • 大小: 未提供

19. Disasters on social media

  • 描述: 10,000条带有灾难事件标注的推文。
  • 大小: 2 MB

20. Economic News Article Tone and Relevance

  • 描述: 1951年至2014年间的新闻文章,判断其是否与美国经济相关及其语气。
  • 大小: 12 MB

21. Enron Email Data

  • 描述: 包含1,227,255封电子邮件,覆盖151个保管人。
  • 大小: 210 GB

22. Event Registry

  • 描述: 提供来自全球100,000家新闻出版商的实时新闻文章访问的免费工具。
  • 大小: 查询工具

23. Federal Contracts from the Federal Procurement Data Center (USASpending.gov)

  • 描述: 来自联邦采购数据中心的联邦合同数据。
  • 大小: 180 GB

24. Flickr Personal Taxonomies

  • 描述: 个人标签的树形数据集。
  • 大小: 40 MB

25. Freebase Data Dump

  • 描述: Freebase中的所有当前事实和断言的数据转储。
  • 大小: 26 GB

26. Freebase Simple Topic Dump

  • 描述: Freebase中每个主题的基本识别事实的数据转储。
  • 大小: 5 GB

27. Freebase Quad Dump

  • 描述: Freebase中的所有当前事实和断言的数据转储。
  • 大小: 35 GB

28. GigaOM Wordpress Challenge [Kaggle]

  • 描述: 博客帖子、元数据、用户点赞。
  • 大小: 1.5 GB

29. Google Books Ngrams

  • 描述: 谷歌图书中的n-grams数据,也可在亚马逊S3上以Hadoop格式获得。
  • 大小: 2.2 TB

30. Google Web 5gram

  • 描述: 包含英语单词n-grams及其观察频率计数。
  • 大小: 24 GB

31. Gutenberg Ebook List

  • 描述: 带注释的电子书列表。
  • 大小: 2 MB

32. Hansards text chunks of Canadian Parliament

  • 描述: 来自加拿大议会官方记录的130万对对齐文本块。
  • 大小: 82 MB

33. Harvard Library

  • 描述: 哈佛图书馆持有的超过1200万条书目记录,包括书籍、期刊、电子资源等。
  • 大小: 4 GB

34. Hate speech identification

  • 描述: 包含近15,000行文本,每行文本有三个贡献者判断是否包含仇恨言论。
  • 大小: 3 MB

35. Hillary Clinton Emails [Kaggle]

  • 描述: 近7,000页的克林顿电子邮件。
  • 大小: 12 MB

36. Home Depot Product Search Relevance [Kaggle]

  • 描述: 包含Home Depot网站上的产品和真实客户搜索词,挑战是预测提供的搜索词和产品组合的相关性得分。
  • 大小: 65 MB

37. Identifying key phrases in text

  • 描述: 问题/答案对+上下文;上下文被判断是否与问题/答案相关。
  • 大小: 8 MB

38. Jeopardy

  • 描述: 216,930个过去的Jeopardy问题存档。
  • 大小: 53 MB

39. Machine Translation of European Languages

  • 描述: 欧洲语言的机器翻译。
  • 大小: 612 MB

40. Material Safety Datasheets

  • 描述: 230,000份材料安全数据表。
  • 大小: 3 GB

41. MCTest

  • 描述: 用于研究机器文本理解的660个故事及其相关问题。
  • 大小: 1 MB

42. NEGRA

  • 描述: 德语报纸文本的句法注释语料库,可供所有大学和非营利组织免费使用。
  • 大小: 请求获取

43. News article / Wikipedia page pairings

  • 描述: 贡献者阅读简短文章并被要求判断哪个维基百科文章与之最匹配。
  • 大小: 6 MB

44. NIPS2015 Papers (version 2) [Kaggle]

  • 描述: NIPS2015会议的所有论文全文。
  • 大小: 335 MB

45. NYTimes Facebook Data

  • 描述: 所有纽约时报的Facebook帖子。
  • 大小: 5 MB

46. Objective truths of sentences/concept pairs

  • 描述: 贡献者阅读包含两个概念的句子,并被要求判断句子是否可能为真,并按1-5级评分。
  • 大小: 700 KB

47. Open Library Data Dumps

  • 描述: Open Library中所有记录的所有修订的数据转储。
  • 大小: 16 GB

48. Personae Corpus

  • 描述: 用于作者归属和个性预测实验的145篇荷兰语论文。
  • 大小: 请求获取

49. Reddit Comments

  • 描述: 截至2015年7月的所有公开Reddit评论,共17亿条评论。
  • 大小: 250 GB

50. Reddit Comments (May ‘15) [Kaggle]

  • 描述: 上述数据集的子集。
  • 大小: 8 GB

51. Reddit Submission Corpus

  • 描述: 2006年1月至2015年8月31日的所有公开Reddit提交。
  • 大小: 42 GB

52. Reuters Corpus

  • 描述: 用于研究和开发自然语言处理、信息检索和机器学习系统的大型路透社新闻故事集合。
  • 大小: 2.5 GB

53. SaudiNewsNet

  • 描述: 来自各种在线沙特报纸的31,030篇阿拉伯语新闻文章及其元数据。
  • 大小: 2 MB

54. SMS Spam Collection

  • 描述: 5,574条英语真实非编码SMS消息,标记为合法(ham)或垃圾邮件(spam)。
  • 大小: 200 KB

55. SouthparkData

  • 描述: 包含季节、集数、角色和台词的.csv文件。
  • 大小: 3.6 MB

56. Stackoverflow

  • 描述: 730万条Stackoverflow问题及其他Stack Exchange站点的问题。
  • 大小: 查询工具

57. Twitter Cheng-Caverlee-Lee Scrape

  • 描述: 2009年9月至2010年1月的地理位置定位推文。
  • 大小: 400 MB

58. Twitter New England Patriots Deflategate sentiment

  • 描述: 2015年超级碗前关于放气足球和爱国者队是否作弊的推特情绪分析。
  • 大小: 2 MB

59. Twitter Progressive issues sentiment analysis

  • 描述: 关于各种左倾问题的推文,如堕胎合法化、女权主义、希拉里·克林顿等,分类为支持、反对或中立。
  • 大小: 600 KB

60. Twitter Sentiment140

  • 描述: 与品牌/关键词相关的推文。
  • 大小: 77 MB

61. Twitter sentiment analysis: Self-driving cars

  • 描述: 贡献者阅读推文并将其分类为非常积极、稍微积极、中性、稍微消极或非常消极。
  • 大小: 1 MB

62. Twitter Tokyo Geolocated Tweets

  • 描述: 来自东京的200,000条推文。
  • 大小: 47 MB

63. Twitter UK Geolocated Tweets

  • 描述: 来自英国的170,000条推文。
  • 大小: 47 MB

64. Twitter USA Geolocated Tweets

  • 描述: 来自美国的200,000条推文。
  • 大小: 45 MB

65. Twitter US Airline Sentiment [Kaggle]

  • 描述: 关于美国主要航空公司问题的情绪分析工作。
  • 大小: 2.5 MB

66. U.S. economic performance based on news articles

  • 描述: 新闻文章标题和摘录,排名是否与美国经济相关。
  • 大小: 5 MB

67. Wesbury Lab Usenet Corpus

  • 描述: 2005-2010年间的47,860个英语语言新闻组的匿名汇编。
  • 大小: 40 GB

68. Wesbury Lab Wikipedia Corpus

  • 描述: 2010年4月对英语维基百科文章的快照,处理后去除所有链接和无关材料。
  • 大小: 1.8 GB

69. Wikipedia Extraction (WEX)

  • 描述: 英语维基百科的加工转储。
  • 大小: 66 GB

70. Wikipedia XML Data

  • 描述: 所有维基媒体站点的完整副本,形式为wikitext源和嵌入XML的元数据。
  • 大小: 500 GB

71. Yahoo! Answers Comprehensive Questions and Answers

  • 描述: 截至2007年10月25日的雅虎答案语料库,包含4,483,032个问题及其答案。
  • 大小: 3.6 GB

72. Yahoo! Answers consisting of questions asked in French

  • 描述: 2006年至2015年间,包含170万个用法语提问的问题及其相应的答案。
  • 大小: 3.8 GB

73. Yahoo! Answers Manner Questions

  • 描述: 2007年10月25日转储的雅虎答案语料库子集,选定用于其语言属性。
  • 大小: 104 MB

74. Yahoo! HTML Forms Extracted from Publicly Available Webpages

  • 描述: 包含复杂HTML表单的小样本页面,包含267万个复杂表单。
  • 大小: 50+ GB

75. Yahoo! Metadata Extracted from Publicly Available Web Pages

  • 描述: 1亿个RDF数据三元组。
  • 大小: 2 GB

76. Yahoo N-Gram Representations

  • 描述: 包含n-gram表示的数据集。
  • 大小: 2.6 GB

77. Yahoo! N-Grams, version 2.0

  • 描述: 从1460万份文档中提取的n-grams(n=1至5),涵盖12,000多个新闻导向站点。
  • 大小: 12 GB

78. Yahoo! Search Logs with Relevance Judgments

  • 描述: 带有相关性判断的匿名雅虎搜索日志。
  • 大小: 1.3 GB

79. Yahoo! Semantically Annotated Snapshot of the English Wikipedia

  • 描述: 2006年11月4日处理的英语维基百科快照,使用多个公开可用的NLP工具。
  • 大小: 6 GB

80. Yelp

  • 描述: 包括餐厅排名和220万条评论。
  • 大小: 请求获取

81. Youtube

  • 描述: 170万个YouTube视频描述。
  • 大小: 未提供(torrent)
搜集汇总
数据集介绍
main_image_url
构建方式
nlp-datasets数据集通过整合多个公开的自然语言处理(NLP)领域的数据源构建而成。这些数据源包括来自Apache软件基金会的邮件存档、博客文章、亚马逊商品评论、学术论文、社交媒体消息等。数据集的内容涵盖了从非结构化文本到带有注释的语料库,数据来源多样且广泛,确保了数据的丰富性和多样性。
使用方法
nlp-datasets数据集的使用方法灵活多样,适用于多种自然语言处理任务。研究人员可以根据具体需求选择合适的数据子集,如情感分析、文本分类、机器翻译等。数据集中的每个子集通常附有详细的元数据和来源信息,便于用户快速定位和使用。此外,部分数据集还提供了API接口或查询工具,方便用户进行实时数据访问和分析。
背景与挑战
背景概述
nlp-datasets是一个专注于自然语言处理(NLP)领域的公开数据集集合,涵盖了从邮件存档、博客文章、商品评论到社交媒体文本等多种类型的文本数据。该数据集由多个研究机构和平台共同贡献,包括Apache Software Foundation、Kaggle、Stanford University等。其核心研究问题在于如何利用这些多样化的文本数据进行自然语言处理任务,如文本分类、情感分析、机器翻译等。该数据集自2011年起逐步积累,已成为NLP领域的重要资源,推动了文本分析、信息检索和语言模型等技术的发展。
当前挑战
nlp-datasets面临的挑战主要体现在两个方面。首先,数据集的多样性和规模虽然为研究提供了丰富的素材,但也带来了数据质量和一致性问题。例如,不同来源的文本数据可能存在格式不统一、标注标准不一致等问题,增加了数据预处理的复杂性。其次,构建过程中需要解决数据隐私和版权问题,尤其是在处理社交媒体和用户生成内容时,如何在不侵犯隐私的前提下合法使用数据是一个重要挑战。此外,部分数据集规模庞大,存储和处理这些数据对计算资源提出了较高要求,进一步增加了研究门槛。
常用场景
经典使用场景
在自然语言处理(NLP)领域,nlp-datasets数据集为研究人员提供了丰富的文本数据资源,涵盖了从社交媒体内容到学术论文的广泛领域。这些数据集常用于训练和评估文本分类、情感分析、机器翻译等模型。例如,Amazon Fine Food Reviews数据集被广泛用于情感分析和产品推荐系统的研究,而Cornell Movie Dialog Corpus则常用于对话生成和自然语言理解任务。
解决学术问题
nlp-datasets数据集解决了自然语言处理中的多个核心问题。通过提供多样化的文本数据,研究人员能够更好地理解语言的结构和语义。例如,Enron Email Data数据集帮助研究者分析电子邮件中的信息提取和主题分类问题,而Twitter Sentiment140数据集则为情感分析提供了大量标注数据,推动了情感分类算法的发展。这些数据集的存在极大地促进了NLP领域的学术研究和技术进步。
实际应用
在实际应用中,nlp-datasets数据集被广泛用于构建智能系统。例如,Amazon Reviews数据集被电商平台用于分析用户反馈,优化产品推荐算法;Twitter US Airline Sentiment数据集则被航空公司用于监控社交媒体上的客户情绪,及时响应客户投诉。此外,Google Books Ngrams数据集被用于语言模型的训练,支持搜索引擎和语音助手的开发。这些应用展示了数据集在商业和技术领域的巨大潜力。
数据集最近研究
最新研究方向
近年来,随着自然语言处理(NLP)技术的迅猛发展,nlp-datasets数据集在多个前沿研究方向上展现出重要价值。特别是在情感分析、文本生成和机器翻译等领域,该数据集为研究者提供了丰富的文本资源。例如,基于Amazon Fine Food Reviews和Twitter Sentiment140等子集的情感分析研究,能够深入挖掘用户评论和社交媒体中的情感倾向,助力品牌舆情监控和消费者行为分析。此外,ArXiv和Wikipedia XML Data等大规模文本数据为预训练语言模型(如BERT、GPT)提供了海量语料,推动了生成式AI和知识图谱构建的进展。随着多模态学习和跨语言处理的兴起,nlp-datasets中的多语言数据集(如Yahoo! Answers French)也为跨文化研究和全球化应用提供了重要支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作