five

Apache Software Foundation Public Mail Archives

收藏
github2019-05-02 更新2024-05-31 收录
下载链接:
https://github.com/indranildchandra/open-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
所有公开可用的Apache软件基金会邮件档案,截至2011年7月11日(200 GB)。

All publicly available Apache Software Foundation email archives, as of July 11, 2011 (200 GB).
创建时间:
2019-03-22
原始信息汇总

数据集概述

自然语言处理(NLP)数据集列表

以下是一些用于自然语言处理(NLP)的免费/公共领域数据集,主要包含英文或多语言的文本数据。这些数据集大多数是原始的非结构化文本数据。

  1. Apache Software Foundation Public Mail Archives

    • 数据量:200 GB
    • 描述:所有公开可用的Apache Software Foundation邮件存档,截至2011年7月11日。
  2. Blog Authorship Corpus

    • 数据量:298 MB
    • 描述:包含19,320位博主在2004年8月从blogger.com收集的帖子,共计681,288篇帖子,超过1400万字。
  3. Amazon Fine Food Reviews [Kaggle]

    • 数据量:240 MB
    • 描述:包含截至2012年10月的568,454条亚马逊用户留下的食品评论。
  4. Amazon Reviews

    • 数据量:11 GB
    • 描述:斯坦福大学收集的3500万条亚马逊评论。
  5. ArXiv

    • 数据量:270 GB(全文)+ 190 GB(源文件)
    • 描述:存档中的所有论文全文及源文件。
  6. ASAP Automated Essay Scoring [Kaggle]

    • 数据量:100 MB
    • 描述:此竞赛包含八个论文集,每个集由一个提示生成。选定的论文平均长度为150至550字,由7至10年级学生撰写,并经过手工评分和双评分。
  7. ASAP Short Answer Scoring [Kaggle]

    • 数据量:35 MB
    • 描述:每个数据集由一个提示生成,选定的响应平均长度为50字,主要由10年级学生撰写,并经过手工评分和双评分。
  8. Classification of political social media

    • 数据量:4 MB
    • 描述:政治社交媒体消息按内容分类。
  9. CLiPS Stylometry Investigation (CSI) Corpus

    • 描述:一个每年扩充的学生文本语料库,包含两种体裁:论文和评论,主要用于文体学研究。
  10. ClueWeb09 FACC

    • 数据量:72 GB
    • 描述:ClueWeb09数据集,带有Freebase注释。
  11. ClueWeb11 FACC

    • 数据量:92 GB
    • 描述:ClueWeb11数据集,带有Freebase注释。
  12. Common Crawl Corpus

    • 数据量:541 TB
    • 描述:由超过50亿个网页组成的网络爬虫数据。
  13. Cornell Movie Dialog Corpus

    • 数据量:9.5 MB
    • 描述:包含从原始电影剧本中提取的大量元数据丰富的虚构对话集合,涉及10,292对电影角色,617部电影。
  14. Corporate messaging

    • 数据量:600 KB
    • 描述:关于公司在社交媒体上实际讨论内容的数据分类任务。
  15. Crosswikis

    • 数据量:11 GB
    • 描述:英语短语与相关维基百科文章的数据库。
  16. DBpedia

    • 数据量:17 GB
    • 描述:从维基百科中提取的结构化信息,并使其在网络上可用。
  17. Death Row

    • 描述:自1984年以来被执行的每个囚犯的最后话语在线HTML表格。
  18. Del.icio.us

    • 数据量:170 MB
    • 描述:delicious.com上的125万个书签。
  19. Disasters on social media

    • 数据量:2 MB
    • 描述:10,000条带有注释的推文,指示推文是否指涉灾难事件。
  20. Economic News Article Tone and Relevance

    • 数据量:12 MB
    • 描述:判断新闻文章是否与美国经济相关,如果是,文章的语气是什么。日期范围从1951年到2014年。
  21. Enron Email Data

    • 数据量:210 GB
    • 描述:包含1,227,255封电子邮件,涵盖151个保管人。
  22. Event Registry

    • 描述:提供对全球100,000家新闻出版商实时新闻文章的访问的免费工具。
  23. Examiner.com - Spam Clickbait News Headlines [Kaggle]

    • 数据量:200 MB
    • 描述:2010年至2015年间由现已解散的点击诱饵网站The Examiner发布的300万条众包新闻标题。
  24. Federal Contracts from the Federal Procurement Data Center (USASpending.gov)

    • 数据量:180 GB
    • 描述:联邦采购数据中心在USASpending.gov上找到的所有联邦合同的数据显示。
  25. Flickr Personal Taxonomies

    • 数据量:40 MB
    • 描述:个人标签的树形数据集。
  26. Freebase Data Dump

    • 数据量:26 GB
    • 描述:Freebase中所有当前事实和断言的数据转储。
  27. Freebase Simple Topic Dump

    • 数据量:5 GB
    • 描述:Freebase中每个主题的基本识别事实的数据转储。
  28. Freebase Quad Dump

    • 数据量:35 GB
    • 描述:Freebase中所有当前事实和断言的数据转储。
  29. GigaOM Wordpress Challenge [Kaggle]

    • 数据量:1.5 GB
    • 描述:博客文章、元数据、用户点赞。
  30. Google Books Ngrams

    • 数据量:2.2 TB
    • 描述:Google Books中的Ngrams数据,也可在Amazon S3上以Hadoop格式提供。
  31. Google Web 5gram

    • 数据量:24 GB
    • 描述:包含英语单词n-gram及其观察频率计数。
  32. Gutenberg Ebook List

    • 数据量:2 MB
    • 描述:电子书的注释列表。
  33. Hansards text chunks of Canadian Parliament

    • 数据量:82 MB
    • 描述:加拿大第36届议会官方记录(Hansards)中的130万对对齐文本块(句子或更小的片段)。
  34. Harvard Library

    • 数据量:4 GB
    • 描述:哈佛图书馆持有的超过1200万条书目记录,包括书籍、期刊、电子资源、手稿、档案材料、乐谱、音频、视频和其他材料。
  35. Hate speech identification

    • 数据量:3 MB
    • 描述:包含近15,000行数据,每行文本有三个贡献者判断是否包含仇恨言论、冒犯性言论或完全不冒犯。
  36. Hillary Clinton Emails [Kaggle]

    • 数据量:12 MB
    • 描述:克林顿的近7,000页经过大量编辑的电子邮件。
  37. Historical Newspapers Yearly N-grams and Entities Dataset

    • 数据量:3.1 GB
    • 描述:英国报纸档案库子集中使用频率最高的1,000,000个1-、2-和3-grams的年使用时间序列,以及与维基百科链接的100,000个最频繁命名实体的年使用时间序列,以及数据集中包含的所有文章和报纸的列表。
  38. Historical Newspapers Daily Word Time Series Dataset

    • 数据量:2.7 GB
    • 描述:1836年至1922年间87年的英国和美国历史报纸中使用频率最高的25,000个单词的每日使用时间序列。
  39. Home Depot Product Search Relevance [Kaggle]

    • 数据量:65 MB
    • 描述:包含Home Depot网站上的多个产品和真实客户搜索词。挑战是预测提供的搜索词和产品组合的相关性得分。为了创建地面实况标签,Home Depot将搜索/产品对众包给多个人类评分者。
  40. Identifying key phrases in text

    • 数据量:8 MB
    • 描述:问题/答案对+上下文;上下文被判断是否与问题/答案相关。
  41. Jeopardy

    • 数据量:53 MB
    • 描述:216,930个过去的Jeopardy问题的存档。
  42. 200k English plaintext jokes

    • 数据量:描述:208,000个来自各种来源的纯文本笑话的存档。
  43. Machine Translation of European Languages

    • 数据量:612 MB
    • 描述:欧洲语言的机器翻译。
  44. Material Safety Datasheets

    • 数据量:3 GB
    • 描述:230,000个材料安全数据表。
  45. Million News Headlines - ABC Australia [Kaggle]

    • 数据量:56 MB
    • 描述:ABC新闻澳大利亚从2003年到2017年发布的130万个新闻标题。
  46. Millions of News Article URLs

    • 数据量:101 MB
    • 描述:2014年10月至2015年4月期间,来自950多个英语新闻媒体的230万个新闻文章URL。
  47. MCTest

    • 数据量:1 MB
    • 描述:一个包含660个故事和相关问题的免费可用集合,用于研究机器对文本的理解;用于问答。
  48. News Headlines of India - Times of India [Kaggle]

    • 数据量:185 MB
    • 描述:印度时报从2001年到2017年发布的270万个新闻标题,带有类别。
  49. News article / Wikipedia page pairings

    • 数据量:6 MB
    • 描述:贡献者阅读一篇短文,并被要求判断它最接近哪两个维基百科文章。
  50. NIPS2015 Papers (version 2) [Kaggle]

    • 数据量:335 MB
    • 描述:所有NIPS2015论文的全文。
  51. NYTimes Facebook Data

    • 数据量:5 MB
    • 描述:所有纽约时报的Facebook帖子。
  52. One Week of Global News Feeds [Kaggle]

    • 数据量:115 MB
    • 描述:2017年8月一周内全球20种语言发布的140万篇文章的新闻事件数据集。
  53. Objective truths of sentences/concept pairs

    • 数据量:700 KB
    • 描述:贡献者阅读包含两个概念的句子,例如“狗是一种动物”或“船长可以与主人有相同的含义”。然后他们被要求判断句子是否可能为真,并按1-5的等级评分。
  54. Open Library Data Dumps

    • 数据量:16 GB
    • 描述:Open Library中所有记录的所有修订的数据转储。
  55. Personae Corpus

    • 描述:用于作者归属和人格预测实验收集的145篇荷兰语论文的语料库。
  56. Reddit Comments

    • 数据量:250 GB
    • 描述:截至2015年7月的所有公开可用Reddit评论,共17亿条评论。
  57. Reddit Comments (May ‘15) [Kaggle]

    • 数据量:8 GB
    • 描述:上述数据集的子集。
  58. Reddit Submission Corpus

    • 数据量:42 GB
    • 描述:2006年1月至2015年8月31日期间所有公开可用的Reddit提交。
  59. Reuters Corpus

    • 数据量:2.5 GB
    • 描述:用于研究和开发自然语言处理、信息检索和机器学习系统的大型路透社新闻故事集合。需要签署协议并通过邮件发送以获取。
  60. SMS Spam Collection

    • 数据量:200 KB
    • 描述:5,574条英语、真实且非编码的短信,标记为合法(ham)或垃圾邮件(spam)。
  61. SouthparkData

    • 数据量:3.6 MB
    • 描述:包含季节、剧集、角色和台词的脚本信息的.csv文件。
  62. Stanford Question Answering Dataset (SQUAD 2.0)

    • 描述:一个阅读理解数据集,由众包工作者在维基百科文章上提出的问题组成,每个问题的答案是相应阅读段落中的文本段,或者问题可能无法回答。
  63. Stackoverflow

    • 描述:730万条Stackoverflow问题以及其他StackExchange网站的查询工具。
  64. Twitter Cheng-Caverlee-Lee Scrape

    • 数据量:400 MB
    • 描述:2009年9月至2010年1月期间的推文,地理位置定位。
  65. Twitter New England Patriots Deflategate sentiment

    • 数据量:2 MB
    • 描述:2015年超级碗之前,关于足球泄气事件的大量讨论。这个数据集分析了重要日期的Twitter情绪,以衡量公众对整个事件的看法。
  66. Twitter Progressive issues sentiment analysis

    • 数据量:600 KB
    • 描述:关于各种左倾问题的推文,如堕胎合法化、女权主义、希拉里·克林顿等,分类为支持、反对或中立(以及以上都不是)。
  67. Twitter Sentiment140

    • 数据量:77 MB
    • 描述:与品牌/关键词相关的推文。网站包括论文和研究想法。
  68. Twitter sentiment analysis: Self-driving cars

    • 数据量:1 MB
    • 描述:贡献者阅读推文并将其分类为非常积极、稍微积极、中性、稍微消极或非常消极。他们还被提示标记推文是否与自动驾驶汽车无关。
  69. Twitter Elections Integrity

    • 数据量:1.4 GB
    • 描述:2016年美国选举中的所有可疑推文和媒体。
  70. Twitter Tokyo Geolocated Tweets

    • 数据量:47 MB
    • 描述:东京的20万条推文。
  71. Twitter UK Geolocated Tweets

    • 数据量:47 MB
    • 描述:英国的17万条推文。
  72. Twitter USA Geolocated Tweets

    • 数据量:45 MB
    • 描述:美国的20万条推文。
  73. Twitter US Airline Sentiment [Kaggle]

    • 数据量:2.5 MB
    • 描述:一项关于美国主要航空公司问题的情绪分析工作。Twitter数据是从2015年2月开始抓取的,贡献者被要求首先将推文分类为积极、消极和中性,然后对消极原因进行分类(如“航班延误”或“粗鲁服务”)。
  74. U.S. economic performance based on news articles

    • 数据量:5 MB
    • 描述:新闻文章标题和摘录被排名为是否与美国经济相关。
  75. Urban Dictionary Words and Definitions [Kaggle]

    • 数据量:238 MB
    • 描述:2016年5月所有Urban Dictionary单词、定义、作者、投票的清理CSV语料库,共260万个。
  76. Wesbury Lab Usenet Corpus

    • 数据量:40 GB
    • 描述:2005-2010年期间来自47,860个英语新闻组的匿名汇编帖子。
  77. Wesbury Lab Wikipedia Corpus

    • 数据量:1.8 GB
    • 描述:2010年4月对英语维基百科所有文章的快照。经过处理,去除了所有链接和无关材料(导航文本等)。该语料库是未标记的原始文本。
  78. **WorldTree Corpus of Explanation Graph

搜集汇总
数据集介绍
main_image_url
构建方式
Apache Software Foundation Public Mail Archives数据集的构建是通过搜集Apache软件基金会公开的邮件存档实现的,涵盖了截至2011年7月11日的所有邮件档案,总计约200GB的数据量。
特点
该数据集的特点在于它包含了大量的邮件存档,为研究者提供了丰富的文本数据资源,可用于自然语言处理、文本挖掘等领域的研究。数据集的多样性体现在它包含了不同时间、不同主题的邮件讨论,有助于分析语言使用的变化趋势和社区动态。
使用方法
使用该数据集时,研究者可以将其导入至文本分析工具中,进行邮件内容的预处理、特征提取和模式识别等操作。此外,数据集可以被用来训练机器学习模型,以进行情感分析、主题分类等任务。在使用前,需确保对数据集的属性和结构有充分的了解,以便正确地应用和解释分析结果。
背景与挑战
背景概述
Apache Software Foundation Public Mail Archives数据集是由Apache软件基金会提供的,包含了截至2011年7月11日所有公开可用的邮件存档,总计约200 GB。该数据集的创建旨在为研究人员提供丰富的文本资源,以促进自然语言处理等领域的研究。Apache软件基金会在开源社区具有广泛的影响力,其邮件存档的开放对相关领域的研究起到了推动作用。
当前挑战
该数据集在构建过程中所遇到的挑战主要包括数据清洗和格式化,以确保邮件内容的完整性和可读性。此外,由于数据量庞大,对存储和计算资源的要求较高。在研究领域中,使用该数据集面临的挑战包括如何有效地提取有用信息,以及如何处理可能存在的数据偏差和隐私问题。
常用场景
经典使用场景
Apache Software Foundation Public Mail Archives数据集是一份珍贵的资源,它包含了Apache软件基金会公开的邮件存档。这一数据集的经典使用场景在于,研究人员可以利用它来分析开源软件项目的沟通模式、开发者之间的交互以及项目决策过程。通过对邮件内容的挖掘,可以揭示软件社区的动态结构和发展趋势。
实际应用
在实际应用中,Apache Software Foundation Public Mail Archives数据集可以被用来改进开源软件项目的管理工具,优化开发者社区的协作流程,甚至可以用于构建智能助手来辅助项目维护者。企业也可以利用这一数据集来分析开源社区的运作方式,以便更好地融入或引导开源项目。
衍生相关工作
基于Apache Software Foundation Public Mail Archives数据集,衍生出了许多相关工作,如开源软件社区的社交网络分析、开发者行为模式的研究以及项目健康度的评估等。这些研究不仅丰富了开源软件生态系统的理论体系,也为开源项目的实践操作提供了有益的指导。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作