Apache Software Foundation Public Mail Archives

github2019-05-02 更新2024-05-31 收录

下载链接：

https://github.com/indranildchandra/open-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

所有公开可用的Apache软件基金会邮件档案，截至2011年7月11日（200 GB）。

All publicly available Apache Software Foundation email archives, as of July 11, 2011 (200 GB).

创建时间：

2019-03-22

原始信息汇总

数据集概述

自然语言处理（NLP）数据集列表

以下是一些用于自然语言处理（NLP）的免费/公共领域数据集，主要包含英文或多语言的文本数据。这些数据集大多数是原始的非结构化文本数据。

Apache Software Foundation Public Mail Archives
- 数据量：200 GB
- 描述：所有公开可用的Apache Software Foundation邮件存档，截至2011年7月11日。
Blog Authorship Corpus
- 数据量：298 MB
- 描述：包含19,320位博主在2004年8月从blogger.com收集的帖子，共计681,288篇帖子，超过1400万字。
Amazon Fine Food Reviews [Kaggle]
- 数据量：240 MB
- 描述：包含截至2012年10月的568,454条亚马逊用户留下的食品评论。
Amazon Reviews
- 数据量：11 GB
- 描述：斯坦福大学收集的3500万条亚马逊评论。
ArXiv
- 数据量：270 GB（全文）+ 190 GB（源文件）
- 描述：存档中的所有论文全文及源文件。
ASAP Automated Essay Scoring [Kaggle]
- 数据量：100 MB
- 描述：此竞赛包含八个论文集，每个集由一个提示生成。选定的论文平均长度为150至550字，由7至10年级学生撰写，并经过手工评分和双评分。
ASAP Short Answer Scoring [Kaggle]
- 数据量：35 MB
- 描述：每个数据集由一个提示生成，选定的响应平均长度为50字，主要由10年级学生撰写，并经过手工评分和双评分。
Classification of political social media
- 数据量：4 MB
- 描述：政治社交媒体消息按内容分类。
CLiPS Stylometry Investigation (CSI) Corpus
- 描述：一个每年扩充的学生文本语料库，包含两种体裁：论文和评论，主要用于文体学研究。
ClueWeb09 FACC
- 数据量：72 GB
- 描述：ClueWeb09数据集，带有Freebase注释。
ClueWeb11 FACC
- 数据量：92 GB
- 描述：ClueWeb11数据集，带有Freebase注释。
Common Crawl Corpus
- 数据量：541 TB
- 描述：由超过50亿个网页组成的网络爬虫数据。
Cornell Movie Dialog Corpus
- 数据量：9.5 MB
- 描述：包含从原始电影剧本中提取的大量元数据丰富的虚构对话集合，涉及10,292对电影角色，617部电影。
Corporate messaging
- 数据量：600 KB
- 描述：关于公司在社交媒体上实际讨论内容的数据分类任务。
Crosswikis
- 数据量：11 GB
- 描述：英语短语与相关维基百科文章的数据库。
DBpedia
- 数据量：17 GB
- 描述：从维基百科中提取的结构化信息，并使其在网络上可用。
Death Row
- 描述：自1984年以来被执行的每个囚犯的最后话语在线HTML表格。
Del.icio.us
- 数据量：170 MB
- 描述：delicious.com上的125万个书签。
Disasters on social media
- 数据量：2 MB
- 描述：10,000条带有注释的推文，指示推文是否指涉灾难事件。
Economic News Article Tone and Relevance
- 数据量：12 MB
- 描述：判断新闻文章是否与美国经济相关，如果是，文章的语气是什么。日期范围从1951年到2014年。
Enron Email Data
- 数据量：210 GB
- 描述：包含1,227,255封电子邮件，涵盖151个保管人。
Event Registry
- 描述：提供对全球100,000家新闻出版商实时新闻文章的访问的免费工具。
Examiner.com - Spam Clickbait News Headlines [Kaggle]
- 数据量：200 MB
- 描述：2010年至2015年间由现已解散的点击诱饵网站The Examiner发布的300万条众包新闻标题。
Federal Contracts from the Federal Procurement Data Center (USASpending.gov)
- 数据量：180 GB
- 描述：联邦采购数据中心在USASpending.gov上找到的所有联邦合同的数据显示。
Flickr Personal Taxonomies
- 数据量：40 MB
- 描述：个人标签的树形数据集。
Freebase Data Dump
- 数据量：26 GB
- 描述：Freebase中所有当前事实和断言的数据转储。
Freebase Simple Topic Dump
- 数据量：5 GB
- 描述：Freebase中每个主题的基本识别事实的数据转储。
Freebase Quad Dump
- 数据量：35 GB
- 描述：Freebase中所有当前事实和断言的数据转储。
GigaOM Wordpress Challenge [Kaggle]
- 数据量：1.5 GB
- 描述：博客文章、元数据、用户点赞。
Google Books Ngrams
- 数据量：2.2 TB
- 描述：Google Books中的Ngrams数据，也可在Amazon S3上以Hadoop格式提供。
Google Web 5gram
- 数据量：24 GB
- 描述：包含英语单词n-gram及其观察频率计数。
Gutenberg Ebook List
- 数据量：2 MB
- 描述：电子书的注释列表。
Hansards text chunks of Canadian Parliament
- 数据量：82 MB
- 描述：加拿大第36届议会官方记录（Hansards）中的130万对对齐文本块（句子或更小的片段）。
Harvard Library
- 数据量：4 GB
- 描述：哈佛图书馆持有的超过1200万条书目记录，包括书籍、期刊、电子资源、手稿、档案材料、乐谱、音频、视频和其他材料。
Hate speech identification
- 数据量：3 MB
- 描述：包含近15,000行数据，每行文本有三个贡献者判断是否包含仇恨言论、冒犯性言论或完全不冒犯。
Hillary Clinton Emails [Kaggle]
- 数据量：12 MB
- 描述：克林顿的近7,000页经过大量编辑的电子邮件。
Historical Newspapers Yearly N-grams and Entities Dataset
- 数据量：3.1 GB
- 描述：英国报纸档案库子集中使用频率最高的1,000,000个1-、2-和3-grams的年使用时间序列，以及与维基百科链接的100,000个最频繁命名实体的年使用时间序列，以及数据集中包含的所有文章和报纸的列表。
Historical Newspapers Daily Word Time Series Dataset
- 数据量：2.7 GB
- 描述：1836年至1922年间87年的英国和美国历史报纸中使用频率最高的25,000个单词的每日使用时间序列。
Home Depot Product Search Relevance [Kaggle]
- 数据量：65 MB
- 描述：包含Home Depot网站上的多个产品和真实客户搜索词。挑战是预测提供的搜索词和产品组合的相关性得分。为了创建地面实况标签，Home Depot将搜索/产品对众包给多个人类评分者。
Identifying key phrases in text
- 数据量：8 MB
- 描述：问题/答案对+上下文；上下文被判断是否与问题/答案相关。
Jeopardy
- 数据量：53 MB
- 描述：216,930个过去的Jeopardy问题的存档。
200k English plaintext jokes
- 数据量：描述：208,000个来自各种来源的纯文本笑话的存档。
Machine Translation of European Languages
- 数据量：612 MB
- 描述：欧洲语言的机器翻译。
Material Safety Datasheets
- 数据量：3 GB
- 描述：230,000个材料安全数据表。
Million News Headlines - ABC Australia [Kaggle]
- 数据量：56 MB
- 描述：ABC新闻澳大利亚从2003年到2017年发布的130万个新闻标题。
Millions of News Article URLs
- 数据量：101 MB
- 描述：2014年10月至2015年4月期间，来自950多个英语新闻媒体的230万个新闻文章URL。
MCTest
- 数据量：1 MB
- 描述：一个包含660个故事和相关问题的免费可用集合，用于研究机器对文本的理解；用于问答。
News Headlines of India - Times of India [Kaggle]
- 数据量：185 MB
- 描述：印度时报从2001年到2017年发布的270万个新闻标题，带有类别。
News article / Wikipedia page pairings
- 数据量：6 MB
- 描述：贡献者阅读一篇短文，并被要求判断它最接近哪两个维基百科文章。
NIPS2015 Papers (version 2) [Kaggle]
- 数据量：335 MB
- 描述：所有NIPS2015论文的全文。
NYTimes Facebook Data
- 数据量：5 MB
- 描述：所有纽约时报的Facebook帖子。
One Week of Global News Feeds [Kaggle]
- 数据量：115 MB
- 描述：2017年8月一周内全球20种语言发布的140万篇文章的新闻事件数据集。
Objective truths of sentences/concept pairs
- 数据量：700 KB
- 描述：贡献者阅读包含两个概念的句子，例如“狗是一种动物”或“船长可以与主人有相同的含义”。然后他们被要求判断句子是否可能为真，并按1-5的等级评分。
Open Library Data Dumps
- 数据量：16 GB
- 描述：Open Library中所有记录的所有修订的数据转储。
Personae Corpus
- 描述：用于作者归属和人格预测实验收集的145篇荷兰语论文的语料库。
Reddit Comments
- 数据量：250 GB
- 描述：截至2015年7月的所有公开可用Reddit评论，共17亿条评论。
Reddit Comments (May ‘15) [Kaggle]
- 数据量：8 GB
- 描述：上述数据集的子集。
Reddit Submission Corpus
- 数据量：42 GB
- 描述：2006年1月至2015年8月31日期间所有公开可用的Reddit提交。
Reuters Corpus
- 数据量：2.5 GB
- 描述：用于研究和开发自然语言处理、信息检索和机器学习系统的大型路透社新闻故事集合。需要签署协议并通过邮件发送以获取。
SMS Spam Collection
- 数据量：200 KB
- 描述：5,574条英语、真实且非编码的短信，标记为合法（ham）或垃圾邮件（spam）。
SouthparkData
- 数据量：3.6 MB
- 描述：包含季节、剧集、角色和台词的脚本信息的.csv文件。
Stanford Question Answering Dataset (SQUAD 2.0)
- 描述：一个阅读理解数据集，由众包工作者在维基百科文章上提出的问题组成，每个问题的答案是相应阅读段落中的文本段，或者问题可能无法回答。
Stackoverflow
- 描述：730万条Stackoverflow问题以及其他StackExchange网站的查询工具。
Twitter Cheng-Caverlee-Lee Scrape
- 数据量：400 MB
- 描述：2009年9月至2010年1月期间的推文，地理位置定位。
Twitter New England Patriots Deflategate sentiment
- 数据量：2 MB
- 描述：2015年超级碗之前，关于足球泄气事件的大量讨论。这个数据集分析了重要日期的Twitter情绪，以衡量公众对整个事件的看法。
Twitter Progressive issues sentiment analysis
- 数据量：600 KB
- 描述：关于各种左倾问题的推文，如堕胎合法化、女权主义、希拉里·克林顿等，分类为支持、反对或中立（以及以上都不是）。
Twitter Sentiment140
- 数据量：77 MB
- 描述：与品牌/关键词相关的推文。网站包括论文和研究想法。
Twitter sentiment analysis: Self-driving cars
- 数据量：1 MB
- 描述：贡献者阅读推文并将其分类为非常积极、稍微积极、中性、稍微消极或非常消极。他们还被提示标记推文是否与自动驾驶汽车无关。
Twitter Elections Integrity
- 数据量：1.4 GB
- 描述：2016年美国选举中的所有可疑推文和媒体。
Twitter Tokyo Geolocated Tweets
- 数据量：47 MB
- 描述：东京的20万条推文。
Twitter UK Geolocated Tweets
- 数据量：47 MB
- 描述：英国的17万条推文。
Twitter USA Geolocated Tweets
- 数据量：45 MB
- 描述：美国的20万条推文。
Twitter US Airline Sentiment [Kaggle]
- 数据量：2.5 MB
- 描述：一项关于美国主要航空公司问题的情绪分析工作。Twitter数据是从2015年2月开始抓取的，贡献者被要求首先将推文分类为积极、消极和中性，然后对消极原因进行分类（如“航班延误”或“粗鲁服务”）。
U.S. economic performance based on news articles
- 数据量：5 MB
- 描述：新闻文章标题和摘录被排名为是否与美国经济相关。
Urban Dictionary Words and Definitions [Kaggle]
- 数据量：238 MB
- 描述：2016年5月所有Urban Dictionary单词、定义、作者、投票的清理CSV语料库，共260万个。
Wesbury Lab Usenet Corpus
- 数据量：40 GB
- 描述：2005-2010年期间来自47,860个英语新闻组的匿名汇编帖子。
Wesbury Lab Wikipedia Corpus
- 数据量：1.8 GB
- 描述：2010年4月对英语维基百科所有文章的快照。经过处理，去除了所有链接和无关材料（导航文本等）。该语料库是未标记的原始文本。
**WorldTree Corpus of Explanation Graph

搜集汇总

数据集介绍

构建方式

Apache Software Foundation Public Mail Archives数据集的构建是通过搜集Apache软件基金会公开的邮件存档实现的，涵盖了截至2011年7月11日的所有邮件档案，总计约200GB的数据量。

特点

该数据集的特点在于它包含了大量的邮件存档，为研究者提供了丰富的文本数据资源，可用于自然语言处理、文本挖掘等领域的研究。数据集的多样性体现在它包含了不同时间、不同主题的邮件讨论，有助于分析语言使用的变化趋势和社区动态。

使用方法

使用该数据集时，研究者可以将其导入至文本分析工具中，进行邮件内容的预处理、特征提取和模式识别等操作。此外，数据集可以被用来训练机器学习模型，以进行情感分析、主题分类等任务。在使用前，需确保对数据集的属性和结构有充分的了解，以便正确地应用和解释分析结果。

背景与挑战

背景概述

Apache Software Foundation Public Mail Archives数据集是由Apache软件基金会提供的，包含了截至2011年7月11日所有公开可用的邮件存档，总计约200 GB。该数据集的创建旨在为研究人员提供丰富的文本资源，以促进自然语言处理等领域的研究。Apache软件基金会在开源社区具有广泛的影响力，其邮件存档的开放对相关领域的研究起到了推动作用。

当前挑战

该数据集在构建过程中所遇到的挑战主要包括数据清洗和格式化，以确保邮件内容的完整性和可读性。此外，由于数据量庞大，对存储和计算资源的要求较高。在研究领域中，使用该数据集面临的挑战包括如何有效地提取有用信息，以及如何处理可能存在的数据偏差和隐私问题。

常用场景

经典使用场景

Apache Software Foundation Public Mail Archives数据集是一份珍贵的资源，它包含了Apache软件基金会公开的邮件存档。这一数据集的经典使用场景在于，研究人员可以利用它来分析开源软件项目的沟通模式、开发者之间的交互以及项目决策过程。通过对邮件内容的挖掘，可以揭示软件社区的动态结构和发展趋势。

实际应用

在实际应用中，Apache Software Foundation Public Mail Archives数据集可以被用来改进开源软件项目的管理工具，优化开发者社区的协作流程，甚至可以用于构建智能助手来辅助项目维护者。企业也可以利用这一数据集来分析开源社区的运作方式，以便更好地融入或引导开源项目。

衍生相关工作

基于Apache Software Foundation Public Mail Archives数据集，衍生出了许多相关工作，如开源软件社区的社交网络分析、开发者行为模式的研究以及项目健康度的评估等。这些研究不仅丰富了开源软件生态系统的理论体系，也为开源项目的实践操作提供了有益的指导。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集