five

R Mailing List Data

收藏
github2026-03-30 更新2026-03-24 收录
下载链接:
https://github.com/r-mailing-lists/data
下载链接
链接失效反馈
官方服务:
资源简介:
一个包含R邮件列表存档的Parquet格式数据集,适用于R、Python或任何支持Parquet的语言进行分析。数据来源于R邮件列表存档项目,并自动更新。数据集包含631,338条消息,覆盖31个邮件列表。

A collection of R mailing list archives stored in Parquet format, suitable for analysis using R, Python, or any language that supports Parquet. The data is sourced from the R Mailing List Archive Project and is automatically updated, containing 631,276 messages spanning 31 mailing lists.
创建时间:
2026-03-07
原始信息汇总

R邮件列表数据集概述

数据集基本信息

  • 数据集名称:R邮件列表数据
  • 数据来源:R邮件列表存档项目
  • 数据格式:Parquet格式
  • 数据总量:包含631,251条消息,覆盖31个邮件列表
  • 数据更新:自动更新
  • 在线浏览地址:https://r-mailing-lists.thecoatlessprofessor.com

数据内容与结构

消息数据文件

  • 文件位置data/messages/<list>.parquet
  • 文件数量:每个邮件列表一个文件,共31个文件
  • 共享模式:所有文件共享相同的数据模式

线程摘要文件

  • 文件位置data/threads.parquet
  • 内容:所有列表的线程级摘要

贡献者统计文件

  • 文件位置data/contributors.parquet
  • 内容:跨所有列表的聚合贡献者统计数据

数据字段说明

消息文件字段

字段名 类型 描述
list string 邮件列表名称
id string 唯一消息ID
message_id string 原始RFC 2822 Message-ID头
from_name string 作者显示名称
from_email_hash string 作者邮箱的SHA-256哈希值
date timestamp 消息日期
subject string 主题行
in_reply_to string 父消息ID
body string 完整消息正文文本
body_snippet string 正文前200个字符
thread_id string 线程分组ID
thread_depth integer 线程树深度
month string 年月分组

线程文件字段

字段名 类型 描述
list string 邮件列表名称
id string 线程ID
subject string 线程主题
message_count integer 线程中的消息数量
started timestamp 第一条消息日期
last_reply timestamp 最新回复日期
root_message_id string 线程起始消息ID

贡献者文件字段

字段名 类型 描述
name string 作者显示名称
message_count integer 跨所有列表的总消息数
list_count integer 发布到的不同列表数量
lists string 逗号分隔的列表标识
list_counts string 每个列表的消息计数
first_message string 最早消息的ISO 8601日期
last_message string 最新消息的ISO 8601日期

邮件列表统计

列表 消息数 作者数 首条消息 最后消息
r-help 398,519 37,107 1997年4月 2026年3月
r-devel 63,430 5,847 1997年4月 2026年3月
r-sig-geo 29,559 3,497 2003年7月 2026年3月
bioc-devel 21,313 1,677 2004年3月 2026年3月
r-sig-mixed-models 20,628 3,109 2007年1月 2026年3月
r-help-es 15,379 899 2009年3月 2026年2月
r-sig-finance 15,274 2,161 2004年6月 2026年2月
r-sig-mac 15,075 1,723 1970年1月 2026年3月
r-package-devel 12,125 1,118 2015年5月 2026年3月
rcpp-devel 10,988 800 2009年11月 2026年1月
r-sig-ecology 7,420 1,324 2008年4月 2026年3月
r-sig-meta-analysis 5,632 550 2017年6月 2026年3月
r-sig-debian 3,656 501 2005年2月 2025年12月
r-sig-hpc 2,152 383 2008年10月 2024年12月
r-sig-db 1,559 391 2001年4月 2020年11月
r-packages 1,340 568 2003年9月 2026年3月
r-sig-gui 1,236 264 2002年10月 2018年2月
r-sig-fedora 919 129 2008年5月 2025年9月
r-sig-teaching 885 224 2006年10月 2026年1月
r-announce 703 111 1997年4月 2026年2月
r-sig-dynamic-models 696 160 2009年10月 2026年2月
r-sig-epi 585 166 2005年11月 2026年3月
r-sig-robust 523 150 2005年11月 2025年12月
r-sig-genetics 490 60 2008年5月 2026年3月
r-sig-jobs 442 267 2007年2月 2026年3月
r-ug-ottawa 197 66 2009年1月 2022年12月
r-sig-gr 176 79 2002年9月 2025年11月
r-sig-windows 139 18 2015年8月 2026年2月
r-sig-insurance 117 39 2009年4月 2022年12月
r-sig-dcm 67 17 2010年7月 2024年9月
r-sig-networks 27 21 2008年7月 2019年5月

隐私保护

  • 数据集中不包含电子邮件地址
  • 作者身份通过显示名称和电子邮件地址的SHA-256哈希值表示
  • 原始电子邮件在源邮件列表服务器上公开存档

许可证信息

  • 邮件列表内容由R项目通过苏黎世联邦理工学院和R-Forge公开存档
  • 此数据集重新格式化该公共内容以便于分析
  • 存储库中的工具采用MIT许可证
搜集汇总
数据集介绍
main_image_url
构建方式
在开源软件生态系统中,邮件列表作为技术交流的重要载体,蕴含着丰富的社区互动与知识演化信息。R邮件列表数据集通过系统化采集R项目官方邮件列表的公开存档,构建了一个结构化的历史交流记录库。数据源自R邮件列表存档项目,经过自动化流程处理,将原始的邮件文本转换为高效的Parquet列式存储格式,确保了数据的完整性与可追溯性。这一构建过程不仅整合了跨越数十年的邮件元数据与正文内容,还通过哈希处理保护了用户隐私,为量化分析社区协作模式奠定了坚实基础。
特点
该数据集囊括了31个不同主题的R邮件列表,覆盖了从1997年至2026年初的63万余条消息,构成了一个时间跨度长、主题多元的社区对话语料库。其核心特征在于精细的数据结构设计,每条消息均包含发件人、时间、主题、线程关系及正文等字段,并额外提供了线程级摘要与贡献者统计表。独特的回复关系字段支持社交网络分析,而隐私保护机制通过电子邮件地址的哈希处理,在保持作者身份可聚合性的同时避免了敏感信息泄露。这种多维度的数据组织方式,使得研究者能够深入探究开发者社区的互动动力学与知识传播轨迹。
使用方法
为便于跨平台分析,数据集提供了针对R与Python语言的辅助脚本,用户可通过简单的函数调用自动下载并缓存所需的Parquet文件。在R环境中,借助`nanoparquet`包可选择性读取特定列以提升效率,例如快速筛选近期活跃贡献者或统计各列表消息量。Python用户则可利用`polars`库进行类似的数据操作与聚合分析。对于需要本地深度处理的场景,支持直接克隆仓库并读取原始Parquet文件。数据集内置的线程与贡献者汇总表,进一步简化了宏观层面的趋势分析与社区结构研究,为计算社会科学与软件工程领域的实证研究提供了即用型数据基础设施。
背景与挑战
背景概述
R邮件列表数据集由R邮件列表存档项目于近年构建,旨在系统性地整理并结构化R语言社区自1997年以来的公开邮件列表档案。该数据集涵盖了r-help、r-devel等31个核心邮件列表,总计超过63万条消息,记录了R语言在统计计算、数据科学及开源软件开发领域长达数十年的技术讨论与社区互动。通过将原始邮件转换为Parquet格式,数据集为研究者提供了高效分析社区动态、知识传播及协作模式的标准化资源,对理解开源软件生态的演化规律具有重要价值。
当前挑战
该数据集致力于解决开源软件社区分析中的挑战,即如何从非结构化的历史通信数据中提取有意义的协作网络与知识演化模式。具体挑战包括:邮件内容的自然语言处理复杂度高,涉及大量技术术语与多语言混杂;数据的时间跨度长达近三十年,期间邮件格式与编码标准不断变化,导致数据清洗与对齐困难;在构建过程中,需平衡隐私保护与数据可用性,例如通过哈希处理邮箱地址以匿名化作者身份,同时保持用户行为的可追踪性。此外,跨列表的线程关联与作者身份消歧也是数据处理中的关键难题。
常用场景
经典使用场景
在开源软件社区生态研究中,R邮件列表数据集为分析开发者协作模式提供了宝贵资源。研究者常利用该数据集追踪R语言核心开发与用户支持邮件列表中的讨论动态,通过解析邮件主题、作者互动及回复网络,揭示社区知识传播路径与核心贡献者网络结构。例如,对r-devel和r-help列表的时序分析,能够展现技术议题的演进趋势与社区响应机制。
实际应用
在实际应用层面,该数据集被广泛用于构建社区健康度监测工具与开发者支持系统。组织者可依据邮件活跃度与议题分布优化社区管理策略;新成员能通过历史讨论快速定位常见技术问题解决方案。此外,企业研发团队可借鉴其协作模式,设计更高效的内部技术交流平台,提升问题解决效率。
衍生相关工作
围绕该数据集已衍生出多项经典研究工作,包括基于回复网络的社区影响力分析框架、跨邮件列表的知识迁移模型构建,以及开发者行为预测算法。这些工作不仅深化了对R社区生态的理解,其方法论也被拓展至其他开源项目分析中,形成了邮件存档挖掘的标准范式,推动了软件仓库挖掘研究领域的交叉发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作