Identity Resolution Dataset

Name: Identity Resolution Dataset
Creator: 田纳西大学诺克斯维尔分校
Published: 2020-03-28 04:45:01
License: 暂无描述

arXiv2020-03-28 更新2024-06-21 收录

下载链接：

https://zenodo.org/record/3653283

下载链接

链接失效反馈

官方服务：

资源简介：

Identity Resolution Dataset是由田纳西大学诺克斯维尔分校的研究团队创建，旨在解决开源软件项目中作者身份识别问题。该数据集包含从20亿Git提交中提取的3800万作者ID，通过机器学习模型预测哪些ID属于同一开发者。数据集大小为14,861,538条记录，每条记录代表一个具有别名的作者ID。创建过程中，研究团队首先使用启发式方法将作者ID分块，然后应用机器学习模型进行预测。该数据集可用于提高开源软件生态系统中开发者行为模型的准确性，并快速解决新的作者ID识别问题。

The Identity Resolution Dataset was developed by a research team from the University of Tennessee, Knoxville, with the goal of solving the author identification issue in open-source software projects. This dataset includes 38 million author IDs extracted from 2 billion Git commits, and is designed to predict whether different IDs belong to the same developer through machine learning models. It consists of 14,861,538 records in total, with each record representing an author ID with aliases. During the dataset construction process, the research team first employed heuristic methods to partition author IDs into blocks, and then applied machine learning models to perform the prediction task. This dataset can be utilized to enhance the accuracy of developer behavior models within the open-source software ecosystem, and to rapidly resolve new author ID identification problems.

提供机构：

田纳西大学诺克斯维尔分校

创建时间：

2020-03-19

搜集汇总

数据集介绍

构建方式

在开放源代码生态系统的研究中，开发者身份解析是提升数据质量的关键环节。该数据集基于World of Code基础设施中提取的约3800万个作者标识符构建，这些标识符源自近20亿次Git提交。构建过程首先采用三种启发式方法——基于作者电子邮件、作者姓名以及GitHub账号的映射——生成可能关联的作者标识符块，随后通过传递闭包合并这些映射以形成初始块。在此基础上，利用Jaro-Winkler距离计算作者姓名、电子邮件等字段的相似度，并借助预训练的随机森林模型进行成对比较，最终通过传递闭包确定属于同一开发者的所有标识符，从而以高效方式规避了全局成对比较的计算瓶颈。

特点

该数据集的核心特点在于其规模与实用性，涵盖了约1486万个具有别名的作者标识符，归属于约542万名独立开发者，其中每个开发者的别名中位数为2。数据集以分号分隔的CSV文件形式呈现，采用组标识符与作者标识符的映射结构，便于直接关联。此外，还提供了基于三种启发式方法的块划分数据，包含块标识符、姓名频率及完整作者信息，为社区进一步优化身份解析算法奠定了基础。数据集的发布兼顾了隐私保护，通过限制访问版本和公开哈希版本两种途径，既支持学术研究，又防止了个人标识符的滥用。

使用方法

研究者可基于该数据集构建更精确的开发者行为模型，尤其适用于大规模开源生态系统层面的分析。使用方法上，既可加载公开的哈希版本，通过计算SHA1值快速将新作者标识符与现有组关联，也可利用限制访问版本获取原始标识符进行深度分析。此外，提供的脚本和预训练模型支持用户对较大块进行重新处理，通过调整启发式规则或训练数据进一步提升解析精度。建议在使用时遵守相关数据隐私法规，并注意避免将数据用于商业目的，以确保研究的合规性与伦理性。

背景与挑战

背景概述

在开源软件生态系统的研究中，开发者数字痕迹的准确归因是理解个体行为、团队协作及组织动态的基础。然而，从海量代码仓库中挖掘的数据常因身份标识的模糊性而存在质量缺陷，例如同一开发者可能使用多个邮箱、姓名变体或别名提交代码。为应对这一挑战，Tanner Fry、Tapajit Dey、Andrey Karnauch与Audris Mockus于2020年提出了Identity Resolution Dataset，该数据集源自World of Code基础设施，涵盖从约20亿次Git提交中提取的3800万个作者ID。研究团队通过启发式分块与随机森林模型，成功识别出约1486万个存在别名的作者ID，并将其归并为约542万名独立开发者，以0.99的精度和0.84的召回率验证了方法的有效性。该数据集为大规模开源生态系统中的开发者行为建模提供了关键支撑，推动了身份消歧技术的实证研究。

当前挑战

该数据集面临的核心挑战源自开源环境中身份标识的极端异质性。首先，开发者常使用缺失姓名、空白邮箱或非英语名称的ID，使得基于名称与邮箱的匹配方法失效。其次，共享型ID（如组织账户或管理员ID）与常见姓名（如“John Smith”）导致同一ID可能对应多个真实个体，极大增加了消歧难度。此外，构建过程中需处理约1.4×10¹⁵次全量两两比较的不可行计算量，研究者通过启发式分块将比较规模降至约9×10⁹次，但分块假设（不同块内ID无关联）可能牺牲部分召回率。最后，缺乏大规模黄金标注数据集用于验证，44名开发者提供的207个ID测试样本虽验证了高精度，但其代表性有限，难以全面评估模型在极端案例上的表现。

常用场景

经典使用场景

在开源软件生态系统的研究中，开发者身份解析是一项基础而关键的任务。Identity Resolution Dataset 专为处理海量 Git 提交记录中的作者身份歧义而设计，其经典使用场景涵盖从数十亿次代码提交中精准识别同一开发者所使用的多个别名。该数据集通过对约 3800 万作者 ID 进行分块与机器学习预测，将 1480 万具有别名的 ID 归并至 540 万真实开发者名下，为大规模软件仓库挖掘提供了可靠的作者身份映射基础。

衍生相关工作

该数据集衍生了一系列重要的后续工作。研究者基于其分块与匹配框架，进一步探索了结合行为指纹（如提交时间模式、文件修改偏好）的身份解析方法，提升了同音异义与匿名作者的识别准确率。此外，该数据集被用于训练更轻量级的深度学习模型，以实现在线实时身份解析服务。在社区层面，World of Code 项目持续利用该数据集更新版本，推动了对 FLOSS 生态系统中开发者流动性与协作网络的系统性研究。

数据集最近研究