AI-authored commits dataset

Name: AI-authored commits dataset
Creator: 新加坡管理大学; 华中科技大学
Published: 2026-03-30 23:38:05
License: 暂无描述

arXiv2026-03-30 更新2024-06-21 收录

下载链接：

https://github.com/xxxx/xxxx

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由新加坡管理大学团队构建，收录了来自6275个GitHub仓库的30.4万条经核实的AI生成代码提交记录，涵盖GitHub Copilot等五大主流AI编程助手。数据集通过静态分析工具精确标注每个提交引入的代码异味、缺陷和安全问题，包含48.4万个已识别问题。数据采集过程采用GitHub Archive事件日志和全历史提交扫描相结合的方法，确保覆盖Python/JavaScript/TypeScript等主流语言的生产代码。该研究为评估AI生成代码在真实项目中的技术债务积累提供了重要基准，可应用于软件质量保障和AI辅助开发工具优化领域。

This dataset was constructed by a team from the Singapore Management University. It contains 304,000 verified AI-generated code commit records from 6,275 GitHub repositories, covering five mainstream AI programming assistants including GitHub Copilot. The dataset accurately annotates code smells, defects, and security issues introduced by each commit via static analysis tools, with a total of 484,000 identified issues. The data collection process adopted a combined method of GitHub Archive event logs and full-history commit scanning, ensuring coverage of production code in mainstream programming languages such as Python, JavaScript, and TypeScript. This research provides an important benchmark for evaluating the accumulation of technical debt of AI-generated code in real-world projects, and can be applied to the fields of software quality assurance and optimization of AI-assisted development tools.

提供机构：

新加坡管理大学; 华中科技大学

创建时间：

2026-03-30

搜集汇总

数据集介绍

构建方式

在药物安全研究领域，构建高质量数据集对于预测药物不良事件至关重要。CT-ADE数据集通过整合临床实验数据、药物分子信息及标准化医学术语，实现了系统化的构建流程。其构建过程首先从ClinicalTrials.gov筛选已完成且报告不良事件的单药治疗临床试验，确保数据来源的可靠性与完整性。随后，利用DrugBank数据库对药物干预名称进行标准化映射，通过严格的字符串匹配算法确保映射准确性，并提取药物的化学结构、分类及治疗类别信息。同时，基于MedDRA本体论，将不良事件统一标准化至系统器官分类层级，采用统计验证方法确认不良事件的显著性，最终形成包含药物、患者特征及治疗背景的多标签分类数据集。

特点

CT-ADE数据集在药物安全预测领域展现出独特的多维特征。该数据集涵盖超过12,000个实例，专注于单药治疗场景，有效避免了多药联用带来的混淆效应。其核心特点在于整合了药物分子结构、患者人口统计学信息、治疗方案细节以及标准化不良事件标签，实现了多模态数据的深度融合。数据集采用多标签分类框架，真实反映单一药物可能引发多种不良事件的复杂情况。此外，数据分割策略确保训练、验证与测试集之间无药物重叠，防止信息泄漏，为模型泛化能力评估提供了坚实基础。数据集的覆盖范围广泛，几乎涵盖所有系统器官分类及治疗类别，为全面研究药物安全提供了丰富资源。

使用方法

CT-ADE数据集为开发与评估药物不良事件预测模型提供了结构化框架。研究人员可利用该数据集进行多标签分类任务，探索药物分子结构、患者特征及治疗背景对不良事件发生的影响。数据集提供基础版与增强版两种版本，基础版聚焦于具有明确化学结构的活性药物，增强版则纳入无化学结构信息及安慰剂实例，扩展了临床场景的覆盖范围。使用时可结合先进机器学习模型，如基于ChemBERTa的分子编码器与基于PubMedBERT的文本编码器，对药物SMILES字符串、治疗方案描述及患者资格标准进行联合建模。数据集的严格分割设计支持模型在未见药物上的性能验证，促进泛化能力强的预测工具开发，最终服务于药物安全评估与患者风险管理的实际应用。

背景与挑战

背景概述

在药物研发领域，不良药物事件（ADEs）是导致临床试验失败与公共卫生负担加剧的关键因素，其精准预测对提升药物安全性与疗效至关重要。为填补现有数据资源在患者特征与治疗情境信息上的空白，日内瓦大学医学信息学团队于近年推出了CT-ADE数据集。该数据集整合了来自ClinicalTrials.gov的逾1.2万条临床试验结果，结合DrugBank的药物分子结构与MedDRA术语体系的标准化标注，专注于单药治疗下的多标签ADE分类任务。其设计旨在通过纳入患者人口学、病史及治疗方案等上下文信息，为人工智能与机器学习模型提供更全面的训练资源，推动药物安全评估从分子结构到临床情境的多维度跨越。

当前挑战

CT-ADE数据集致力于解决不良药物事件预测中因患者异质性与治疗情境复杂性所引发的挑战。传统数据集如SIDER、AEOLUS等多基于上市后监测数据，缺乏临床试验受控环境下的患者基数、ADE发生比例及详细治疗方案信息，难以揭示药物、患者与情境三者的交互效应。在构建过程中，研究团队面临数据整合与标准化的多重困难：需从异构的临床试验报告中提取并统一药物名称、患者入选标准与ADE描述；通过严格的Token Sort Ratio算法实现与DrugBank的精准映射；并依据MedDRA系统器官分类层级对ADE进行统计验证与标注，以确保数据的可靠性与一致性。

常用场景

经典使用场景

在药物安全研究领域，CT-ADE数据集最经典的应用场景是构建多标签不良反应预测模型。该数据集整合了临床试验结果中的药物分子结构、患者入组标准和治疗方案描述，为机器学习算法提供了丰富的多模态特征。研究者通常利用其结构化数据训练分类器，以预测单一药物在特定患者群体中可能引发的系统器官类别级别不良反应。这种应用模式深刻反映了从临床数据中挖掘药物安全信号的标准化研究范式。

实际应用

在制药工业的实际应用中，CT-ADE数据集为药物研发早期阶段的风险评估提供了重要工具。药物研发机构可利用该数据集训练预测模型，在新药临床试验设计阶段预判潜在不良反应谱系，优化患者入组标准和剂量方案。监管科学领域可借助该数据集建立更精准的药物安全预警系统，辅助审评决策。临床研究团队则能通过分析数据集中的治疗方案与不良反应关联模式，制定更完善的风险管控策略，最终降低临床试验失败率和患者安全风险。

衍生相关工作

基于CT-ADE数据集已衍生出多个具有影响力的研究方向。在模型架构方面，研究者开发了融合ChemBERTa化学语言模型与PubMedBERT生物医学文本编码器的多模态预测框架，探索分子结构与临床文本特征的协同表征。方法学创新领域出现了针对系统器官分类的层级预测模型和基于集成梯度的特征归因分析技术。数据集本身也催生了扩展研究，包括向多药治疗场景的泛化、跨种族患者群体的适用性验证，以及基于图神经网络的药物-不良反应网络构建等系统性工作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集