MOSAIC-agentic-3m
收藏数据集概述
基本信息
- 数据集名称: MOSAIC-agentic-3m
- 许可证: GPL-3.0
- 地址: https://huggingface.co/datasets/AISE-TUDelft/MOSAIC-agentic-3m
数据集结构
数据集包含多个配置(config),每个配置对应一种特定类型的数据,主要分为评论(Comments)、提交(Commits)、议题(Issues)和拉取请求(PullRequests)四大类,并进一步按作者类型(如Claude、Codex、Copilot、Devin、Human、Jules)细分。
评论数据(Comments)
包含6个配置,每个配置的特征字段包括:id、pr_id、url、body、created_at、is_minimized、minimized_reason、last_edited_at、published_at、updated_at、author(结构体,包含id、login、name、typename、url字段)。
- Comments_Claude: 训练集包含22,329个样本,大小约55.86 MB。
- Comments_Codex: 训练集包含3,693个样本,大小约4.62 MB。
- Comments_Copilot: 训练集包含26,664个样本,大小约32.99 MB。
- Comments_Devin: 训练集包含27,518个样本,大小约25.81 MB。
- Comments_Human: 训练集包含18,559个样本,大小约23.91 MB。
- Comments_Jules: 训练集包含5,700个样本,大小约6.18 MB。
提交数据(Commits)
包含6个配置,每个配置的特征字段包括:id、sha、pr_id、url、committed_date、additions、deletions、authored_date、message_body、message_headline、author_count、committer(结构体,包含email、name字段)、changed_files、authors(列表,每个元素包含email、name字段)。
- Commits_Claude: 训练集包含82,755个样本,大小约78.33 MB。
- Commits_Codex: 训练集包含27,530个样本,大小约13.02 MB。
- Commits_Copilot: 训练集包含69,896个样本,大小约41.97 MB。
- Commits_Devin: 训练集包含51,641个样本,大小约45.60 MB。
- Commits_Human: 训练集包含102,037个样本,大小约54.51 MB。
- Commits_Jules: 训练集包含41,032个样本,大小约39.45 MB。
议题数据(Issues)
包含6个配置,每个配置的特征字段包括:id、pr_id、url、title、body、created_at、locked、number、state、tracked_issues_count、label_count、last_edited_at、published_at、updated_at、issue_type(结构体,包含description、name字段)、labels(列表,每个元素包含description、name字段)、state_reason、author(结构体,包含id、login、name、typename、url字段)、pr_ids、prs_closing_issue。
- Issues_Claude: 训练集包含4,052个样本,大小约8.37 MB。
- Issues_Codex: 训练集包含45个样本,大小约57.02 KB。
- Issues_Copilot: 训练集包含9,744个样本,大小约18.04 MB。
- Issues_Devin: 训练集包含294个样本,大小约502.23 KB。
- Issues_Human: 训练集包含1,973个样本,大小约2.59 MB。
- Issues_Jules: 训练集包含2,185个样本,大小约4.43 MB。
拉取请求数据(PullRequests)
包含6个配置,每个配置的特征字段包括:id、title、url、number、body、state、created_at、is_draft、changed_files、is_cross_repository、locked、is_in_merge_queue、additions、deletions、author(结构体,包含id、login、name、typename、url字段)、label_count、base_repository(结构体,包含id、name、url字段)、head_repository(结构体,包含id、name、url字段)、timeline_count、merged_at、closed_at、updated_at、last_edited_at、published_at、review_decision、head_ref_name、head_ref_oid、timeline_items、base_ref_name、base_ref_oid、comments_count、reviews_count、commits_count、files(列表,每个元素包含additions、change_type、deletions、path字段)、assignees_count、closing_issues_count、author_association、labels(列表,每个元素包含description、name字段)、active_lock_reason。
- PullRequests_Claude: 训练集包含19,148个样本,大小约60.91 MB。
- PullRequests_Codex: 训练集样本数量未在提供的README中明确列出。




