create_my_dataset
收藏Hugging Face2026-01-22 更新2026-01-23 收录
下载链接:
https://huggingface.co/datasets/Li15165806885/create_my_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从[`huggingface/datasets`](https://github.com/huggingface/datasets)仓库使用GitHub REST API v3收集的GitHub问题和拉取请求的元数据。注意:GitHub的Issues API同时返回问题和拉取请求,可以通过`is_pull_request`字段来区分它们。
创建时间:
2026-01-20
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: Hugging Face Datasets Issues Dataset
- 数据集地址: https://huggingface.co/datasets/Li15165806885/create_my_dataset
- 数据来源: 从
huggingface/datasets仓库收集的 GitHub issues 和 pull requests 元数据。 - 采集方式: 使用 GitHub REST API v3。
- 重要说明: GitHub 的 Issues API 同时返回 issues 和 pull requests。可通过
is_pull_request字段区分两者。
数据集结构与内容
数据字段
每个数据示例包含以下字段:
- url: 字符串类型。
- repository_url: 字符串类型。
- labels_url: 字符串类型。
- comments_url: 字符串类型。
- events_url: 字符串类型。
- html_url: 字符串类型。
- id: int64 类型。
- node_id: 字符串类型。
- number: int64 类型。
- title: 字符串类型。
- user: 结构体,包含
login(字符串)、id(int64)、avatar_url(字符串) 字段。 - labels: 列表,列表内元素为包含
name(字符串) 和color(字符串) 字段的结构体。 - state: 字符串类型。
- comments: 字符串列表。
- created_at: 字符串类型 (ISO 8601 格式)。
- updated_at: 字符串类型 (ISO 8601 格式)。
- closed_at: 字符串类型 (ISO 8601 格式)。
- body: 字符串类型。
- is_pull_request: 布尔类型。
数据划分
| 划分 | 示例数量 |
|---|---|
| train | 5 |
数据使用方式
python from datasets import load_dataset dataset = load_dataset("Li15165806885/create_my_dataset", split="train") print(dataset[0])
搜集汇总
数据集介绍

构建方式
在开源软件协作领域,GitHub仓库中的议题与拉取请求是反映项目动态与社区互动的关键数据源。本数据集通过GitHub REST API v3,系统性地采集了HuggingFace组织下datasets仓库的议题与拉取请求元数据。数据收集过程聚焦于结构化字段的提取,涵盖了议题标题、正文、状态、用户信息、标签、评论以及精确的时间戳记录,并特别通过`is_pull_request`字段对议题和拉取请求进行了明确区分,确保了数据来源的规范性与可追溯性。
特点
本数据集的核心特征在于其精细的结构化设计,全面封装了GitHub协作生态的多元维度。每条数据记录不仅包含议题或拉取请求的基础元数据,如标题、正文和状态,还深度整合了提交者信息、关联标签、全部评论内容以及创建、更新与关闭的精确时间点。所有时间戳均采用ISO 8601国际标准格式存储,保障了时间序列分析的一致性。尤为重要的是,数据集明确标识了每条记录是否为拉取请求,为研究代码贡献流程与问题讨论的差异提供了清晰的语义边界。
使用方法
为便于学术研究与工程应用,本数据集已集成于HuggingFace Datasets生态系统。使用者可通过标准的`load_dataset`函数便捷加载,指定对应的数据集名称与切分即可访问全部数据。加载后的数据以结构化的行形式呈现,每个字段均可直接访问,例如`dataset[0][‘title’]`可获取首条记录的标题。这种设计使得数据能够无缝接入自然语言处理、软件工程挖掘或社区动力学分析等下游任务,为量化研究开源协作模式提供了即用型的高质量数据基础。
背景与挑战
背景概述
在开源软件工程与自然语言处理交叉领域,GitHub等协作平台产生的议题与拉取请求数据,为理解开发者行为、项目维护模式及社区动态提供了宝贵资源。create_my_dataset数据集由研究人员或机构通过GitHub REST API v3,从huggingface/datasets仓库系统性地采集议题与拉取请求元数据构建而成,其核心研究问题聚焦于开源社区协作机制的量化分析、软件维护过程的自动化支持,以及开发者交互文本的语义理解。该数据集通过结构化记录议题标题、描述、标签、评论及时间戳等信息,为开源生态研究、智能辅助工具开发等领域提供了细粒度的实证基础,推动了社区驱动软件工程的实证研究进展。
当前挑战
该数据集旨在应对开源社区协作分析中的核心挑战,即如何从海量、异构的开发者交互数据中,精准提取并建模议题生命周期、贡献者参与模式及问题解决效率等复杂维度。构建过程中面临多重技术障碍:GitHub API对数据获取速率与历史记录的限制,要求设计高效且合规的爬取策略;原始数据中议题与拉取请求的混合存储,需依赖is_pull_request字段进行精确区分,但早期条目可能存在标注缺失;文本字段如body和comments包含非结构化自然语言与代码片段,增加了语义清洗与归一化难度;时间戳的跨时区标准化与缺失值处理,亦对时序分析的可靠性构成挑战。
常用场景
经典使用场景
在开源软件工程领域,该数据集为研究GitHub平台上的协作行为提供了结构化数据基础。其经典使用场景聚焦于自然语言处理与软件工程交叉研究,例如通过分析issue标题、正文及评论内容,训练模型以自动分类问题类型、识别bug报告或预测issue解决优先级。这些任务有助于理解开发者社区中的沟通模式与问题解决流程,为自动化工具开发奠定基础。
实际应用
在实际应用层面,该数据集支撑了智能开发助手与项目管理工具的构建。基于其数据训练的模型可集成至GitHub等平台,实现自动标签分配、相似issue推荐或优先级排序,显著减轻维护者的人工负担。此外,企业可利用此类分析优化内部开发流程,通过历史issue模式预测项目风险,辅助决策资源分配,最终提升软件交付效率与团队协作水平。
衍生相关工作
围绕该数据集衍生的经典工作主要包括基于Transformer的issue分类模型、跨项目知识迁移研究以及开发者活动预测系统。例如,有研究利用其文本与元数据特征,构建了多任务学习框架以同时识别bug报告与功能请求;另有工作探索了时序建模方法,通过分析created_at与closed_at字段预测issue解决周期。这些成果进一步丰富了软件仓库挖掘领域,促进了智能化软件维护工具的创新。
以上内容由遇见数据集搜集并总结生成



