create_my_dataset

Hugging Face2026-01-22 更新2026-01-23 收录

下载链接：

https://huggingface.co/datasets/Li15165806885/create_my_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从[`huggingface/datasets`](https://github.com/huggingface/datasets)仓库使用GitHub REST API v3收集的GitHub问题和拉取请求的元数据。注意：GitHub的Issues API同时返回问题和拉取请求，可以通过`is_pull_request`字段来区分它们。

创建时间：

2026-01-20

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Hugging Face Datasets Issues Dataset
数据集地址: https://huggingface.co/datasets/Li15165806885/create_my_dataset
数据来源: 从 huggingface/datasets 仓库收集的 GitHub issues 和 pull requests 元数据。
采集方式: 使用 GitHub REST API v3。
重要说明: GitHub 的 Issues API 同时返回 issues 和 pull requests。可通过 is_pull_request 字段区分两者。

数据集结构与内容

数据字段

每个数据示例包含以下字段：

url: 字符串类型。
repository_url: 字符串类型。
labels_url: 字符串类型。
comments_url: 字符串类型。
events_url: 字符串类型。
html_url: 字符串类型。
id: int64 类型。
node_id: 字符串类型。
number: int64 类型。
title: 字符串类型。
user: 结构体，包含 login (字符串)、id (int64)、avatar_url (字符串) 字段。
labels: 列表，列表内元素为包含 name (字符串) 和 color (字符串) 字段的结构体。
state: 字符串类型。
comments: 字符串列表。
created_at: 字符串类型 (ISO 8601 格式)。
updated_at: 字符串类型 (ISO 8601 格式)。
closed_at: 字符串类型 (ISO 8601 格式)。
body: 字符串类型。
is_pull_request: 布尔类型。

数据划分

划分	示例数量
train	5

数据使用方式

python from datasets import load_dataset dataset = load_dataset("Li15165806885/create_my_dataset", split="train") print(dataset[0])

搜集汇总

数据集介绍

构建方式

在开源软件协作领域，GitHub仓库中的议题与拉取请求是反映项目动态与社区互动的关键数据源。本数据集通过GitHub REST API v3，系统性地采集了HuggingFace组织下datasets仓库的议题与拉取请求元数据。数据收集过程聚焦于结构化字段的提取，涵盖了议题标题、正文、状态、用户信息、标签、评论以及精确的时间戳记录，并特别通过`is_pull_request`字段对议题和拉取请求进行了明确区分，确保了数据来源的规范性与可追溯性。

特点

本数据集的核心特征在于其精细的结构化设计，全面封装了GitHub协作生态的多元维度。每条数据记录不仅包含议题或拉取请求的基础元数据，如标题、正文和状态，还深度整合了提交者信息、关联标签、全部评论内容以及创建、更新与关闭的精确时间点。所有时间戳均采用ISO 8601国际标准格式存储，保障了时间序列分析的一致性。尤为重要的是，数据集明确标识了每条记录是否为拉取请求，为研究代码贡献流程与问题讨论的差异提供了清晰的语义边界。

使用方法

为便于学术研究与工程应用，本数据集已集成于HuggingFace Datasets生态系统。使用者可通过标准的`load_dataset`函数便捷加载，指定对应的数据集名称与切分即可访问全部数据。加载后的数据以结构化的行形式呈现，每个字段均可直接访问，例如`dataset[0][‘title’]`可获取首条记录的标题。这种设计使得数据能够无缝接入自然语言处理、软件工程挖掘或社区动力学分析等下游任务，为量化研究开源协作模式提供了即用型的高质量数据基础。

背景与挑战

背景概述

在开源软件工程与自然语言处理交叉领域，GitHub等协作平台产生的议题与拉取请求数据，为理解开发者行为、项目维护模式及社区动态提供了宝贵资源。create_my_dataset数据集由研究人员或机构通过GitHub REST API v3，从huggingface/datasets仓库系统性地采集议题与拉取请求元数据构建而成，其核心研究问题聚焦于开源社区协作机制的量化分析、软件维护过程的自动化支持，以及开发者交互文本的语义理解。该数据集通过结构化记录议题标题、描述、标签、评论及时间戳等信息，为开源生态研究、智能辅助工具开发等领域提供了细粒度的实证基础，推动了社区驱动软件工程的实证研究进展。

当前挑战

该数据集旨在应对开源社区协作分析中的核心挑战，即如何从海量、异构的开发者交互数据中，精准提取并建模议题生命周期、贡献者参与模式及问题解决效率等复杂维度。构建过程中面临多重技术障碍：GitHub API对数据获取速率与历史记录的限制，要求设计高效且合规的爬取策略；原始数据中议题与拉取请求的混合存储，需依赖is_pull_request字段进行精确区分，但早期条目可能存在标注缺失；文本字段如body和comments包含非结构化自然语言与代码片段，增加了语义清洗与归一化难度；时间戳的跨时区标准化与缺失值处理，亦对时序分析的可靠性构成挑战。

常用场景

经典使用场景

在开源软件工程领域，该数据集为研究GitHub平台上的协作行为提供了结构化数据基础。其经典使用场景聚焦于自然语言处理与软件工程交叉研究，例如通过分析issue标题、正文及评论内容，训练模型以自动分类问题类型、识别bug报告或预测issue解决优先级。这些任务有助于理解开发者社区中的沟通模式与问题解决流程，为自动化工具开发奠定基础。

实际应用

在实际应用层面，该数据集支撑了智能开发助手与项目管理工具的构建。基于其数据训练的模型可集成至GitHub等平台，实现自动标签分配、相似issue推荐或优先级排序，显著减轻维护者的人工负担。此外，企业可利用此类分析优化内部开发流程，通过历史issue模式预测项目风险，辅助决策资源分配，最终提升软件交付效率与团队协作水平。

衍生相关工作

围绕该数据集衍生的经典工作主要包括基于Transformer的issue分类模型、跨项目知识迁移研究以及开发者活动预测系统。例如，有研究利用其文本与元数据特征，构建了多任务学习框架以同时识别bug报告与功能请求；另有工作探索了时序建模方法，通过分析created_at与closed_at字段预测issue解决周期。这些成果进一步丰富了软件仓库挖掘领域，促进了智能化软件维护工具的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集