planhanasan/github-issues
收藏Hugging Face2022-08-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/planhanasan/github-issues
下载链接
链接失效反馈官方服务:
资源简介:
GitHub Issues数据集由与🤗 Datasets仓库相关的GitHub问题和拉取请求组成。该数据集主要用于教育目的,适用于语义搜索或多标签文本分类任务。数据集中的每个GitHub问题内容均为英文,涉及NLP、计算机视觉等领域的数据集。
The GitHub Issues Dataset consists of GitHub issues and pull requests related to the Hugging Face Datasets repository. This dataset is primarily intended for educational purposes and is suitable for semantic search or multi-label text classification tasks. Every GitHub issue in this dataset is written in English, with covered topics involving datasets in fields such as Natural Language Processing (NLP) and Computer Vision.
提供机构:
planhanasan
原始信息汇总
数据集概述
数据集名称: GitHub Issues
数据集描述: GitHub Issues 数据集包含与 🤗 Datasets 仓库相关的 GitHub 问题和拉取请求。该数据集主要用于教育目的,适用于语义搜索或多标签文本分类任务。数据集中的内容均为英文,涉及自然语言处理、计算机视觉等领域的数据集讨论。
支持的任务和评估指标
- 任务名称: 语义搜索或多标签文本分类
- 任务描述: 训练模型以理解和分类GitHub问题和拉取请求的内容。
- 评估指标: 高/低 [具体指标名称]
- 推荐模型: 模型名称 或 模型类别
- Leaderboard: Leaderboard URL,根据 具体指标名称 排名,同时报告 其他指标名称。
语言信息
- 语言: 英语
- 语言代码: en
- 语言细节: 数据集中的文本涉及专业领域的讨论,如自然语言处理和计算机视觉。
数据集结构
数据实例
- 示例:
json { example_field: ..., ... }
数据字段
- 字段描述:
example_field: 描述example_field的内容和用途。
数据分割
- 分割描述: 数据集可能包含多个分割,如训练集、验证集和测试集。
- 分割标准: 描述数据分割的标准和方法。
- 分割大小: 提供各分割的大小和相关统计信息。
数据集创建
来源数据
- 数据收集: 数据来源于 GitHub 上的 🤗 Datasets 仓库的问题和拉取请求。
- 数据选择: 选择与自然语言处理、计算机视觉等领域相关的讨论。
- 数据处理: 数据收集后可能进行了必要的标准化处理。
数据注释
- 注释过程: 描述数据集中的注释过程,包括使用的工具和方法。
- 注释者信息: 描述注释者的背景和选择标准。
使用数据集的考虑
- 社会影响: 讨论使用此数据集可能对社会产生的影响,包括积极和消极的方面。
- 偏见讨论: 分析数据集中可能存在的偏见,并讨论减少这些偏见的方法。
- 其他已知限制: 概述数据集的其他已知限制,如注释错误等。
附加信息
- 数据集维护者: 列出参与数据集收集的人员及其隶属关系。
- 许可信息: 提供数据集的许可信息和链接。
- 引用信息: 提供数据集的 BibTex 引用格式。
- 贡献者: 感谢 @lewtun 添加此数据集。



