five

Francesco-A/github-issues_huggingface-datasets

收藏
Hugging Face2023-08-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Francesco-A/github-issues_huggingface-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
数据集github-issues_huggingface-datasets是从Hugging Face Datasets仓库中提取的GitHub问题的语料库。它包含了问题的标题、描述、标签、状态、评论等信息,并且通过GitHub REST API获取了问题及其对应的评论。数据集分为训练集和测试集,分别包含4863条和1216条记录。该数据集可用于语义搜索、多标签分类和探索性分析等用途。用户在使用该数据集时应注意数据不完整、标签偏见或信息过时等潜在限制和风险。

数据集github-issues_huggingface-datasets是从Hugging Face Datasets仓库中提取的GitHub问题的语料库。它包含了问题的标题、描述、标签、状态、评论等信息,并且通过GitHub REST API获取了问题及其对应的评论。数据集分为训练集和测试集,分别包含4863条和1216条记录。该数据集可用于语义搜索、多标签分类和探索性分析等用途。用户在使用该数据集时应注意数据不完整、标签偏见或信息过时等潜在限制和风险。
提供机构:
Francesco-A
原始信息汇总

数据集概述

数据集名称

  • 名称: GitHub Issues from Hugging Face Datasets

数据集内容

  • 特征:

    • 基本信息:
      • url, repository_url, labels_url, comments_url, events_url, html_url, id, node_id, number, title, state, locked, milestone, comments, created_at, updated_at, closed_at, active_lock_reason, body, reactions, timeline_url, performed_via_github_app, state_reason, draft, pull_request, is_pull_request
    • 标签信息:
      • color, default, description, id, name, node_id, url
    • 里程碑信息:
      • closed_at, closed_issues, created_at, creator (包含 avatar_url, events_url, followers_url, following_url, gists_url, gravatar_id, html_url, id, login, node_id, organizations_url, received_events_url, repos_url, site_admin, starred_url, subscriptions_url, type, url), description, due_on, html_url, id, labels_url, node_id, number, open_issues, state, title, updated_at, url
    • 反应信息:
      • +1, -1, confused, eyes, heart, hooray, laugh, rocket, total_count, url
    • 拉取请求信息:
      • diff_url, html_url, merged_at, patch_url, url
  • 数据集分割:

    • 训练集: 包含4,863条记录
    • 测试集: 包含1,216条记录

数据集用途

  • 语义搜索
  • 多标签分类
  • 探索性分析

数据集限制与风险

  • 数据不完整性
  • 标签偏差
  • 信息更新问题
  • 数据隐私和伦理考虑

数据集访问

  • 公开可用,可下载使用
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作