five

pacovaldez/stackoverflow-questions-2016

收藏
Hugging Face2022-11-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pacovaldez/stackoverflow-questions-2016
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含Stack Overflow问题的标题和正文,以及一个标签值(0,1,2,3),该标签值是根据Stack Overflow徽章定义的阈值计算的。数据集的目标是为编程问题提供准确的优先级分类。数据集是单语言的,仅包含英语内容。数据集的结构包括标题、正文和标签三个字段。数据集的创建过程涉及从BigQuery公共数据集中提取数据,并通过定义的查询语句进行标签分配。原始数据集存在类别不平衡问题,因此对每个类别的数据进行了采样,以使每个类别的记录数量大致相同。
提供机构:
pacovaldez
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Stackoverflow Post Questions
  • 语言: 英语
  • 许可证: Apache-2.0
  • 多语言性: 单语种
  • 大小: 1M<n<10M
  • 来源: 原始数据
  • 标签:
    • Stackoverflow
    • 技术问题
  • 任务类别: 文本分类
  • 任务ID: 多类分类

数据集描述

数据集摘要

  • 内容: 包含Stack Overflow问题的标题和正文,以及一个标签值(0,1,2,3),该标签值根据SO徽章定义的阈值计算得出。

语言

  • 主要语言: 英语

数据集结构

数据字段

  • title: 字符串
  • body: 字符串
  • label: 整数

数据分割

  • 分割比例: 40/40/20
  • 平衡性: 各分类大小相近

数据集创建

源数据

  • 数据源: BigQuery公共数据集 bigquery-public-data.stackoverflow.posts_questions

初始数据收集与标准化

  • 初始数据不平衡情况:
    • 标签0: 977424
    • 标签1: 2401534
    • 标签2: 3418179
    • 标签3: 16222990
    • 总记录数: 23020127

数据采样

  • 采样方法: 从每个类别中采样,以确保每个类别的记录数大致相同。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作