pacovaldez/stackoverflow-questions-2016

Name: pacovaldez/stackoverflow-questions-2016
Creator: pacovaldez
Published: 2022-11-30 23:16:54
License: 暂无描述

Hugging Face2022-11-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pacovaldez/stackoverflow-questions-2016

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含Stack Overflow问题的标题和正文，以及一个标签值（0,1,2,3），该标签值是根据Stack Overflow徽章定义的阈值计算的。数据集的目标是为编程问题提供准确的优先级分类。数据集是单语言的，仅包含英语内容。数据集的结构包括标题、正文和标签三个字段。数据集的创建过程涉及从BigQuery公共数据集中提取数据，并通过定义的查询语句进行标签分配。原始数据集存在类别不平衡问题，因此对每个类别的数据进行了采样，以使每个类别的记录数量大致相同。

提供机构：

pacovaldez

原始信息汇总

数据集概述

基本信息

数据集名称: Stackoverflow Post Questions
语言: 英语
许可证: Apache-2.0
多语言性: 单语种
大小: 1M<n<10M
来源: 原始数据
标签:
- Stackoverflow
- 技术问题
任务类别: 文本分类
任务ID: 多类分类

数据集描述

数据集摘要

内容: 包含Stack Overflow问题的标题和正文，以及一个标签值(0,1,2,3)，该标签值根据SO徽章定义的阈值计算得出。

语言

主要语言: 英语

数据集结构

数据字段

title: 字符串
body: 字符串
label: 整数

数据分割

分割比例: 40/40/20
平衡性: 各分类大小相近

数据集创建

源数据

数据源: BigQuery公共数据集 bigquery-public-data.stackoverflow.posts_questions

初始数据收集与标准化

初始数据不平衡情况:
- 标签0: 977424
- 标签1: 2401534
- 标签2: 3418179
- 标签3: 16222990
- 总记录数: 23020127

数据采样

采样方法: 从每个类别中采样，以确保每个类别的记录数大致相同。

5,000+

优质数据集

54 个

任务类型

进入经典数据集