pacovaldez/stackoverflow-questions-2016
收藏Hugging Face2022-11-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pacovaldez/stackoverflow-questions-2016
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含Stack Overflow问题的标题和正文,以及一个标签值(0,1,2,3),该标签值是根据Stack Overflow徽章定义的阈值计算的。数据集的目标是为编程问题提供准确的优先级分类。数据集是单语言的,仅包含英语内容。数据集的结构包括标题、正文和标签三个字段。数据集的创建过程涉及从BigQuery公共数据集中提取数据,并通过定义的查询语句进行标签分配。原始数据集存在类别不平衡问题,因此对每个类别的数据进行了采样,以使每个类别的记录数量大致相同。
提供机构:
pacovaldez
原始信息汇总
数据集概述
基本信息
- 数据集名称: Stackoverflow Post Questions
- 语言: 英语
- 许可证: Apache-2.0
- 多语言性: 单语种
- 大小: 1M<n<10M
- 来源: 原始数据
- 标签:
- Stackoverflow
- 技术问题
- 任务类别: 文本分类
- 任务ID: 多类分类
数据集描述
数据集摘要
- 内容: 包含Stack Overflow问题的标题和正文,以及一个标签值(0,1,2,3),该标签值根据SO徽章定义的阈值计算得出。
语言
- 主要语言: 英语
数据集结构
数据字段
- title: 字符串
- body: 字符串
- label: 整数
数据分割
- 分割比例: 40/40/20
- 平衡性: 各分类大小相近
数据集创建
源数据
- 数据源: BigQuery公共数据集
bigquery-public-data.stackoverflow.posts_questions
初始数据收集与标准化
- 初始数据不平衡情况:
- 标签0: 977424
- 标签1: 2401534
- 标签2: 3418179
- 标签3: 16222990
- 总记录数: 23020127
数据采样
- 采样方法: 从每个类别中采样,以确保每个类别的记录数大致相同。



