reubenjohn/stackoverflow-unified-text-open-status-classification
收藏Hugging Face2022-11-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/reubenjohn/stackoverflow-unified-text-open-status-classification
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了Stack Overflow上的帖子信息,用于开放状态分类任务。数据集包括帖子ID、帖子创建日期、用户ID、用户创建日期、帖子创建时的用户声誉、帖子创建时用户未删除的回答数量、帖子标题、帖子内容、标签、帖子关闭日期、帖子状态、统一文本和帖子状态ID。数据集被分割为训练集、验证集和测试集,分别包含3336822、26964和6742个样本。数据集的总下载大小为3883040160字节,总大小为7285690051字节。
提供机构:
reubenjohn
原始信息汇总
数据集概述
数据集名称
stackoverflow-unified-text-open-status-classification
数据集特征
数据集包含以下特征:
- PostId: 数据类型为 int64
- PostCreationDate: 数据类型为 string
- OwnerUserId: 数据类型为 int64
- OwnerCreationDate: 数据类型为 string
- ReputationAtPostCreation: 数据类型为 int64
- OwnerUndeletedAnswerCountAtPostTime: 数据类型为 int64
- Title: 数据类型为 string
- BodyMarkdown: 数据类型为 string
- Tag1 至 Tag5: 数据类型均为 string
- PostClosedDate: 数据类型为 string
- OpenStatus: 数据类型为 string
- unified_texts: 数据类型为 string
- OpenStatus_id: 数据类型为 int64
数据集拆分
- 训练集 (train): 包含 3336822 个样本,总大小为 7201490555 字节
- 验证集 (valid): 包含 26964 个样本,总大小为 67095345 字节
- 测试集 (test): 包含 6742 个样本,总大小为 17104151 字节
数据集大小
- 下载大小: 3883040160 字节
- 数据集总大小: 7285690051 字节



