five

reubenjohn/stackoverflow-unified-text-open-status-classification

收藏
Hugging Face2022-11-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/reubenjohn/stackoverflow-unified-text-open-status-classification
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了Stack Overflow上的帖子信息,用于开放状态分类任务。数据集包括帖子ID、帖子创建日期、用户ID、用户创建日期、帖子创建时的用户声誉、帖子创建时用户未删除的回答数量、帖子标题、帖子内容、标签、帖子关闭日期、帖子状态、统一文本和帖子状态ID。数据集被分割为训练集、验证集和测试集,分别包含3336822、26964和6742个样本。数据集的总下载大小为3883040160字节,总大小为7285690051字节。
提供机构:
reubenjohn
原始信息汇总

数据集概述

数据集名称

stackoverflow-unified-text-open-status-classification

数据集特征

数据集包含以下特征:

  • PostId: 数据类型为 int64
  • PostCreationDate: 数据类型为 string
  • OwnerUserId: 数据类型为 int64
  • OwnerCreationDate: 数据类型为 string
  • ReputationAtPostCreation: 数据类型为 int64
  • OwnerUndeletedAnswerCountAtPostTime: 数据类型为 int64
  • Title: 数据类型为 string
  • BodyMarkdown: 数据类型为 string
  • Tag1Tag5: 数据类型均为 string
  • PostClosedDate: 数据类型为 string
  • OpenStatus: 数据类型为 string
  • unified_texts: 数据类型为 string
  • OpenStatus_id: 数据类型为 int64

数据集拆分

  • 训练集 (train): 包含 3336822 个样本,总大小为 7201490555 字节
  • 验证集 (valid): 包含 26964 个样本,总大小为 67095345 字节
  • 测试集 (test): 包含 6742 个样本,总大小为 17104151 字节

数据集大小

  • 下载大小: 3883040160 字节
  • 数据集总大小: 7285690051 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作