five

theblackcat102/crossvalidated-posts

收藏
Hugging Face2023-08-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/theblackcat102/crossvalidated-posts
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含stats.stackexchange.com网站在2023年8月30日之前的所有帖子,格式为Markdown文本。数据来源于Internet Archive StackExchange Data Dump,并遵循mikex86/stackoverflow-posts的格式。每个记录对应一个帖子,包含多个字段如Id, PostTypeId, Body等,支持的任务类别包括问答、文本生成和文本到文本的生成。

该数据集包含stats.stackexchange.com网站在2023年8月30日之前的所有帖子,格式为Markdown文本。数据来源于Internet Archive StackExchange Data Dump,并遵循mikex86/stackoverflow-posts的格式。每个记录对应一个帖子,包含多个字段如Id, PostTypeId, Body等,支持的任务类别包括问答、文本生成和文本到文本的生成。
提供机构:
theblackcat102
原始信息汇总

数据集概述

数据集结构

数据字段

  • Id: 字符串类型,帖子唯一标识符。
  • PostTypeId: 字符串类型,帖子类型标识符(1=问题, 2=回答, 3=孤立标签维基, 4=标签维基摘录, 5=标签维基, 6=版主提名, 7=维基占位符, 8=特权维基)。
  • AcceptedAnswerId: 字符串类型,仅在PostTypeId=1时存在,表示被接受的回答ID。
  • ParentId: 字符串类型,仅在PostTypeId=2时存在,表示父帖子ID。
  • Score: 字符串类型,帖子得分。
  • ViewCount: 字符串类型,帖子浏览次数。
  • Body: 字符串类型,帖子内容,以Markdown格式存储。
  • Title: 字符串类型,帖子标题。
  • ContentLicense: 字符串类型,帖子内容许可。
  • FavoriteCount: 字符串类型,帖子被收藏次数。
  • CreationDate: 字符串类型,帖子创建日期。
  • LastActivityDate: 字符串类型,帖子最后活动日期。
  • LastEditDate: 字符串类型,帖子最后编辑日期。
  • LastEditorUserId: 字符串类型,最后编辑帖子的用户ID。
  • OwnerUserId: 字符串类型,帖子所有者用户ID。
  • Tags: 字符串序列类型,帖子标签。

数据分割

  • train: 训练集,包含411232个样本,总大小为566804417字节。

数据集大小

  • 下载大小: 311064786字节
  • 数据集大小: 566804417字节

语言

  • 代码
  • 英语

任务类别

  • 问答
  • 文本生成
  • 文本到文本生成

标签

  • 代码
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作