theblackcat102/crossvalidated-posts
收藏Hugging Face2023-08-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/theblackcat102/crossvalidated-posts
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含stats.stackexchange.com网站在2023年8月30日之前的所有帖子,格式为Markdown文本。数据来源于Internet Archive StackExchange Data Dump,并遵循mikex86/stackoverflow-posts的格式。每个记录对应一个帖子,包含多个字段如Id, PostTypeId, Body等,支持的任务类别包括问答、文本生成和文本到文本的生成。
该数据集包含stats.stackexchange.com网站在2023年8月30日之前的所有帖子,格式为Markdown文本。数据来源于Internet Archive StackExchange Data Dump,并遵循mikex86/stackoverflow-posts的格式。每个记录对应一个帖子,包含多个字段如Id, PostTypeId, Body等,支持的任务类别包括问答、文本生成和文本到文本的生成。
提供机构:
theblackcat102
原始信息汇总
数据集概述
数据集结构
数据字段
- Id: 字符串类型,帖子唯一标识符。
- PostTypeId: 字符串类型,帖子类型标识符(1=问题, 2=回答, 3=孤立标签维基, 4=标签维基摘录, 5=标签维基, 6=版主提名, 7=维基占位符, 8=特权维基)。
- AcceptedAnswerId: 字符串类型,仅在PostTypeId=1时存在,表示被接受的回答ID。
- ParentId: 字符串类型,仅在PostTypeId=2时存在,表示父帖子ID。
- Score: 字符串类型,帖子得分。
- ViewCount: 字符串类型,帖子浏览次数。
- Body: 字符串类型,帖子内容,以Markdown格式存储。
- Title: 字符串类型,帖子标题。
- ContentLicense: 字符串类型,帖子内容许可。
- FavoriteCount: 字符串类型,帖子被收藏次数。
- CreationDate: 字符串类型,帖子创建日期。
- LastActivityDate: 字符串类型,帖子最后活动日期。
- LastEditDate: 字符串类型,帖子最后编辑日期。
- LastEditorUserId: 字符串类型,最后编辑帖子的用户ID。
- OwnerUserId: 字符串类型,帖子所有者用户ID。
- Tags: 字符串序列类型,帖子标签。
数据分割
- train: 训练集,包含411232个样本,总大小为566804417字节。
数据集大小
- 下载大小: 311064786字节
- 数据集大小: 566804417字节
语言
- 代码
- 英语
任务类别
- 问答
- 文本生成
- 文本到文本生成
标签
- 代码



