jonathanli/human-essays-reddit
收藏Hugging Face2024-02-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jonathanli/human-essays-reddit
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从Reddit的r/WritingPrompts子论坛中抓取的写作提示,时间跨度为2014年5月9日至2022年8月16日。数据集仅保留了投票数在前25%的提示,并且这些提示必须有一个投票数也在前25%的置顶评论。此外,只选择了带有WP标签的帖子。
该数据集包含从Reddit的r/WritingPrompts子论坛中抓取的写作提示,时间跨度为2014年5月9日至2022年8月16日。数据集仅保留了投票数在前25%的提示,并且这些提示必须有一个投票数也在前25%的置顶评论。此外,只选择了带有WP标签的帖子。
提供机构:
jonathanli
原始信息汇总
数据集概述
数据特征
- num_comments: 评论数量,数据类型为
int64 - created_utc: 创建时间(UTC时间戳),数据类型为
int64 - score: 评分,数据类型为
int64 - title: 标题,数据类型为
string - top_comment: 最高评分的评论,数据类型为
string - top_comment_score: 最高评分评论的评分,数据类型为
float64
数据分割
- train: 训练集,包含 38885 个样本,总字节数为 146341208 字节
数据集大小
- 下载大小: 94103575 字节
- 数据集大小: 146341208 字节
配置
- default: 默认配置,包含训练集数据文件,路径为
data/train-*
数据来源与筛选标准
- 数据集包含从 r/WritingPrompts 抓取的写作提示,时间范围为 2014年5月9日至2022年8月16日。
- 仅保留投票数位于前25%的提示,且这些提示的响应评论也必须位于评论投票数的前25%。
- 仅包含带有 WP 标签的帖子。



