five

jonathanli/human-essays-reddit

收藏
Hugging Face2024-02-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jonathanli/human-essays-reddit
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从Reddit的r/WritingPrompts子论坛中抓取的写作提示,时间跨度为2014年5月9日至2022年8月16日。数据集仅保留了投票数在前25%的提示,并且这些提示必须有一个投票数也在前25%的置顶评论。此外,只选择了带有WP标签的帖子。

该数据集包含从Reddit的r/WritingPrompts子论坛中抓取的写作提示,时间跨度为2014年5月9日至2022年8月16日。数据集仅保留了投票数在前25%的提示,并且这些提示必须有一个投票数也在前25%的置顶评论。此外,只选择了带有WP标签的帖子。
提供机构:
jonathanli
原始信息汇总

数据集概述

数据特征

  • num_comments: 评论数量,数据类型为 int64
  • created_utc: 创建时间(UTC时间戳),数据类型为 int64
  • score: 评分,数据类型为 int64
  • title: 标题,数据类型为 string
  • top_comment: 最高评分的评论,数据类型为 string
  • top_comment_score: 最高评分评论的评分,数据类型为 float64

数据分割

  • train: 训练集,包含 38885 个样本,总字节数为 146341208 字节

数据集大小

  • 下载大小: 94103575 字节
  • 数据集大小: 146341208 字节

配置

  • default: 默认配置,包含训练集数据文件,路径为 data/train-*

数据来源与筛选标准

  • 数据集包含从 r/WritingPrompts 抓取的写作提示,时间范围为 2014年5月9日至2022年8月16日。
  • 仅保留投票数位于前25%的提示,且这些提示的响应评论也必须位于评论投票数的前25%。
  • 仅包含带有 WP 标签的帖子。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作