P1ayer-1/reddit-math
收藏Hugging Face2023-04-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/P1ayer-1/reddit-math
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了2023年3月之前r/math subreddit的帖子及其前5条评论,数据格式为JSON Lines。数据来源包括Pushshift Reddit submissions dataset、BigQuery和网络爬虫,用于提取和更新帖子内容。
该数据集包含了2023年3月之前r/math subreddit的帖子及其前5条评论,数据格式为JSON Lines。数据来源包括Pushshift Reddit submissions dataset、BigQuery和网络爬虫,用于提取和更新帖子内容。
提供机构:
P1ayer-1
原始信息汇总
数据集概述
数据来源
本数据集整合了以下三个主要来源的数据:
- Pushshift Reddit提交数据集,包含字段:"标题, 帖子ID, 是否成人内容, 子论坛, 链接样式文本, 正文"
- 通过BigQuery上传并查询的r/math子论坛提交数据
- 使用网络爬虫(https://github.com/P1ayer-1/Reddit-Convo-Tree-Builder)提取的更新后帖子内容,包括对原始帖子的回复
数据输出
输出数据采用JSON Lines格式,包含r/math子论坛帖子的提示-回复对象,以及每个帖子的前5条评论。
数据许可
本数据集遵循CC-BY-4.0许可协议。



