five

P1ayer-1/reddit-math

收藏
Hugging Face2023-04-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/P1ayer-1/reddit-math
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了2023年3月之前r/math subreddit的帖子及其前5条评论,数据格式为JSON Lines。数据来源包括Pushshift Reddit submissions dataset、BigQuery和网络爬虫,用于提取和更新帖子内容。

该数据集包含了2023年3月之前r/math subreddit的帖子及其前5条评论,数据格式为JSON Lines。数据来源包括Pushshift Reddit submissions dataset、BigQuery和网络爬虫,用于提取和更新帖子内容。
提供机构:
P1ayer-1
原始信息汇总

数据集概述

数据来源

本数据集整合了以下三个主要来源的数据:

  1. Pushshift Reddit提交数据集,包含字段:"标题, 帖子ID, 是否成人内容, 子论坛, 链接样式文本, 正文"
  2. 通过BigQuery上传并查询的r/math子论坛提交数据
  3. 使用网络爬虫(https://github.com/P1ayer-1/Reddit-Convo-Tree-Builder)提取的更新后帖子内容,包括对原始帖子的回复

数据输出

输出数据采用JSON Lines格式,包含r/math子论坛帖子的提示-回复对象,以及每个帖子的前5条评论。

数据许可

本数据集遵循CC-BY-4.0许可协议。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作