sentence-transformers/reddit-title-body
收藏Hugging Face2021-10-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/reddit-title-body
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自Reddit的帖子标题和正文对,每个帖子都包含标题、正文和所属子版块信息。数据集按年份划分,每月随机排序。数据经过过滤,只包含标题长度超过25个字符、正文长度在标题长度加25到4096个字符之间、至少有3个评论或3个点赞的帖子。
提供机构:
sentence-transformers
原始信息汇总
数据集概述
数据集名称
Reddit (Title, Body)-Pairs
数据集内容
包含来自Reddit的(title, body)对,每个文件为jsonl格式,每行是一个JSON对象,包含以下字段:
title: 帖子标题body: 帖子正文subreddit: 子论坛名称
数据集筛选条件
- 移除upvote_ratio小于0.5的帖子
- 仅包含标题长度超过25个字符且满足
len(title)+25 < len(body) < 4096的帖子 - 仅保留至少有3条评论或至少3个点赞的帖子
数据集文件列表
| 文件名 | 行数 |
|---|---|
| reddit_title_text_2010.jsonl.gz | 431,782 |
| reddit_title_text_2011.jsonl.gz | 1,673,264 |
| reddit_title_text_2012.jsonl.gz | 3,727,526 |
| reddit_title_text_2013.jsonl.gz | 5,713,956 |
| reddit_title_text_2014.jsonl.gz | 8,538,976 |
| reddit_title_text_2015.jsonl.gz | 11,064,453 |
| reddit_title_text_2016.jsonl.gz | 12,224,789 |
| reddit_title_text_2017.jsonl.gz | 13,558,139 |
| reddit_title_text_2018.jsonl.gz | 15,552,110 |
| reddit_title_text_2019.jsonl.gz | 19,224,970 |
| reddit_title_text_2020.jsonl.gz | 23,030,988 |
| reddit_title_text_2021.jsonl.gz | 12,704,958 |
注意事项
- 数据集未经过偏见、仇恨言论、垃圾信息、种族歧视等内容的过滤,反映的是Reddit上原始发布的内容。



