five

sentence-transformers/reddit-title-body

收藏
Hugging Face2021-10-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/reddit-title-body
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自Reddit的帖子标题和正文对,每个帖子都包含标题、正文和所属子版块信息。数据集按年份划分,每月随机排序。数据经过过滤,只包含标题长度超过25个字符、正文长度在标题长度加25到4096个字符之间、至少有3个评论或3个点赞的帖子。
提供机构:
sentence-transformers
原始信息汇总

数据集概述

数据集名称

Reddit (Title, Body)-Pairs

数据集内容

包含来自Reddit的(title, body)对,每个文件为jsonl格式,每行是一个JSON对象,包含以下字段:

  • title: 帖子标题
  • body: 帖子正文
  • subreddit: 子论坛名称

数据集筛选条件

  • 移除upvote_ratio小于0.5的帖子
  • 仅包含标题长度超过25个字符且满足len(title)+25 < len(body) < 4096的帖子
  • 仅保留至少有3条评论或至少3个点赞的帖子

数据集文件列表

文件名 行数
reddit_title_text_2010.jsonl.gz 431,782
reddit_title_text_2011.jsonl.gz 1,673,264
reddit_title_text_2012.jsonl.gz 3,727,526
reddit_title_text_2013.jsonl.gz 5,713,956
reddit_title_text_2014.jsonl.gz 8,538,976
reddit_title_text_2015.jsonl.gz 11,064,453
reddit_title_text_2016.jsonl.gz 12,224,789
reddit_title_text_2017.jsonl.gz 13,558,139
reddit_title_text_2018.jsonl.gz 15,552,110
reddit_title_text_2019.jsonl.gz 19,224,970
reddit_title_text_2020.jsonl.gz 23,030,988
reddit_title_text_2021.jsonl.gz 12,704,958

注意事项

  • 数据集未经过偏见、仇恨言论、垃圾信息、种族歧视等内容的过滤,反映的是Reddit上原始发布的内容。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作