georeactor/reddit_one_ups_seq2seq_2014

Name: georeactor/reddit_one_ups_seq2seq_2014
Creator: georeactor
Published: 2023-03-28 22:01:50
License: 暂无描述

Hugging Face2023-03-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/georeactor/reddit_one_ups_seq2seq_2014

下载链接

链接失效反馈

官方服务：

资源简介：

Reddit one-ups或clapbacks - 得分高于原始评论的回复。该数据集选择了自由形式的回复，这些回复不遵循重复的模因回复。排除了IAmA子版块，以避免其答案得分高于问题的常见情况。回复选自2014年的PushShift存档。数据集支持的任务是seq2seq的回复写作，主要语言为英语。数据结构包括19,992行数据，每行包含多个字段，如id、body、score等。数据集的创建过程包括从PushShift.io收集数据、删除已删除或空评论、选择得分高于父评论1.5倍的回复等。使用数据时需要注意评论和回复可能包含NSFW和有毒语言。

提供机构：

georeactor

原始信息汇总

数据集概述

数据集名称

reddit_one_ups_seq2seq_2014

数据集描述

概述: 该数据集包含Reddit上的“one-ups”或“clapbacks”，即得分高于原评论的回复。数据集排除了重复的模因回复，并特别排除了IAmA子论坛，以避免回答得分通常高于问题的情况。
来源: 数据来源于PushShift.io的2014年Reddit评论档案。
用途: 主要用于seq2seq写作任务，即生成对Reddit评论的回复。

数据集结构

数据实例

总数: 19,992行

数据字段

id: 回复的Reddit字母数字ID
body: 原始回复的内容
score: 原始回复的净投票分数
parent_id: 父评论的Reddit字母数字ID
author: 回复的Reddit用户名
subreddit: 讨论发生的Reddit社区
parent_score: 父评论的净投票分数
tstamp: 回复的时间戳
parent_body: 原始父评论的内容

数据集创建

初始数据收集和规范化

移除了已删除或空的评论。
仅选择得分是父评论1.5倍以上且两者得分均为正的回复。
识别并排除了包含常见高得分回复短语的回复。
从2014年每个月中选取约1,667个最高得分的回复，排除了/r/IAmA。
在PostgreSQL中创建行并输出为CSV格式。

使用数据集的注意事项

数据集中的评论和回复可能包含NSFW和有害语言及链接。
可以使用subreddit和score字段进行过滤，利用subreddit和时间戳来提高回复内容的预测准确性。
所有Reddit评论均受Reddit及其用户服务条款的约束。

5,000+

优质数据集

54 个

任务类型

进入经典数据集