georeactor/reddit_one_ups_seq2seq_2014
收藏Hugging Face2023-03-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/georeactor/reddit_one_ups_seq2seq_2014
下载链接
链接失效反馈官方服务:
资源简介:
Reddit one-ups或clapbacks - 得分高于原始评论的回复。该数据集选择了自由形式的回复,这些回复不遵循重复的模因回复。排除了IAmA子版块,以避免其答案得分高于问题的常见情况。回复选自2014年的PushShift存档。数据集支持的任务是seq2seq的回复写作,主要语言为英语。数据结构包括19,992行数据,每行包含多个字段,如id、body、score等。数据集的创建过程包括从PushShift.io收集数据、删除已删除或空评论、选择得分高于父评论1.5倍的回复等。使用数据时需要注意评论和回复可能包含NSFW和有毒语言。
Reddit one-ups或clapbacks - 得分高于原始评论的回复。该数据集选择了自由形式的回复,这些回复不遵循重复的模因回复。排除了IAmA子版块,以避免其答案得分高于问题的常见情况。回复选自2014年的PushShift存档。数据集支持的任务是seq2seq的回复写作,主要语言为英语。数据结构包括19,992行数据,每行包含多个字段,如id、body、score等。数据集的创建过程包括从PushShift.io收集数据、删除已删除或空评论、选择得分高于父评论1.5倍的回复等。使用数据时需要注意评论和回复可能包含NSFW和有毒语言。
提供机构:
georeactor
原始信息汇总
数据集概述
数据集名称
reddit_one_ups_seq2seq_2014
数据集描述
- 概述: 该数据集包含Reddit上的“one-ups”或“clapbacks”,即得分高于原评论的回复。数据集排除了重复的模因回复,并特别排除了IAmA子论坛,以避免回答得分通常高于问题的情况。
- 来源: 数据来源于PushShift.io的2014年Reddit评论档案。
- 用途: 主要用于seq2seq写作任务,即生成对Reddit评论的回复。
数据集结构
数据实例
- 总数: 19,992行
数据字段
- id: 回复的Reddit字母数字ID
- body: 原始回复的内容
- score: 原始回复的净投票分数
- parent_id: 父评论的Reddit字母数字ID
- author: 回复的Reddit用户名
- subreddit: 讨论发生的Reddit社区
- parent_score: 父评论的净投票分数
- tstamp: 回复的时间戳
- parent_body: 原始父评论的内容
数据集创建
初始数据收集和规范化
- 移除了已删除或空的评论。
- 仅选择得分是父评论1.5倍以上且两者得分均为正的回复。
- 识别并排除了包含常见高得分回复短语的回复。
- 从2014年每个月中选取约1,667个最高得分的回复,排除了/r/IAmA。
- 在PostgreSQL中创建行并输出为CSV格式。
使用数据集的注意事项
- 数据集中的评论和回复可能包含NSFW和有害语言及链接。
- 可以使用subreddit和score字段进行过滤,利用subreddit和时间戳来提高回复内容的预测准确性。
- 所有Reddit评论均受Reddit及其用户服务条款的约束。



