five

georeactor/reddit_one_ups_seq2seq_2014

收藏
Hugging Face2023-03-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/georeactor/reddit_one_ups_seq2seq_2014
下载链接
链接失效反馈
官方服务:
资源简介:
Reddit one-ups或clapbacks - 得分高于原始评论的回复。该数据集选择了自由形式的回复,这些回复不遵循重复的模因回复。排除了IAmA子版块,以避免其答案得分高于问题的常见情况。回复选自2014年的PushShift存档。数据集支持的任务是seq2seq的回复写作,主要语言为英语。数据结构包括19,992行数据,每行包含多个字段,如id、body、score等。数据集的创建过程包括从PushShift.io收集数据、删除已删除或空评论、选择得分高于父评论1.5倍的回复等。使用数据时需要注意评论和回复可能包含NSFW和有毒语言。

Reddit one-ups或clapbacks - 得分高于原始评论的回复。该数据集选择了自由形式的回复,这些回复不遵循重复的模因回复。排除了IAmA子版块,以避免其答案得分高于问题的常见情况。回复选自2014年的PushShift存档。数据集支持的任务是seq2seq的回复写作,主要语言为英语。数据结构包括19,992行数据,每行包含多个字段,如id、body、score等。数据集的创建过程包括从PushShift.io收集数据、删除已删除或空评论、选择得分高于父评论1.5倍的回复等。使用数据时需要注意评论和回复可能包含NSFW和有毒语言。
提供机构:
georeactor
原始信息汇总

数据集概述

数据集名称

reddit_one_ups_seq2seq_2014

数据集描述

  • 概述: 该数据集包含Reddit上的“one-ups”或“clapbacks”,即得分高于原评论的回复。数据集排除了重复的模因回复,并特别排除了IAmA子论坛,以避免回答得分通常高于问题的情况。
  • 来源: 数据来源于PushShift.io的2014年Reddit评论档案。
  • 用途: 主要用于seq2seq写作任务,即生成对Reddit评论的回复。

数据集结构

数据实例

  • 总数: 19,992行

数据字段

  • id: 回复的Reddit字母数字ID
  • body: 原始回复的内容
  • score: 原始回复的净投票分数
  • parent_id: 父评论的Reddit字母数字ID
  • author: 回复的Reddit用户名
  • subreddit: 讨论发生的Reddit社区
  • parent_score: 父评论的净投票分数
  • tstamp: 回复的时间戳
  • parent_body: 原始父评论的内容

数据集创建

初始数据收集和规范化

  • 移除了已删除或空的评论。
  • 仅选择得分是父评论1.5倍以上且两者得分均为正的回复。
  • 识别并排除了包含常见高得分回复短语的回复。
  • 从2014年每个月中选取约1,667个最高得分的回复,排除了/r/IAmA。
  • 在PostgreSQL中创建行并输出为CSV格式。

使用数据集的注意事项

  • 数据集中的评论和回复可能包含NSFW和有害语言及链接。
  • 可以使用subreddit和score字段进行过滤,利用subreddit和时间戳来提高回复内容的预测准确性。
  • 所有Reddit评论均受Reddit及其用户服务条款的约束。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作