loraxian/reddit-ootl-answers
收藏Hugging Face2024-01-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/loraxian/reddit-ootl-answers
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了Reddit的OutOfTheLoop子版块中2019年3月至2023年2月间所有以**Answer:**开头的评论。数据集中的每一行都包含了评论的文本、评论的Reddit投票分数、评论ID、父帖子的ID、评论创建日期、评论是否包含链接、父帖子的标题、父帖子的文本、父帖子是否包含链接、父帖子的分数以及父帖子的创建日期等信息。
该数据集包含了Reddit的OutOfTheLoop子版块中2019年3月至2023年2月间所有以**Answer:**开头的评论。数据集中的每一行都包含了评论的文本、评论的Reddit投票分数、评论ID、父帖子的ID、评论创建日期、评论是否包含链接、父帖子的标题、父帖子的文本、父帖子是否包含链接、父帖子的分数以及父帖子的创建日期等信息。
提供机构:
loraxian
原始信息汇总
数据集概述
基本信息
- 数据集名称: r/OutOfTheLoop Questions and Answers
- 语言: 英语
- 多语言性: 单语种
- 数据规模: 10K<n<100K
- 数据来源: 原始数据
- 任务类别: 文本分类、文本生成
- 任务ID: 文本评分
数据集特征
- 特征列表:
body: 评论文本 (string)score_comment: 评论的Reddit投票分数 (int64)comment_id: 评论ID (string)link_id: 父帖ID (string)created_comment: 评论创建日期 (string)has_link_comment: 评论文本是否包含http://或https:// (bool)title: 父帖标题 (string)selftext: 父帖文本 (string)score_submission: 父帖分数 (int64)created_submission: 父帖创建日期 (string)has_link_submission: 父帖文本是否包含http://或https:// (bool)
数据集分割
- 训练集:
- 文件大小: 55558875 字节
- 样本数量: 42152 个
数据集大小
- 下载大小: 24532400 字节
- 数据集大小: 55558875 字节
配置
- 默认配置:
- 数据文件:
- 分割: 训练集
- 路径: data/train-*
- 数据文件:
标签
- 标签:
- outoftheloop
数据集描述
- 数据来源: 包含2019年3月至2023年2月期间OutOfTheLoop子版块中以"Answer:"开头的所有Reddit评论。
- 每行数据包含:
body: 评论文本score_comment: 评论的Reddit投票分数comment_id: 评论IDlink_id: 父帖IDcreated_comment: 评论创建日期has_link_comment: 评论文本是否包含http://或https://title: 父帖标题selftext: 父帖文本has_link_submission: 父帖文本是否包含http://或https://score_submission: 父帖分数created_submission: 父帖创建日期



