five

launch/reddit_qg

收藏
Hugging Face2022-11-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/launch/reddit_qg
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为RedditQG,主要包含来自Reddit问答社区的问答对。每个数据实例包含id、qid、answer、question和score字段,其中score表示点赞数减去点踩数。数据集分为训练集、验证集和测试集,分别包含647763、36023和36202个样本。数据集的语言为英语,许可证为CC BY 4.0。
提供机构:
launch
原始信息汇总

数据集概述

数据集名称

  • RedditQG

数据集摘要

  • 该数据集包含来自Reddit问答社区的问答对。

支持的任务和排行榜

  • 信息待补充

语言

  • 英语

数据集结构

数据实例

  • 示例结构如下:

    { "id": "askscience/123", "qid": "2323", "answer": "A test answer.", "question": "A test question?", "score": 20 }

数据字段

  • id: 字符串类型
  • qid: 字符串类型,同一问题可能有多个答案
  • answer: 字符串类型
  • question: 字符串类型
  • score: 整数类型,表示upvotes - downvotes的值

数据分割

  • 训练集: 647763
  • 验证集: 36023
  • 测试集: 36202

数据集创建

源数据

  • 源语言生产者: Reddit用户

个人和敏感信息

  • 含有辱骂性语言的样本被丢弃,但可能存在包含个人信息的样本

许可证信息

  • CC BY 4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作