launch/reddit_qg
收藏Hugging Face2022-11-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/launch/reddit_qg
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为RedditQG,主要包含来自Reddit问答社区的问答对。每个数据实例包含id、qid、answer、question和score字段,其中score表示点赞数减去点踩数。数据集分为训练集、验证集和测试集,分别包含647763、36023和36202个样本。数据集的语言为英语,许可证为CC BY 4.0。
提供机构:
launch
原始信息汇总
数据集概述
数据集名称
- RedditQG
数据集摘要
- 该数据集包含来自Reddit问答社区的问答对。
支持的任务和排行榜
- 信息待补充
语言
- 英语
数据集结构
数据实例
-
示例结构如下:
{ "id": "askscience/123", "qid": "2323", "answer": "A test answer.", "question": "A test question?", "score": 20 }
数据字段
id: 字符串类型qid: 字符串类型,同一问题可能有多个答案answer: 字符串类型question: 字符串类型score: 整数类型,表示upvotes - downvotes的值
数据分割
- 训练集: 647763
- 验证集: 36023
- 测试集: 36202
数据集创建
源数据
- 源语言生产者: Reddit用户
个人和敏感信息
- 含有辱骂性语言的样本被丢弃,但可能存在包含个人信息的样本
许可证信息
- CC BY 4.0



