google-research-datasets/coarse_discourse
收藏数据集概述
数据集摘要
Coarse Discourse 数据集是一个包含约10,000个论坛帖子的大规模语料库,涵盖超过100,000条评论,这些评论通过付费众包手动标注了话语行为,并从Reddit网站随机抽样得到。
支持的任务和排行榜
该数据集支持的任务类别是文本分类,具体任务是多类别分类。
语言
数据集的语言是英语。
数据集结构
数据实例
一个训练集的示例如下:
json { "annotations": { "annotator": ["fc96a15ab87f02dd1998ff55a64f6478", "e9e4b3ab355135fa954badcc06bfccc6", "31ac59c1734c1547d4d0723ff254c247"], "link_to_post": ["", "", ""], "main_type": ["elaboration", "elaboration", "elaboration"] }, "id_post": "t1_c9b30i1", "in_reply_to": "t1_c9b2nyd", "is_first_post": false, "is_self_post": true, "majority_link": "t1_c9b2nyd", "majority_type": "elaboration", "post_depth": 2, "subreddit": "100movies365days", "title": "DTX120: #87 - Nashville", "url": "https://www.reddit.com/r/100movies365days/comments/1bx6qw/dtx120_87_nashville/" }
数据字段
数据集包含以下字段:
title: 字符串类型,帖子标题。is_self_post: 布尔类型,是否为自发布。subreddit: 字符串类型,子版块名称。url: 字符串类型,帖子URL。majority_link: 字符串类型,主要链接。is_first_post: 布尔类型,是否为首帖。majority_type: 字符串类型,主要类型。id_post: 字符串类型,帖子ID。post_depth: 整数类型,帖子深度。in_reply_to: 字符串类型,回复对象。annotations: 字典类型,包含以下子字段:annotator: 字符串类型,标注者。link_to_post: 字符串类型,帖子链接。main_type: 字符串类型,主要类型。
数据分割
数据集只有一个训练集,包含116,357个样本。
数据集创建
数据集来源
数据集的来源是原始数据。
标注过程
数据集的标注是由众包完成的。
许可证信息
数据集的许可证是CC-BY-4.0。
引用信息
bibtex @inproceedings{coarsediscourse, title={Characterizing Online Discussion Using Coarse Discourse Sequences}, author={Zhang, Amy X. and Culbertson, Bryan and Paritosh, Praveen}, booktitle={Proceedings of the 11th International AAAI Conference on Weblogs and Social Media}, series={ICWSM 17}, year={2017}, location = {Montreal, Canada} }




