Coarse Discourse

github2024-04-04 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/coarse-discourse

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含约10,000个论坛帖子讨论注释和关系的大型语料库，用于深入分析和解释在线讨论的特征。

A large corpus containing approximately 10,000 annotated forum posts and their relationships, designed for in-depth analysis and interpretation of the characteristics of online discussions.

创建时间：

2017-03-09

原始信息汇总

数据集概述

数据集名称

Coarse Discourse

数据集内容

包含约10,000个论坛帖子的讨论注释和关系。
数据集包括两种类型的帖子：self-post（文本帖子）和link-post（链接帖子）。
最终完全注释的帖子数量为9,473。

数据集结构

Thread Fields

URL: 帖子在reddit上的URL。
title: 帖子的标题，由第一个发帖者编写。
is_self_post: 如果第一个帖子是self-post，则为True。
subreddit: 帖子所属的subreddit。
posts: 帖子中所有帖子的列表。

Post Fields

id: 帖子ID，当前帖子的reddit ID。
in_reply_to: 父ID，当前帖子回复的帖子的reddit ID。
post_depth: 当前帖子与初始帖子之间的回复层级。
is_first_post: 如果当前帖子是初始帖子，则为True。
annotations: 对该帖子所做的所有注释列表。
majority_type: 如果注释者之间存在多数类型，则为多数注释类型。
majority_link: 如果注释者之间存在多数链接，则为多数注释链接。

Annotation Fields

annotator: 注释者的唯一ID。
main_type: 描述该帖子的主要话语行为。
secondary_type: 如果帖子包含多个话语行为序列，则为帖子中的第二个话语行为。
link_to_post: 该帖子链接到的帖子。

数据采样与预处理

从2016年5月之前的全Reddit数据集中随机抽样，原始数据集包含2.38亿帖子。
经过筛选，最终样本为32,728个帖子，其中self-post占31%，link-post占69%。
过滤条件包括：至少两个回复、无删除评论、英语为主、非NSFW内容、非交易相关。

注释过程

每个帖子由三名注释者进行注释，注释内容包括话语行为（main_type）和与前一帖子的关系（link_to_post）。
注释时考虑帖子级别的内容，允许添加第二个话语类别（secondary_type）以处理帖子中的多个行为。
限制每个帖子的回复数量不超过40个。

数据获取

数据集不包含帖子的完整内容，仅包含识别帖子和理解其结构的必要元数据。
提供了一个Python脚本，用于从Reddit API获取完整内容并与注释数据合并。

数据集文件

包含数据集文件、评分指南、Python脚本以及两个黑名单文件（非英语和交易相关）。

许可证

CC-by

搜集汇总

数据集介绍

构建方式

Coarse Discourse数据集的构建过程始于对Reddit论坛数据的随机采样，涵盖了从Reddit创立之初至2016年5月底的完整数据集。为了确保数据集的多样性，研究团队从整个Reddit数据集中进行采样，而非局限于特定子论坛。初始数据集包含2.38亿条线程，经过一系列筛选后，最终保留了32,728条线程。筛选标准包括：至少包含两条回复、排除包含删除评论或非英语内容的线程、过滤NSFW（不适合工作场所）子论坛以及排除以交易为主的子论坛。最终，数据集包含了9,473条线程，共计116,347条评论，每条评论均由三名标注者进行话语行为标注。

特点

Coarse Discourse数据集的特点在于其广泛覆盖了Reddit论坛中的多样化讨论内容，涵盖了从问答到信息分享等多种话语行为。数据集不仅包含了每条评论的元数据，如帖子ID、回复深度、是否为初始帖子等，还通过标注记录了每条评论的主要话语行为（main_type）和次要话语行为（secondary_type），以及与其他评论的关联（link_to_post）。此外，数据集还特别关注了自发布帖子（self-post）和链接帖子（link-post）的比例，以确保问答类讨论的充分代表性。这些特点使得该数据集成为研究在线讨论结构和话语行为的宝贵资源。

使用方法

使用Coarse Discourse数据集时，研究者可以通过提供的Python脚本从Reddit API中检索完整的帖子内容，并将其与数据集中的标注信息进行整合。数据集中的每个线程都包含了Reddit URL、标题、子论坛信息以及帖子列表，研究者可以根据这些信息进一步分析讨论的结构和内容。此外，数据集还提供了详细的标注指南和黑名单文件，帮助用户更好地理解和使用数据。对于研究在线讨论、话语分析或信息检索的学者而言，该数据集提供了一个丰富且结构化的研究平台。

背景与挑战

背景概述

Coarse Discourse数据集由MIT CSAIL的Amy X. Zhang等人于2017年创建，旨在深入分析在线论坛讨论的结构与内容。该数据集包含约10,000个Reddit论坛线程的注释和关系，涵盖了从Reddit成立至2016年5月的广泛讨论。通过随机抽样和多重过滤，研究人员确保了数据集的多样性和代表性，特别关注了自发布和链接发布线程的比例，以优化问答相关线程的收集。该数据集的研究成果发表在ICWSM '17会议上，对在线讨论的自动分析和信息检索领域产生了重要影响。

当前挑战

Coarse Discourse数据集在构建过程中面临了多重挑战。首先，从庞大的Reddit数据集中筛选出具有实质性讨论的线程，需排除删除评论、非英语内容、NSFW内容及交易相关子论坛，以确保数据的质量和适用性。其次，注释过程中，由于Reddit线程的复杂性和多样性，注释者需准确识别每个评论的话语行为及其与前文的关系，这对注释的一致性和准确性提出了较高要求。此外，数据集仅包含元数据，原始内容需通过Reddit API获取，这增加了数据使用的复杂性。这些挑战共同构成了该数据集在研究和应用中的主要难点。

常用场景

经典使用场景

在自然语言处理领域，Coarse Discourse数据集被广泛用于研究在线论坛中的讨论结构和话语行为。通过对Reddit论坛中的大量线程进行注释，该数据集为研究者提供了一个丰富的语料库，用于分析用户之间的互动模式、话语类型及其在讨论中的演变。这种分析不仅有助于理解在线社区的动态，还能为构建更智能的对话系统提供基础。

实际应用

在实际应用中，Coarse Discourse数据集被用于开发智能对话系统和社区管理工具。例如，基于该数据集的研究成果可以用于自动识别和分类在线讨论中的关键话语行为，从而帮助社区管理者更有效地监控和引导讨论。此外，该数据集还可用于训练对话生成模型，使其能够更自然地模拟人类对话行为，提升用户体验。

衍生相关工作

Coarse Discourse数据集催生了一系列相关研究，特别是在在线讨论分析和对话系统领域。例如，基于该数据集的研究工作包括对话行为分类模型的开发、多轮对话系统的构建以及在线讨论情感分析等。这些研究不仅扩展了数据集的应用范围，还推动了自然语言处理技术的发展，特别是在理解复杂对话结构和语义方面。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集