Switchboard Coherence (SWBD-Coh) corpus

github2023-02-03 更新2024-05-31 收录

下载链接：

https://github.com/alecervi/switchboard-coherence-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Switchboard Coherence (SWBD-Coh) corpus是一个开放领域对话资源，包含根据上下文（对话历史）对潜在的下一轮对话候选进行人类一致性评级的注释。评级尺度为：1 = 不一致，2 = 不确定是否合适，3 = 一致。该资源由1000个上下文与7个下一轮对话候选配对组成，共7000个注释的上下文/候选对。

The Switchboard Coherence (SWBD-Coh) corpus is an open-domain dialogue resource that includes annotations of human coherence ratings for potential next-turn dialogue candidates based on context (dialogue history). The rating scale is as follows: 1 = incoherent, 2 = uncertain if appropriate, 3 = coherent. This resource consists of 1000 contexts paired with 7 next-turn dialogue candidates, totaling 7000 annotated context/candidate pairs.

创建时间：

2020-05-17

原始信息汇总

Switchboard Coherence (SWBD-Coh) corpus

数据集概述

名称: Switchboard Coherence corpus (SWBD-Coh)
描述: 一个开放领域的对话数据集，包含1000个对话上下文，每个上下文有7个潜在的下一轮对话候选，总计7000个上下文/候选对。
注释: 每个候选对话根据与上下文的连贯性进行评分，评分标准为：1 = 不连贯，2 = 不确定是否合适，3 = 连贯。
注释过程: 通过Amazon Mechanical Turk进行，每个对话由5名通过预选测试的工人进行评分。

数据结构

JSON格式: json { "<example_id>": { "candidates": [ { "cand_type": <cand_type>, "avg_score": <avg_score> } ], "context": [ { "speaker": <speaker>, "turn": <turn> } ], "info": { "dialog_id": <dialog_id>, "time_info": [ { "ann_id": <ann_id>, "time": <time> } ], "candidates_info": [ { "cand_type": <cand_type>, "turn_idx": <turn_idx>, "dialog_id": <dialog_id>, "annotators_info": [ { "ann_id": <ann_id>, "score": <score> } ] } ] } } }
- 字段解释:
  - example_id: 注释示例的ID。
  - candidates: 候选对话信息，包括类型和平均评分。
  - context: 对话历史，包含说话者和对话内容。
  - info: 额外信息，包括对话ID、注释者信息和时间信息。

引用信息

引用格式: bibtex @inproceedings{cervone2020dialogue, title={Is this Dialogue Coherent? Learning from Dialogue Acts and Entities}, author={Cervone, Alessandra and Riccardi, Giuseppe}, booktitle={Proceedings of the 21st Annual SIGdial Meeting on Discourse and Dialogue}, year={2020} }

搜集汇总

数据集介绍

构建方式

Switchboard Coherence (SWBD-Coh) 语料库的构建基于Switchboard Dialogue Act (SWBD-DA) 语料库，通过人工标注的方式对开放域对话的连贯性进行评估。具体而言，标注者被要求根据给定的对话上下文（对话历史）对一系列潜在的下一个对话轮次进行连贯性评分。评分标准分为三个等级：1表示不连贯，2表示不确定是否合适，3表示连贯。每个对话轮次由五位经过预选测试的标注者进行评分，确保了标注的可靠性和一致性。

特点

SWBD-Coh 语料库包含1000个对话上下文，每个上下文对应7个潜在的下一个对话轮次，共计7000个标注的上下文/候选对。每个候选轮次被标注为三种类型：原始轮次（即对话中实际出现的下一个轮次）、内部交换（来自同一对话的随机轮次）和外部交换（来自其他对话的随机轮次）。此外，语料库还记录了每位标注者的评分时间及评分细节，为研究对话连贯性提供了丰富的数据支持。

使用方法

使用SWBD-Coh 语料库时，首先需下载并构建Switchboard Dialogue Act (SWBD-DA) 语料库。随后，通过克隆GitHub仓库并运行build.py脚本，将连贯性标注与文本部分结合。语料库以JSON格式存储，包含对话上下文、候选轮次及其连贯性评分等信息。用户可通过解析JSON文件获取所需数据，并利用这些数据进行对话连贯性分析、模型训练等研究。

背景与挑战

背景概述

Switchboard Coherence (SWBD-Coh) 语料库由Alessandra Cervone和Giuseppe Riccardi于2020年创建，旨在为开放域对话的连贯性研究提供资源。该语料库基于Switchboard Dialogue Act (SWBD-DA) 语料库，通过人工标注的方式对对话的连贯性进行评分。具体而言，标注者需根据给定的对话上下文，对潜在的下一个对话轮次的连贯性进行评分，评分分为三个等级：1（不连贯）、2（不确定是否合适）、3（连贯）。该数据集包含1000个上下文，每个上下文对应7个候选轮次，共计7000个标注的上下文/候选对。这一资源为对话连贯性研究提供了重要的数据支持，推动了对话系统在自然语言处理领域的发展。

当前挑战

SWBD-Coh语料库的构建面临多重挑战。首先，对话连贯性的主观性较强，标注者之间的评分一致性难以保证，尽管每个轮次由5名标注者进行评分，但仍需通过预选测试筛选合格的标注者。其次，候选轮次的多样性设计（包括原始轮次、内部交换轮次和外部交换轮次）增加了数据复杂性，同时也对标注者的理解和评分能力提出了更高要求。此外，数据集的构建依赖于Switchboard Dialogue Act语料库，其原始数据的质量和完整性直接影响SWBD-Coh的可用性。这些挑战不仅体现在数据标注过程中，也对后续基于该数据集的研究提出了更高的模型设计和评估要求。

常用场景

经典使用场景

Switchboard Coherence (SWBD-Coh) corpus 数据集广泛应用于对话系统的连贯性评估研究。通过提供大量带有连贯性评分的对话片段，研究者能够深入分析对话中的连贯性模式，进而优化对话系统的生成策略。该数据集特别适用于评估和训练基于上下文的对话生成模型，帮助模型更好地理解对话历史并生成连贯的回应。

衍生相关工作

基于 SWBD-Coh 数据集，许多经典研究工作得以展开。例如，Cervone 和 Riccardi 的研究提出了基于对话行为和实体的连贯性学习方法，为后续的对话生成模型提供了理论基础。此外，该数据集还启发了大量关于对话连贯性评估和生成模型优化的研究，推动了对话系统领域的进一步发展。

数据集最近研究