five

Switchboard Coherence (SWBD-Coh) corpus

收藏
github2023-02-03 更新2024-05-31 收录
下载链接:
https://github.com/alecervi/switchboard-coherence-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Switchboard Coherence (SWBD-Coh) corpus是一个开放领域对话资源,包含根据上下文(对话历史)对潜在的下一轮对话候选进行人类一致性评级的注释。评级尺度为:1 = 不一致,2 = 不确定是否合适,3 = 一致。该资源由1000个上下文与7个下一轮对话候选配对组成,共7000个注释的上下文/候选对。

The Switchboard Coherence (SWBD-Coh) corpus is an open-domain dialogue resource that includes annotations of human coherence ratings for potential next-turn dialogue candidates based on context (dialogue history). The rating scale is as follows: 1 = incoherent, 2 = uncertain if appropriate, 3 = coherent. This resource consists of 1000 contexts paired with 7 next-turn dialogue candidates, totaling 7000 annotated context/candidate pairs.
创建时间:
2020-05-17
原始信息汇总

Switchboard Coherence (SWBD-Coh) corpus

数据集概述

  • 名称: Switchboard Coherence corpus (SWBD-Coh)
  • 描述: 一个开放领域的对话数据集,包含1000个对话上下文,每个上下文有7个潜在的下一轮对话候选,总计7000个上下文/候选对。
  • 注释: 每个候选对话根据与上下文的连贯性进行评分,评分标准为:1 = 不连贯,2 = 不确定是否合适,3 = 连贯。
  • 注释过程: 通过Amazon Mechanical Turk进行,每个对话由5名通过预选测试的工人进行评分。

数据结构

  • JSON格式: json { "<example_id>": { "candidates": [ { "cand_type": <cand_type>, "avg_score": <avg_score> } ], "context": [ { "speaker": <speaker>, "turn": <turn> } ], "info": { "dialog_id": <dialog_id>, "time_info": [ { "ann_id": <ann_id>, "time": <time> } ], "candidates_info": [ { "cand_type": <cand_type>, "turn_idx": <turn_idx>, "dialog_id": <dialog_id>, "annotators_info": [ { "ann_id": <ann_id>, "score": <score> } ] } ] } } }

    • 字段解释:
      • example_id: 注释示例的ID。
      • candidates: 候选对话信息,包括类型和平均评分。
      • context: 对话历史,包含说话者和对话内容。
      • info: 额外信息,包括对话ID、注释者信息和时间信息。

引用信息

  • 引用格式: bibtex @inproceedings{cervone2020dialogue, title={Is this Dialogue Coherent? Learning from Dialogue Acts and Entities}, author={Cervone, Alessandra and Riccardi, Giuseppe}, booktitle={Proceedings of the 21st Annual SIGdial Meeting on Discourse and Dialogue}, year={2020} }
搜集汇总
数据集介绍
main_image_url
构建方式
Switchboard Coherence (SWBD-Coh) 语料库的构建基于Switchboard Dialogue Act (SWBD-DA) 语料库,通过人工标注的方式对开放域对话的连贯性进行评估。具体而言,标注者被要求根据给定的对话上下文(对话历史)对一系列潜在的下一个对话轮次进行连贯性评分。评分标准分为三个等级:1表示不连贯,2表示不确定是否合适,3表示连贯。每个对话轮次由五位经过预选测试的标注者进行评分,确保了标注的可靠性和一致性。
特点
SWBD-Coh 语料库包含1000个对话上下文,每个上下文对应7个潜在的下一个对话轮次,共计7000个标注的上下文/候选对。每个候选轮次被标注为三种类型:原始轮次(即对话中实际出现的下一个轮次)、内部交换(来自同一对话的随机轮次)和外部交换(来自其他对话的随机轮次)。此外,语料库还记录了每位标注者的评分时间及评分细节,为研究对话连贯性提供了丰富的数据支持。
使用方法
使用SWBD-Coh 语料库时,首先需下载并构建Switchboard Dialogue Act (SWBD-DA) 语料库。随后,通过克隆GitHub仓库并运行build.py脚本,将连贯性标注与文本部分结合。语料库以JSON格式存储,包含对话上下文、候选轮次及其连贯性评分等信息。用户可通过解析JSON文件获取所需数据,并利用这些数据进行对话连贯性分析、模型训练等研究。
背景与挑战
背景概述
Switchboard Coherence (SWBD-Coh) 语料库由Alessandra Cervone和Giuseppe Riccardi于2020年创建,旨在为开放域对话的连贯性研究提供资源。该语料库基于Switchboard Dialogue Act (SWBD-DA) 语料库,通过人工标注的方式对对话的连贯性进行评分。具体而言,标注者需根据给定的对话上下文,对潜在的下一个对话轮次的连贯性进行评分,评分分为三个等级:1(不连贯)、2(不确定是否合适)、3(连贯)。该数据集包含1000个上下文,每个上下文对应7个候选轮次,共计7000个标注的上下文/候选对。这一资源为对话连贯性研究提供了重要的数据支持,推动了对话系统在自然语言处理领域的发展。
当前挑战
SWBD-Coh语料库的构建面临多重挑战。首先,对话连贯性的主观性较强,标注者之间的评分一致性难以保证,尽管每个轮次由5名标注者进行评分,但仍需通过预选测试筛选合格的标注者。其次,候选轮次的多样性设计(包括原始轮次、内部交换轮次和外部交换轮次)增加了数据复杂性,同时也对标注者的理解和评分能力提出了更高要求。此外,数据集的构建依赖于Switchboard Dialogue Act语料库,其原始数据的质量和完整性直接影响SWBD-Coh的可用性。这些挑战不仅体现在数据标注过程中,也对后续基于该数据集的研究提出了更高的模型设计和评估要求。
常用场景
经典使用场景
Switchboard Coherence (SWBD-Coh) corpus 数据集广泛应用于对话系统的连贯性评估研究。通过提供大量带有连贯性评分的对话片段,研究者能够深入分析对话中的连贯性模式,进而优化对话系统的生成策略。该数据集特别适用于评估和训练基于上下文的对话生成模型,帮助模型更好地理解对话历史并生成连贯的回应。
衍生相关工作
基于 SWBD-Coh 数据集,许多经典研究工作得以展开。例如,Cervone 和 Riccardi 的研究提出了基于对话行为和实体的连贯性学习方法,为后续的对话生成模型提供了理论基础。此外,该数据集还启发了大量关于对话连贯性评估和生成模型优化的研究,推动了对话系统领域的进一步发展。
数据集最近研究
最新研究方向
在自然语言处理领域,对话连贯性研究一直是提升对话系统性能的关键方向之一。Switchboard Coherence (SWBD-Coh) 语料库作为一项重要的资源,为研究者提供了丰富的开放域对话数据,并标注了人类对对话连贯性的评分。近年来,基于该数据集的研究主要集中在对话连贯性建模、对话生成质量评估以及对话系统的上下文理解能力优化等方面。通过结合对话行为(Dialogue Acts)和实体信息,研究者能够更深入地探索对话连贯性的内在机制,从而推动对话系统在真实场景中的应用。此外,随着预训练语言模型的快速发展,SWBD-Coh 也被广泛应用于对话生成模型的微调和评估,为提升对话系统的自然性和流畅性提供了重要支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作