five

Coldog2333/super_dialseg

收藏
Hugging Face2023-10-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Coldog2333/super_dialseg
下载链接
链接失效反馈
官方服务:
资源简介:
SuperDialseg是一个用于监督对话分割的大规模数据集,基于doc2dial和MultiDoc2dial数据集构建。数据集包含对话ID、对话轮次、对话行为、角色、轮次ID、话语、话题ID和分割标签等字段。数据集遵循原始DGDS数据集的分割方式,并采用Apache License Version 2.0许可证。

SuperDialseg is a large-scale dataset for supervised dialogue segmentation, constructed upon the doc2dial and MultiDoc2dial datasets. It comprises fields including conversation ID, conversation turn, dialogue act, role, turn ID, utterance, topic ID and segmentation label. The dataset adheres to the segmentation schema of the original DGDS dataset, and is released under Apache License Version 2.0.
提供机构:
Coldog2333
原始信息汇总

数据集卡片 for SuperDialseg

数据集描述

数据集摘要

[更多信息需要]

支持的任务和排行榜

[更多信息需要]

语言:英语

数据集结构

数据实例

json { "dial_data": { "super_dialseg": [ { "dial_id": "8df07b7a98990db27c395cb1f68a962e", "turns": [ { "da": "query_condition", "role": "user", "turn_id": 0, "utterance": "Hello, I forgot o update my address, can you help me with that?", "topic_id": 0, "segmentation_label": 0 }, ... { "da": "respond_solution", "role": "agent", "turn_id": 11, "utterance": "DO NOT contact the New York State DMV to dispute whether you violated a toll regulation or failed to pay the toll , fees or other charges", "topic_id": 4, "segmentation_label": 0 } ] } ] } }

数据字段

对话级

  • dial_id: 对话的ID;
  • turns: 对话的所有话语。

话语级

  • da: 从原始DGDS数据集派生的对话行为注释;
  • role: 从原始DGDS数据集派生的角色注释;
  • turn_id: 话语的ID;
  • utterance: 话语的文本;
  • topic_id: 当前话题的ID(顺序);
  • segmentation_label: 1: 是话题的结束;0: 其他。

数据分割

SuperDialseg遵循原始DGDS数据集的数据分割。

数据集创建

策划理由

[更多信息需要]

源数据

初始数据收集和规范化

SuperDialseg建立在doc2dial和MultiDoc2dial数据集之上。请参考原始论文获取更多细节。

源语言生产者是谁?

[更多信息需要]

注释

注释过程

[更多信息需要]

注释者是谁?

对话分割点的注释是通过一套精心设计的策略构建的。请参考论文获取更多细节。

其他注释,如对话行为和角色信息,来自doc2dial和MultiDoc2dial数据集。

个人和敏感信息

[更多信息需要]

使用数据的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

[更多信息需要]

许可信息

遵循doc2dial和MultiDoc2dial的许可,Apache License Version 2.0。

引用信息

即将到来

贡献

感谢@Coldog2333添加此数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
SuperDialseg数据集是在doc2dial与MultiDoc2dial数据集基础上精心构建而成。其核心创新在于对话分割点的标注策略,通过一套严谨设计的自动化流程,从原始对话数据中提取出主题边界。具体而言,数据集保留了原始对话中的对话行为(Dialogue Act)和角色信息,并引入主题ID(topic_id)与分割标签(segmentation_label),其中标签值为1表示当前话语为某主题的结束,0则代表非边界。这种基于规则与数据驱动相结合的构建方式,确保了分割点标注的准确性与一致性。
特点
该数据集最显著的特点在于其大规模且具备高质量监督信号的对话分割标注。每个对话实例均包含丰富的结构化信息,如对话ID、话语序列、角色、对话行为、主题ID及分割标签。此外,数据集遵循原始DGDS数据集的划分标准,保证了训练、验证与测试集的一致性与可复现性。语言为纯英文,规模介于1K至10K之间,适用于对话分割任务的模型训练与评估。其多层级的字段设计为研究者提供了灵活的细粒度分析能力。
使用方法
研究者可直接通过HuggingFace加载该数据集,利用其预设的字段结构进行模型训练。典型的使用流程包括:将话语序列与分割标签作为输入输出对,构建序列标注或分类任务。由于数据集已提供清晰的主题ID与分割标签,可直接用于评估模型在对话主题边界检测上的性能。建议将对话行为与角色信息作为辅助特征,以提升分割效果。此外,数据集附带的论文与仓库提供了基准模型与排行榜,便于进行公平的对比实验与成果复现。
背景与挑战
背景概述
对话分割作为自然语言处理领域的一项基础任务,旨在将多轮对话按照主题或意图边界切分为连贯的片段。随着对话系统在客服、虚拟助手等场景中的广泛应用,准确识别对话中的主题转换已成为提升系统理解能力的关键环节。SuperDialseg数据集由东京大学的研究人员Jiangjf等人于近期创建,其核心研究问题在于如何通过大规模监督学习推动对话分割技术的发展。该数据集基于doc2dial和MultiDoc2dial构建,通过精心设计的标注策略自动生成分割标签,涵盖了超过数千条英文对话实例。其发布为对话分割领域提供了一个标准化、可复用的基准资源,显著推动了该领域从无监督向监督学习范式的转变,对对话理解、信息检索及任务型对话系统的优化具有重要影响力。
当前挑战
对话分割面临的核心挑战在于主题边界的模糊性与对话结构的复杂性。自然对话中话题转换往往缺乏显式标记,且可能存在渐进式过渡或嵌套主题,这使得模型难以准确捕捉分割点。此外,现有数据集多依赖人工标注或启发式规则,不仅成本高昂,且易引入主观偏差。SuperDialseg在构建过程中同样面临挑战:其分割标签通过自动化策略从对话行为与主题ID衍生而来,虽提升了效率,但可能无法完全覆盖真实场景中话题转换的多样性;同时,原始数据源doc2dial和MultiDoc2dial的领域局限性(如专注于文档导向对话)也可能限制数据集的泛化能力。如何平衡自动标注的规模与标注质量,以及如何拓展至多语言、多领域场景,仍是该数据集需持续突破的瓶颈。
常用场景
经典使用场景
SuperDialseg数据集专为对话分割任务设计,其经典使用场景在于对多轮对话中连续话题边界的精准识别。该数据集通过标注每个话轮是否为当前主题的结束点,为训练和评估基于监督学习的对话分割模型提供了标准化的基准。研究者可借助该数据集,探索如何利用话语级特征(如对话行为、角色信息)与上下文语义,自动将杂糅多个主题的长对话拆解为逻辑自洽的语义段落,从而提升对话系统的结构化理解能力。
衍生相关工作
基于SuperDialseg,衍生了一系列经典研究工作。例如,研究者提出了基于Transformer的对话分割模型,利用编码器-解码器架构融合话语级特征与全局上下文;另有一些工作探索了对比学习在对话分割中的应用,通过正负样本对训练增强模型对主题边界感知。此外,该数据集还被用于评估跨领域迁移学习方法的效能,验证了预训练语言模型(如BERT)在对话结构分析中的泛化能力,为构建更鲁棒的对话理解系统奠定了实验基础。
数据集最近研究
最新研究方向
在对话系统与自然语言处理领域,对话分割任务正成为提升多轮交互理解能力的关键环节。SuperDialseg数据集应运而生,它基于doc2dial与MultiDoc2dial构建,通过精心设计的标注策略,为对话中主题边界的识别提供了大规模监督信号。该数据集聚焦于对话分割的前沿研究,尤其与任务型对话系统中的话题切换检测、对话状态追踪等热点方向紧密相连。通过引入对话行为与角色信息,SuperDialseg不仅推动了多主题对话理解模型的训练与评测,还为构建更智能的虚拟助手奠定了数据基础,其影响力正辐射至客户服务、智能客服等实际应用场景,助力实现更流畅、更自然的对话体验。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务