five

mario-rc/dstc11.t4

收藏
Hugging Face2023-09-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mario-rc/dstc11.t4
下载链接
链接失效反馈
官方服务:
资源简介:
DSTC11: 对话系统技术挑战赛第11赛道第4部分,专注于开发鲁棒和多语言的自动评估指标,用于开放领域对话系统。该数据集支持多种语言,包括英语、中文和西班牙语,并涵盖多个任务,旨在评估对话系统的多语言适应性和鲁棒性。数据集结构包括训练、开发和测试数据,以及详细的元数据和任务说明,同时提供情感分析、毒性检测和机器翻译质量评估等辅助信息,以支持模型的开发和评估。

DSTC11: 对话系统技术挑战赛第11赛道第4部分,专注于开发鲁棒和多语言的自动评估指标,用于开放领域对话系统。该数据集支持多种语言,包括英语、中文和西班牙语,并涵盖多个任务,旨在评估对话系统的多语言适应性和鲁棒性。数据集结构包括训练、开发和测试数据,以及详细的元数据和任务说明,同时提供情感分析、毒性检测和机器翻译质量评估等辅助信息,以支持模型的开发和评估。
提供机构:
mario-rc
原始信息汇总

DSTC11: Dialogue System Technology Challenge 11 数据集概述

数据集描述

DSTC11 数据集是针对对话系统技术挑战赛第11届的第4赛道,专注于开发鲁棒且多语言的自动评估指标,用于开放域对话系统。该数据集包含两个任务:

  1. 多语言自动评估指标:开发能够在多种语言上表现一致的自动开放域对话评估指标。
  2. 鲁棒自动评估指标:开发能够在英语的回译或改写句子上表现鲁棒的自动开放域对话评估指标。

数据集结构

数据集的目录结构如下:

. └── DSTC_11_Track_4 # DSTC11 数据 ├── task1 # 多语言数据评估指标 │ ├── train # 训练数据 (CHANEL/CDIAL 数据集) │ │ ├── en_es # 英语/西班牙语数据 │ │ ├── en_zh # 英语/中文数据 │ │ └── zh_en # 中文/英语数据 │ ├── dev # 开发数据 (DSTC10.T5/CDIAL 数据集) │ │ ├── en_es # 英语/西班牙语数据 │ │ └── en_zh # 英语/中文数据 │ │ └── zh_en # 中文/英语数据 │ ├── test # 测试数据 (DSTC10.T5/CDIAL 数据集) │ │ ├── en_es # 英语/西班牙语数据 │ │ └── en_zh # 英语/中文数据 │ │ └── zh_en # 中文/英语数据 │ └── README.md # 任务1数据信息 ├── task2 # 鲁棒评估指标数据 │ ├── train # 训练数据 (CHANEL 数据集) │ ├── dev # 开发数据 (DSTC10.T5 数据集) │ ├── test # 测试数据 (DSTC10.T5 数据集) │ └── README.md # 任务2数据信息 ├── metadata # 辅助数据集标注 └── README.md # 通用数据信息

数据集内容

数据集包括以下几个部分:

提供的训练数据

  • CHANEL 数据集:包含18个知名的人-人对话数据集,总计393k对话(约3M轮次)。
  • DSTC10 数据集:作为开发集,包含超过35k轮次的人工标注,自动翻译为西班牙语和中文,并回译为英语。
  • CDIAL 数据集:由清华大学对话AI团队提供,包含开放域人-人对话,原始为中文,包含3,470对话(约130k轮次)。

数据集统计

数据集的统计信息如下:

数据集名称 轮次数量 对话数量 平均轮次/对话 平均词数/轮次 标注粒度 原始语言 翻译
训练
DBDC 8,509 415 20.5 7.31 轮次 英语 中文/西班牙语
CMU_DoG 95,305 4,221 22.58 17.93 轮次 英语 中文/西班牙语
Cornell Movie-Dialogs 304,713 83,097 3.67 13.72 轮次 英语 中文/西班牙语
DailyDialog 102,960 13,116 7.85 13.96 轮次 英语 中文/西班牙语
DECODE 296,105 35,426 8.36 15.05 轮次 英语 中文/西班牙语
EmotionLines 14,503 1,000 14.50 10.53 轮次 英语 中文/西班牙语
EmpathicDialogues 107,220 24,850 4.31 15.88 轮次 英语 中文/西班牙语
Holl-E 91,452 9,071 10.08 17.74 轮次 英语 中文/西班牙语
MEENA 3,675 193 19.04 9.14 轮次 英语 中文/西班牙语
MELD 23,197 1,592 14.57 10.98 轮次 英语 中文/西班牙语
MetalWOz 432,036 37,884 11.40 8.47 轮次 英语 中文/西班牙语
Movie-DiC 512,582 65,215 7.86 13.82 轮次 英语 中文/西班牙语
PersonaChat 162,064 10,907 14.86 11.72 轮次 英语 中文/西班牙语
SentimentLIAR 12,781 12,781 1.00 20.16 轮次 英语 中文/西班牙语
Switchboard Coherence 12,059 1,000 12.06 20.55 轮次 英语 中文/西班牙语
Topical-Chat 235,281 10,784 21.82 23.23 轮次 英语 中文/西班牙语
Wizard of Wikipedia 201,999 22,311 9.05 18.83 轮次 英语 中文/西班牙语
Wochat 19,881 607 32.75 6.75 轮次 英语 中文/西班牙语
开发
ConvAI2-GRADE 1,800 600 3.0 12.07 轮次 英语 中文/西班牙语
DailyDialog-GRADE 900 300 3.0 12.60 轮次 英语 中文/西班牙语
DailyDialog-GUPTA 2,460 500 4.92 12.37 轮次 英语 中文/西班牙语
DailyDialog-ZHAO 4,248 900 4.72 12.41 轮次 英语 中文/西班牙语
DSTC7 34,650 9,990 3.47 15.39 轮次 英语 中文/西班牙语
Empathetic-GRADE 900 300 3.0 16.65 轮次 英语 中文/西班牙语
FED-Dial 1,715 125 13.72 11.1 对话 英语 中文/西班牙语
FED-Turn 3,888 375 10.37 10.78 轮次 英语 中文/西班牙语
HUMOD 37,468 9,499 3.94 7.97 轮次 英语 中文/西班牙语
Persona-SEE 39,792 3,316 12.0 9.0 对话 英语 中文/西班牙语
PersonaChat-USR 2,790 300 9.3 12.08 轮次 英语 中文/西班牙语
PersonaChat-ZHAO 4,614 900 5.13 12.06 轮次 英语 中文/西班牙语
TOPICAL-USR 4,032 360 11.2 23.16 轮次 英语 中文/西班牙语
ECM-Eval 3,004 1,502 2.0 13.13 轮次 中文 英语
KdConv-Eval 3,499 354 9.88 21.11 轮次 中文 英语
LCCC-Eval 3,009 589 5.11 11.72 轮次 中文 英语
测试
BlenderBot3 679 21 32.33 16.96 轮次/对话 英语 中文/西班牙语
ChatGPT 462 21 22 91.07 轮次/对话 英语 中文/西班牙语
GPT-3.5 560 17 32.94 23.73 轮次/对话 英语 中文/西班牙语
HCChinese 2,017 187 10.79 8.08 轮次/对话 中文 英语
ChatEval 400 200 2 8.13 轮次 英语 中文/西班牙语
DSTC10 112 28 4 14 轮次 英语 中文/西班牙语
JSALT 46 13 3.54 17.26 轮次 英语 中文/西班牙语

数据集信息

数据集的具体信息如下:

CHANEL 数据集

源语言为英语。

数据集 西班牙语翻译 中文翻译 英语翻译 英语回译 改写 情感分析 内容审核 人工标注 标注粒度
DBDC 轮次级
CMU_DoG 轮次级
Cornell Movie-Dialogs 轮次级
DailyDialog 轮次级
DECODE 轮次级
EmotionLines 轮次级
EmpathicDialogues 轮次级
Holl-E 轮次级
MEENA 轮次级
MELD 轮次级
MetalWOz 轮次级
Movie-DiC 轮次级
PersonaChat 轮次级
SentimentLIAR 轮次级
Switchboard Coherence 轮次级
Topical-Chat 轮次级
Wizard of Wikipedia 轮次级
WOCHAT 轮次级

DSTC10 数据集

源语言为英语。

数据集 西班牙语翻译 中文翻译 英语翻译 英语回译 改写 情感分析 内容审核 人工标注 标注粒度
CONVAI2-GRADE (CG) 轮次级
DAILYDIALOG-GRADE (DH) 轮次级
DAILYDIALOG-GUPTA (DG) 轮次级
DAILYDIALOG-ZHAO (DZ) 轮次级
DSTC7 (D7) 轮次级
EMPATHETIC-GRADE (EG) 轮次级
FED-DIAL (FD) 对话级
FED-TURN (FT) 轮次级
HUMOD (HU) 轮次级
PERSONA-SEE (PS) 对话级
PERSONA-USR (PU) 轮次级
PERSONA-ZHAO (PZ) 轮次级
TOPICAL-USR (TU) 轮次级

CDIAL 数据集

源语言为中文。

数据集 西班牙语翻译 中文翻译 英语翻译 英语回译 改写 情感分析 内容审核 人工标注
ECM
KDCONV
LCCC

数据格式

所有数据遵循[数据

搜集汇总
数据集介绍
main_image_url
构建方式
在对话系统技术挑战赛的背景下,DSTC11 Track 4数据集通过整合多源异构数据构建而成。其训练集源自CHANEL@JSALT2020工作坊,对18个知名人-人对话数据集进行自动双向翻译,涵盖英语、西班牙语和中文,总计约39.3万对话与300万轮次。开发集与测试集则融合了DSTC10 Track 5的标注数据及清华COAI小组的CDial中文对话数据,并辅以自动生成的元数据,如机器翻译质量评估、情感分析和毒性检测,以支持数据筛选与模型训练。
使用方法
针对开放域对话系统的自动评估,该数据集支持两项核心任务:多语言度量评估与鲁棒性度量评估。研究人员可利用训练集开发或优化评估指标,如改进MDD-Eval或Deep AM-FM基线模型,并通过开发集验证其与人类标注的相关性。测试阶段,使用独立的多语言标注语料评估度量在未见数据上的表现,最终以斯皮尔曼相关系数作为排名依据。数据遵循统一格式规范,便于在ChatEval平台进行模型比较与进度追踪。
背景与挑战
背景概述
DSTC11 Track 4数据集由国际对话系统技术挑战赛于2023年推出,核心研究团队包括马德里理工大学、新加坡国立大学及腾讯人工智能实验室等机构的学者。该数据集聚焦于开放域对话系统的自动评估,旨在解决多语言环境下评估指标鲁棒性不足的难题。通过整合CHANEL、DSTC10及CDIAL等大规模对话语料,涵盖英语、中文和西班牙语,数据集为开发与人类判断高度相关且可解释的评估模型提供了坚实基础,显著推动了对话系统评估从单语言向跨语言泛化的范式转变。
当前挑战
该数据集致力于攻克开放域对话系统自动评估中的两大核心挑战:一是设计能够在多语言间保持性能一致性的评估指标,要求模型克服语言差异带来的语义漂移与评估偏差;二是构建对回译与改写句子具有鲁棒性的评估体系,需应对机器翻译质量不均及语义失真问题。在数据构建过程中,挑战体现在大规模多语言对话数据的对齐与标注上,包括确保翻译质量的一致性、处理低资源语言的语料稀缺性,以及整合异构数据源时保持评估维度的标准化与可比性。
常用场景
经典使用场景
在开放域对话系统评估领域,DSTC11 Track 4数据集为构建多语言与鲁棒性自动评估指标提供了核心基准。该数据集整合了CHANEL、DSTC10和CDIAL三大来源,涵盖英语、中文和西班牙语的大规模人-人及人-机对话语料,并附有精细的人工标注。其经典应用场景在于为研究人员提供标准化测试平台,用以训练和验证评估模型在跨语言一致性、对回译与改写句子的稳健性等方面的性能,从而系统化推进对话质量自动评测技术的发展。
解决学术问题
该数据集有效应对了对话系统评估中两大关键学术挑战:一是多语言环境下评估指标的性能泛化问题,通过提供平行翻译语料与人工评分,促进了跨语言一致性度量方法的研究;二是评估模型对语义等效但表述多样的回复的鲁棒性不足问题,借助回译与改写的对话数据,推动了对语义不变性评估的深入探索。这些工作显著提升了自动评估的可靠性与可解释性,为构建更公平、全面的对话系统评测体系奠定了数据基础。
实际应用
在实际应用层面,该数据集支撑了工业界与学术界对开放域对话系统进行高效、可扩展的质量监控。例如,科技公司可基于其训练的多语言评估模型,快速检测智能助手在英文、中文及西班牙语服务中的回复质量,自动识别语法错误、内容相关性或连贯性问题。同时,该数据集提供的维度化评估(如适当性、内容丰富性)能够为对话系统的迭代优化提供细粒度反馈,显著降低人工评估成本,并助力全球化对话产品的本地化适配与质量保障。
数据集最近研究
最新研究方向
在开放域对话系统评估领域,DSTC11 Track 4数据集聚焦于构建鲁棒且多语言的自动评估指标,成为当前研究的前沿热点。该数据集整合了跨语言对话语料,涵盖英语、中文和西班牙语,并引入回译与改写技术以增强评估模型的泛化能力。研究重点在于开发能够与人类判断高度相关、且具备可解释性的评估指标,以应对多语言环境下对话质量的多维度衡量,如适当性、内容丰富性和连贯性等。随着大语言模型的广泛应用,该数据集为评估模型在跨语言对话生成中的表现提供了关键基准,推动了对话系统评估向更公平、更全面的方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作