mario-rc/dstc11.t4

Name: mario-rc/dstc11.t4
Creator: mario-rc
Published: 2023-09-15 18:32:14
License: 暂无描述

Hugging Face2023-09-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mario-rc/dstc11.t4

下载链接

链接失效反馈

官方服务：

资源简介：

DSTC11: 对话系统技术挑战赛第11赛道第4部分，专注于开发鲁棒和多语言的自动评估指标，用于开放领域对话系统。该数据集支持多种语言，包括英语、中文和西班牙语，并涵盖多个任务，旨在评估对话系统的多语言适应性和鲁棒性。数据集结构包括训练、开发和测试数据，以及详细的元数据和任务说明，同时提供情感分析、毒性检测和机器翻译质量评估等辅助信息，以支持模型的开发和评估。

提供机构：

mario-rc

原始信息汇总

DSTC11: Dialogue System Technology Challenge 11 数据集概述

数据集描述

DSTC11 数据集是针对对话系统技术挑战赛第11届的第4赛道，专注于开发鲁棒且多语言的自动评估指标，用于开放域对话系统。该数据集包含两个任务：

多语言自动评估指标：开发能够在多种语言上表现一致的自动开放域对话评估指标。
鲁棒自动评估指标：开发能够在英语的回译或改写句子上表现鲁棒的自动开放域对话评估指标。

数据集结构

数据集的目录结构如下：

. └── DSTC_11_Track_4 # DSTC11 数据 ├── task1 # 多语言数据评估指标 │ ├── train # 训练数据 (CHANEL/CDIAL 数据集) │ │ ├── en_es # 英语/西班牙语数据 │ │ ├── en_zh # 英语/中文数据 │ │ └── zh_en # 中文/英语数据 │ ├── dev # 开发数据 (DSTC10.T5/CDIAL 数据集) │ │ ├── en_es # 英语/西班牙语数据 │ │ └── en_zh # 英语/中文数据 │ │ └── zh_en # 中文/英语数据 │ ├── test # 测试数据 (DSTC10.T5/CDIAL 数据集) │ │ ├── en_es # 英语/西班牙语数据 │ │ └── en_zh # 英语/中文数据 │ │ └── zh_en # 中文/英语数据 │ └── README.md # 任务1数据信息 ├── task2 # 鲁棒评估指标数据 │ ├── train # 训练数据 (CHANEL 数据集) │ ├── dev # 开发数据 (DSTC10.T5 数据集) │ ├── test # 测试数据 (DSTC10.T5 数据集) │ └── README.md # 任务2数据信息 ├── metadata # 辅助数据集标注 └── README.md # 通用数据信息

数据集内容

数据集包括以下几个部分：

提供的训练数据

CHANEL 数据集：包含18个知名的人-人对话数据集，总计393k对话（约3M轮次）。
DSTC10 数据集：作为开发集，包含超过35k轮次的人工标注，自动翻译为西班牙语和中文，并回译为英语。
CDIAL 数据集：由清华大学对话AI团队提供，包含开放域人-人对话，原始为中文，包含3,470对话（约130k轮次）。

数据集统计

数据集的统计信息如下：

数据集名称	轮次数量	对话数量	平均轮次/对话	平均词数/轮次	标注粒度	原始语言	翻译
训练
DBDC	8,509	415	20.5	7.31	轮次	英语	中文/西班牙语
CMU_DoG	95,305	4,221	22.58	17.93	轮次	英语	中文/西班牙语
Cornell Movie-Dialogs	304,713	83,097	3.67	13.72	轮次	英语	中文/西班牙语
DailyDialog	102,960	13,116	7.85	13.96	轮次	英语	中文/西班牙语
DECODE	296,105	35,426	8.36	15.05	轮次	英语	中文/西班牙语
EmotionLines	14,503	1,000	14.50	10.53	轮次	英语	中文/西班牙语
EmpathicDialogues	107,220	24,850	4.31	15.88	轮次	英语	中文/西班牙语
Holl-E	91,452	9,071	10.08	17.74	轮次	英语	中文/西班牙语
MEENA	3,675	193	19.04	9.14	轮次	英语	中文/西班牙语
MELD	23,197	1,592	14.57	10.98	轮次	英语	中文/西班牙语
MetalWOz	432,036	37,884	11.40	8.47	轮次	英语	中文/西班牙语
Movie-DiC	512,582	65,215	7.86	13.82	轮次	英语	中文/西班牙语
PersonaChat	162,064	10,907	14.86	11.72	轮次	英语	中文/西班牙语
SentimentLIAR	12,781	12,781	1.00	20.16	轮次	英语	中文/西班牙语
Switchboard Coherence	12,059	1,000	12.06	20.55	轮次	英语	中文/西班牙语
Topical-Chat	235,281	10,784	21.82	23.23	轮次	英语	中文/西班牙语
Wizard of Wikipedia	201,999	22,311	9.05	18.83	轮次	英语	中文/西班牙语
Wochat	19,881	607	32.75	6.75	轮次	英语	中文/西班牙语
开发
ConvAI2-GRADE	1,800	600	3.0	12.07	轮次	英语	中文/西班牙语
DailyDialog-GRADE	900	300	3.0	12.60	轮次	英语	中文/西班牙语
DailyDialog-GUPTA	2,460	500	4.92	12.37	轮次	英语	中文/西班牙语
DailyDialog-ZHAO	4,248	900	4.72	12.41	轮次	英语	中文/西班牙语
DSTC7	34,650	9,990	3.47	15.39	轮次	英语	中文/西班牙语
Empathetic-GRADE	900	300	3.0	16.65	轮次	英语	中文/西班牙语
FED-Dial	1,715	125	13.72	11.1	对话	英语	中文/西班牙语
FED-Turn	3,888	375	10.37	10.78	轮次	英语	中文/西班牙语
HUMOD	37,468	9,499	3.94	7.97	轮次	英语	中文/西班牙语
Persona-SEE	39,792	3,316	12.0	9.0	对话	英语	中文/西班牙语
PersonaChat-USR	2,790	300	9.3	12.08	轮次	英语	中文/西班牙语
PersonaChat-ZHAO	4,614	900	5.13	12.06	轮次	英语	中文/西班牙语
TOPICAL-USR	4,032	360	11.2	23.16	轮次	英语	中文/西班牙语
ECM-Eval	3,004	1,502	2.0	13.13	轮次	中文	英语
KdConv-Eval	3,499	354	9.88	21.11	轮次	中文	英语
LCCC-Eval	3,009	589	5.11	11.72	轮次	中文	英语
测试
BlenderBot3	679	21	32.33	16.96	轮次/对话	英语	中文/西班牙语
ChatGPT	462	21	22	91.07	轮次/对话	英语	中文/西班牙语
GPT-3.5	560	17	32.94	23.73	轮次/对话	英语	中文/西班牙语
HCChinese	2,017	187	10.79	8.08	轮次/对话	中文	英语
ChatEval	400	200	2	8.13	轮次	英语	中文/西班牙语
DSTC10	112	28	4	14	轮次	英语	中文/西班牙语
JSALT	46	13	3.54	17.26	轮次	英语	中文/西班牙语

数据集信息

数据集的具体信息如下：

CHANEL 数据集

源语言为英语。

数据集	西班牙语翻译	中文翻译	英语回译	改写	情感分析	内容审核	标注粒度
DBDC	✔		✔	✔	✔	✔	轮次级
CMU_DoG	✔		✔	✔	✔	✔	轮次级
Cornell Movie-Dialogs	✔		✔	✔	✔	✔	轮次级
DailyDialog	✔	✔	✔	✔	✔	✔	轮次级
DECODE	✔		✔	✔	✔	✔	轮次级
EmotionLines	✔		✔	✔	✔	✔	轮次级
EmpathicDialogues	✔	✔	✔	✔	✔	✔	轮次级
Holl-E	✔		✔	✔	✔	✔	轮次级
MEENA	✔		✔	✔	✔	✔	轮次级
MELD	✔		✔	✔	✔	✔	轮次级
MetalWOz	✔		✔	✔	✔	✔	轮次级
Movie-DiC	✔		✔	✔	✔	✔	轮次级
PersonaChat	✔	✔	✔	✔	✔	✔	轮次级
SentimentLIAR	✔		✔	✔	✔	✔	轮次级
Switchboard Coherence	✔		✔	✔	✔	✔	轮次级
Topical-Chat	✔	✔	✔	✔	✔	✔	轮次级
Wizard of Wikipedia	✔	✔	✔	✔	✔	✔	轮次级
WOCHAT	✔		✔	✔	✔	✔	轮次级

DSTC10 数据集

源语言为英语。

数据集	西班牙语翻译	中文翻译	英语回译	改写	情感分析	内容审核	人工标注	标注粒度
CONVAI2-GRADE (CG)	✔	✔	✔	✔	✔	✔	✔	轮次级
DAILYDIALOG-GRADE (DH)	✔	✔	✔	✔	✔	✔	✔	轮次级
DAILYDIALOG-GUPTA (DG)	✔	✔	✔	✔	✔	✔	✔	轮次级
DAILYDIALOG-ZHAO (DZ)	✔	✔	✔	✔	✔	✔	✔	轮次级
DSTC7 (D7)	✔	✔	✔	✔	✔	✔	✔	轮次级
EMPATHETIC-GRADE (EG)	✔	✔	✔	✔	✔	✔	✔	轮次级
FED-DIAL (FD)	✔	✔	✔	✔	✔	✔	✔	对话级
FED-TURN (FT)	✔	✔	✔	✔	✔	✔	✔	轮次级
HUMOD (HU)	✔	✔	✔	✔	✔	✔	✔	轮次级
PERSONA-SEE (PS)	✔	✔	✔	✔	✔	✔	✔	对话级
PERSONA-USR (PU)	✔	✔	✔	✔	✔	✔	✔	轮次级
PERSONA-ZHAO (PZ)	✔	✔	✔	✔	✔	✔	✔	轮次级
TOPICAL-USR (TU)	✔	✔	✔	✔	✔	✔	✔	轮次级

CDIAL 数据集

源语言为中文。

数据集	英语翻译	人工标注
ECM	✔	✔
KDCONV	✔	✔
LCCC	✔	✔

数据格式

所有数据遵循[数据

搜集汇总

数据集介绍

构建方式

在对话系统技术挑战赛的背景下，DSTC11 Track 4数据集通过整合多源异构数据构建而成。其训练集源自CHANEL@JSALT2020工作坊，对18个知名人-人对话数据集进行自动双向翻译，涵盖英语、西班牙语和中文，总计约39.3万对话与300万轮次。开发集与测试集则融合了DSTC10 Track 5的标注数据及清华COAI小组的CDial中文对话数据，并辅以自动生成的元数据，如机器翻译质量评估、情感分析和毒性检测，以支持数据筛选与模型训练。

使用方法

针对开放域对话系统的自动评估，该数据集支持两项核心任务：多语言度量评估与鲁棒性度量评估。研究人员可利用训练集开发或优化评估指标，如改进MDD-Eval或Deep AM-FM基线模型，并通过开发集验证其与人类标注的相关性。测试阶段，使用独立的多语言标注语料评估度量在未见数据上的表现，最终以斯皮尔曼相关系数作为排名依据。数据遵循统一格式规范，便于在ChatEval平台进行模型比较与进度追踪。

背景与挑战

背景概述

DSTC11 Track 4数据集由国际对话系统技术挑战赛于2023年推出，核心研究团队包括马德里理工大学、新加坡国立大学及腾讯人工智能实验室等机构的学者。该数据集聚焦于开放域对话系统的自动评估，旨在解决多语言环境下评估指标鲁棒性不足的难题。通过整合CHANEL、DSTC10及CDIAL等大规模对话语料，涵盖英语、中文和西班牙语，数据集为开发与人类判断高度相关且可解释的评估模型提供了坚实基础，显著推动了对话系统评估从单语言向跨语言泛化的范式转变。

当前挑战

该数据集致力于攻克开放域对话系统自动评估中的两大核心挑战：一是设计能够在多语言间保持性能一致性的评估指标，要求模型克服语言差异带来的语义漂移与评估偏差；二是构建对回译与改写句子具有鲁棒性的评估体系，需应对机器翻译质量不均及语义失真问题。在数据构建过程中，挑战体现在大规模多语言对话数据的对齐与标注上，包括确保翻译质量的一致性、处理低资源语言的语料稀缺性，以及整合异构数据源时保持评估维度的标准化与可比性。

常用场景

经典使用场景

在开放域对话系统评估领域，DSTC11 Track 4数据集为构建多语言与鲁棒性自动评估指标提供了核心基准。该数据集整合了CHANEL、DSTC10和CDIAL三大来源，涵盖英语、中文和西班牙语的大规模人-人及人-机对话语料，并附有精细的人工标注。其经典应用场景在于为研究人员提供标准化测试平台，用以训练和验证评估模型在跨语言一致性、对回译与改写句子的稳健性等方面的性能，从而系统化推进对话质量自动评测技术的发展。

解决学术问题

该数据集有效应对了对话系统评估中两大关键学术挑战：一是多语言环境下评估指标的性能泛化问题，通过提供平行翻译语料与人工评分，促进了跨语言一致性度量方法的研究；二是评估模型对语义等效但表述多样的回复的鲁棒性不足问题，借助回译与改写的对话数据，推动了对语义不变性评估的深入探索。这些工作显著提升了自动评估的可靠性与可解释性，为构建更公平、全面的对话系统评测体系奠定了数据基础。

实际应用

在实际应用层面，该数据集支撑了工业界与学术界对开放域对话系统进行高效、可扩展的质量监控。例如，科技公司可基于其训练的多语言评估模型，快速检测智能助手在英文、中文及西班牙语服务中的回复质量，自动识别语法错误、内容相关性或连贯性问题。同时，该数据集提供的维度化评估（如适当性、内容丰富性）能够为对话系统的迭代优化提供细粒度反馈，显著降低人工评估成本，并助力全球化对话产品的本地化适配与质量保障。

数据集最近研究