mario-rc/dstc11.t4
收藏DSTC11: Dialogue System Technology Challenge 11 数据集概述
数据集描述
DSTC11 数据集是针对对话系统技术挑战赛第11届的第4赛道,专注于开发鲁棒且多语言的自动评估指标,用于开放域对话系统。该数据集包含两个任务:
- 多语言自动评估指标:开发能够在多种语言上表现一致的自动开放域对话评估指标。
- 鲁棒自动评估指标:开发能够在英语的回译或改写句子上表现鲁棒的自动开放域对话评估指标。
数据集结构
数据集的目录结构如下:
. └── DSTC_11_Track_4 # DSTC11 数据 ├── task1 # 多语言数据评估指标 │ ├── train # 训练数据 (CHANEL/CDIAL 数据集) │ │ ├── en_es # 英语/西班牙语数据 │ │ ├── en_zh # 英语/中文数据 │ │ └── zh_en # 中文/英语数据 │ ├── dev # 开发数据 (DSTC10.T5/CDIAL 数据集) │ │ ├── en_es # 英语/西班牙语数据 │ │ └── en_zh # 英语/中文数据 │ │ └── zh_en # 中文/英语数据 │ ├── test # 测试数据 (DSTC10.T5/CDIAL 数据集) │ │ ├── en_es # 英语/西班牙语数据 │ │ └── en_zh # 英语/中文数据 │ │ └── zh_en # 中文/英语数据 │ └── README.md # 任务1数据信息 ├── task2 # 鲁棒评估指标数据 │ ├── train # 训练数据 (CHANEL 数据集) │ ├── dev # 开发数据 (DSTC10.T5 数据集) │ ├── test # 测试数据 (DSTC10.T5 数据集) │ └── README.md # 任务2数据信息 ├── metadata # 辅助数据集标注 └── README.md # 通用数据信息
数据集内容
数据集包括以下几个部分:
提供的训练数据
- CHANEL 数据集:包含18个知名的人-人对话数据集,总计393k对话(约3M轮次)。
- DSTC10 数据集:作为开发集,包含超过35k轮次的人工标注,自动翻译为西班牙语和中文,并回译为英语。
- CDIAL 数据集:由清华大学对话AI团队提供,包含开放域人-人对话,原始为中文,包含3,470对话(约130k轮次)。
数据集统计
数据集的统计信息如下:
| 数据集名称 | 轮次数量 | 对话数量 | 平均轮次/对话 | 平均词数/轮次 | 标注粒度 | 原始语言 | 翻译 |
|---|---|---|---|---|---|---|---|
| 训练 | |||||||
| DBDC | 8,509 | 415 | 20.5 | 7.31 | 轮次 | 英语 | 中文/西班牙语 |
| CMU_DoG | 95,305 | 4,221 | 22.58 | 17.93 | 轮次 | 英语 | 中文/西班牙语 |
| Cornell Movie-Dialogs | 304,713 | 83,097 | 3.67 | 13.72 | 轮次 | 英语 | 中文/西班牙语 |
| DailyDialog | 102,960 | 13,116 | 7.85 | 13.96 | 轮次 | 英语 | 中文/西班牙语 |
| DECODE | 296,105 | 35,426 | 8.36 | 15.05 | 轮次 | 英语 | 中文/西班牙语 |
| EmotionLines | 14,503 | 1,000 | 14.50 | 10.53 | 轮次 | 英语 | 中文/西班牙语 |
| EmpathicDialogues | 107,220 | 24,850 | 4.31 | 15.88 | 轮次 | 英语 | 中文/西班牙语 |
| Holl-E | 91,452 | 9,071 | 10.08 | 17.74 | 轮次 | 英语 | 中文/西班牙语 |
| MEENA | 3,675 | 193 | 19.04 | 9.14 | 轮次 | 英语 | 中文/西班牙语 |
| MELD | 23,197 | 1,592 | 14.57 | 10.98 | 轮次 | 英语 | 中文/西班牙语 |
| MetalWOz | 432,036 | 37,884 | 11.40 | 8.47 | 轮次 | 英语 | 中文/西班牙语 |
| Movie-DiC | 512,582 | 65,215 | 7.86 | 13.82 | 轮次 | 英语 | 中文/西班牙语 |
| PersonaChat | 162,064 | 10,907 | 14.86 | 11.72 | 轮次 | 英语 | 中文/西班牙语 |
| SentimentLIAR | 12,781 | 12,781 | 1.00 | 20.16 | 轮次 | 英语 | 中文/西班牙语 |
| Switchboard Coherence | 12,059 | 1,000 | 12.06 | 20.55 | 轮次 | 英语 | 中文/西班牙语 |
| Topical-Chat | 235,281 | 10,784 | 21.82 | 23.23 | 轮次 | 英语 | 中文/西班牙语 |
| Wizard of Wikipedia | 201,999 | 22,311 | 9.05 | 18.83 | 轮次 | 英语 | 中文/西班牙语 |
| Wochat | 19,881 | 607 | 32.75 | 6.75 | 轮次 | 英语 | 中文/西班牙语 |
| 开发 | |||||||
| ConvAI2-GRADE | 1,800 | 600 | 3.0 | 12.07 | 轮次 | 英语 | 中文/西班牙语 |
| DailyDialog-GRADE | 900 | 300 | 3.0 | 12.60 | 轮次 | 英语 | 中文/西班牙语 |
| DailyDialog-GUPTA | 2,460 | 500 | 4.92 | 12.37 | 轮次 | 英语 | 中文/西班牙语 |
| DailyDialog-ZHAO | 4,248 | 900 | 4.72 | 12.41 | 轮次 | 英语 | 中文/西班牙语 |
| DSTC7 | 34,650 | 9,990 | 3.47 | 15.39 | 轮次 | 英语 | 中文/西班牙语 |
| Empathetic-GRADE | 900 | 300 | 3.0 | 16.65 | 轮次 | 英语 | 中文/西班牙语 |
| FED-Dial | 1,715 | 125 | 13.72 | 11.1 | 对话 | 英语 | 中文/西班牙语 |
| FED-Turn | 3,888 | 375 | 10.37 | 10.78 | 轮次 | 英语 | 中文/西班牙语 |
| HUMOD | 37,468 | 9,499 | 3.94 | 7.97 | 轮次 | 英语 | 中文/西班牙语 |
| Persona-SEE | 39,792 | 3,316 | 12.0 | 9.0 | 对话 | 英语 | 中文/西班牙语 |
| PersonaChat-USR | 2,790 | 300 | 9.3 | 12.08 | 轮次 | 英语 | 中文/西班牙语 |
| PersonaChat-ZHAO | 4,614 | 900 | 5.13 | 12.06 | 轮次 | 英语 | 中文/西班牙语 |
| TOPICAL-USR | 4,032 | 360 | 11.2 | 23.16 | 轮次 | 英语 | 中文/西班牙语 |
| ECM-Eval | 3,004 | 1,502 | 2.0 | 13.13 | 轮次 | 中文 | 英语 |
| KdConv-Eval | 3,499 | 354 | 9.88 | 21.11 | 轮次 | 中文 | 英语 |
| LCCC-Eval | 3,009 | 589 | 5.11 | 11.72 | 轮次 | 中文 | 英语 |
| 测试 | |||||||
| BlenderBot3 | 679 | 21 | 32.33 | 16.96 | 轮次/对话 | 英语 | 中文/西班牙语 |
| ChatGPT | 462 | 21 | 22 | 91.07 | 轮次/对话 | 英语 | 中文/西班牙语 |
| GPT-3.5 | 560 | 17 | 32.94 | 23.73 | 轮次/对话 | 英语 | 中文/西班牙语 |
| HCChinese | 2,017 | 187 | 10.79 | 8.08 | 轮次/对话 | 中文 | 英语 |
| ChatEval | 400 | 200 | 2 | 8.13 | 轮次 | 英语 | 中文/西班牙语 |
| DSTC10 | 112 | 28 | 4 | 14 | 轮次 | 英语 | 中文/西班牙语 |
| JSALT | 46 | 13 | 3.54 | 17.26 | 轮次 | 英语 | 中文/西班牙语 |
数据集信息
数据集的具体信息如下:
CHANEL 数据集
源语言为英语。
| 数据集 | 西班牙语翻译 | 中文翻译 | 英语翻译 | 英语回译 | 改写 | 情感分析 | 内容审核 | 人工标注 | 标注粒度 |
|---|---|---|---|---|---|---|---|---|---|
| DBDC | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |||
| CMU_DoG | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |||
| Cornell Movie-Dialogs | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |||
| DailyDialog | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | ||
| DECODE | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |||
| EmotionLines | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |||
| EmpathicDialogues | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | ||
| Holl-E | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |||
| MEENA | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |||
| MELD | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |||
| MetalWOz | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |||
| Movie-DiC | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |||
| PersonaChat | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | ||
| SentimentLIAR | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |||
| Switchboard Coherence | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |||
| Topical-Chat | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | ||
| Wizard of Wikipedia | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | ||
| WOCHAT | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 |
DSTC10 数据集
源语言为英语。
| 数据集 | 西班牙语翻译 | 中文翻译 | 英语翻译 | 英语回译 | 改写 | 情感分析 | 内容审核 | 人工标注 | 标注粒度 |
|---|---|---|---|---|---|---|---|---|---|
| CONVAI2-GRADE (CG) | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |
| DAILYDIALOG-GRADE (DH) | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |
| DAILYDIALOG-GUPTA (DG) | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |
| DAILYDIALOG-ZHAO (DZ) | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |
| DSTC7 (D7) | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |
| EMPATHETIC-GRADE (EG) | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |
| FED-DIAL (FD) | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | 对话级 | |
| FED-TURN (FT) | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |
| HUMOD (HU) | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |
| PERSONA-SEE (PS) | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | 对话级 | |
| PERSONA-USR (PU) | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |
| PERSONA-ZHAO (PZ) | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 | |
| TOPICAL-USR (TU) | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | ✔ | 轮次级 |
CDIAL 数据集
源语言为中文。
| 数据集 | 西班牙语翻译 | 中文翻译 | 英语翻译 | 英语回译 | 改写 | 情感分析 | 内容审核 | 人工标注 |
|---|---|---|---|---|---|---|---|---|
| ECM | ✔ | ✔ | ||||||
| KDCONV | ✔ | ✔ | ||||||
| LCCC | ✔ | ✔ |
数据格式
所有数据遵循[数据




