HCRC Map Task Corpus
收藏github2022-06-04 更新2024-05-31 收录
下载链接:
https://github.com/NathanDuran/Maptask-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
用于对话行为分类的HCRC Map任务语料库,数据已随机分割,训练集占80%(102个对话),测试和验证集各占10%(13个对话)。
The HCRC Map Task Corpus for dialogue act classification has been randomly partitioned, with the training set comprising 80% (102 dialogues), and the test and validation sets each comprising 10% (13 dialogues).
创建时间:
2019-09-04
原始信息汇总
数据集概述
数据集名称
- HCRC Map Task Corpus
数据集用途
- 用于对话行为(DA)分类。
数据集结构
- 训练集:包含80%的对话(102个)。
- 测试集:包含10%的对话(13个)。
- 验证集:包含10%的对话(13个)。
数据处理脚本
- maptask_to_text.py:将所有对话处理成纯文本格式。
- utilities.py:包含加载/保存数据的辅助函数。
- process_transcript.py:包含处理每个对话的函数。
- maptask_metadata.py:从处理后的对话中生成元数据,并保存为pickle文件。
数据格式
- 默认格式:Speaker | Utterance Text | Dialogue Act Tag。
- 可设置为仅包含一个语句,不包含说话者和DA标签。
- 移除了标记为Uncodable的语句和不完整的单词。
对话行为统计
| 对话行为 | 标签 | 总数 | 百分比 | 训练集计数 | 训练集百分比 | 测试集计数 | 测试集百分比 | 验证集计数 | 验证集百分比 |
|---|---|---|---|---|---|---|---|---|---|
| Acknowledge | acknowledge | 5605 | 20.94 | 4433 | 21.04 | 527 | 20.29 | 645 | 20.82 |
| Instruct | instruct | 4267 | 15.94 | 3390 | 16.09 | 417 | 16.06 | 460 | 14.85 |
| Yes-Reply | reply_y | 3230 | 12.07 | 2530 | 12.01 | 304 | 11.71 | 396 | 12.78 |
| Explain | explain | 2160 | 8.07 | 1669 | 7.92 | 219 | 8.43 | 272 | 8.78 |
| Check | check | 2137 | 7.99 | 1683 | 7.99 | 232 | 8.93 | 222 | 7.17 |
| Ready | ready | 2062 | 7.70 | 1559 | 7.40 | 222 | 8.55 | 281 | 9.07 |
| Check Attention | align | 1778 | 6.64 | 1444 | 6.85 | 130 | 5.01 | 204 | 6.58 |
| Yes-No-Question | query_yn | 1758 | 6.57 | 1350 | 6.41 | 191 | 7.35 | 217 | 7.00 |
| Clarify | clarify | 1193 | 4.46 | 970 | 4.60 | 116 | 4.47 | 107 | 3.45 |
| Non Yes-No-Reply | reply_w | 916 | 3.42 | 729 | 3.46 | 83 | 3.20 | 104 | 3.36 |
| No-Reply | reply_n | 884 | 3.30 | 692 | 3.28 | 101 | 3.89 | 91 | 2.94 |
| Non Yes-No-Question | query_w | 772 | 2.88 | 618 | 2.93 | 55 | 2.12 | 99 | 3.20 |
元数据
-
总体:
- 总语句数:26743
- 最大语句长度:115
- 平均语句长度:6.15
- 对话总数:128
- 最大对话长度:682
- 平均对话长度:208.93
- 词汇量:1797
- 标签数:12
- 说话者数:2
-
训练集:
- 对话数:102
- 最大对话长度:682
- 平均对话长度:206.39
- 语句数:21052
-
测试集:
- 对话数:13
- 最大对话长度:314
- 平均对话长度:212.46
- 语句数:2762
-
验证集:
- 对话数:13
- 最大对话长度:439
- 平均对话长度:225.31
- 语句数:2929
元数据字典键值
-
num_utterances
-
max_utterance_len
-
mean_utterance_len
-
num_dialogues
-
max_dialogues_len
-
mean_dialogues_len
-
word_freq
-
vocabulary
-
vocabulary_size
-
label_freq
-
labels
-
num_labels
-
speakers
-
num_speakers
-
每个数据集特定键值:
- *_num_utterances
- *_num_dialogues
- *_max_dialogue_len
- *_mean_dialogue_len
搜集汇总
数据集介绍

构建方式
HCRC Map Task Corpus数据集的构建基于对话行为分类任务,数据来源于HCRC Map Task项目。数据集通过随机划分的方式,将128个对话分为训练集、测试集和验证集,分别占比80%、10%和10%。每个对话经过脚本处理,转化为包含说话者、话语文本和对话行为标签的格式,并保存为纯文本文件。此外,脚本还生成了包含词汇、标签及其频率的元数据文件,便于后续分析。
特点
该数据集的特点在于其丰富的对话行为标签体系,涵盖了12种不同的对话行为,如确认、指示、解释等。数据集包含26743条话语,平均话语长度为6.15个单词,最长话语包含115个单词。对话的平均长度为208.93条话语,最长对话包含682条话语。词汇表大小为1797个单词,且所有对话仅涉及两名说话者。数据集还提供了详细的元数据,包括话语长度、对话长度、词汇频率等统计信息,为对话行为分析提供了坚实的基础。
使用方法
使用HCRC Map Task Corpus时,可通过提供的脚本将对话数据加载为文本格式,并根据需求选择是否保留说话者和对话行为标签。数据集适用于对话行为分类任务,研究者可利用训练集进行模型训练,测试集和验证集用于评估模型性能。元数据文件中的词汇频率和标签分布信息可用于数据预处理和特征工程。此外,数据集还可用于对话生成、对话管理等相关研究,为自然语言处理领域提供了宝贵的资源。
背景与挑战
背景概述
HCRC Map Task Corpus 数据集由爱丁堡大学信息学院的研究团队于20世纪90年代创建,旨在支持对话行为(Dialogue Act, DA)分类的研究。该数据集包含128个对话,共计26743条话语,涵盖了12种不同的对话行为标签。数据集的主要研究问题集中在如何通过自然语言处理技术识别和理解对话中的行为模式,从而推动对话系统的智能化发展。HCRC Map Task Corpus 在自然语言处理领域具有重要影响力,尤其是在对话行为分类和对话系统开发方面,为后续研究提供了丰富的数据支持。
当前挑战
HCRC Map Task Corpus 数据集在解决对话行为分类问题时面临多重挑战。首先,对话行为的多样性和复杂性使得分类任务极具挑战性,尤其是如何准确区分语义相近的行为标签。其次,数据集中存在大量非标准化的语言表达,如不完整词汇和口语化表达,增加了数据预处理的难度。在构建过程中,研究人员还需应对数据标注的一致性问题,确保不同标注者对同一对话行为的理解一致。此外,数据集的规模相对较小,可能限制了模型在更广泛场景下的泛化能力。这些挑战共同构成了该数据集在对话行为分类研究中的核心难点。
常用场景
经典使用场景
HCRC Map Task Corpus 数据集在对话行为分类研究中具有重要地位,广泛应用于自然语言处理领域。通过该数据集,研究者能够深入分析对话中的各种行为标签,如确认、指示、解释等,从而构建和优化对话行为分类模型。数据集中的对话行为标签为对话系统的开发提供了丰富的训练和测试数据,帮助提升对话系统的理解和响应能力。
实际应用
在实际应用中,HCRC Map Task Corpus 数据集被广泛用于开发智能对话系统,尤其是在客户服务、虚拟助手和自动化对话平台中。通过该数据集训练的模型能够更准确地理解用户的意图,并提供相应的反馈,从而提升用户体验。此外,该数据集还被用于教育领域,帮助开发智能教学助手,提升教学互动效果。
衍生相关工作
HCRC Map Task Corpus 数据集催生了许多经典的研究工作,尤其是在对话行为分类和对话系统开发领域。基于该数据集的研究成果包括对话行为分类算法的优化、对话系统的性能提升以及对话行为模式的分析。这些工作不仅丰富了对话行为分类的理论体系,还为实际应用中的对话系统开发提供了重要的技术支撑。
以上内容由遇见数据集搜集并总结生成



