LUNA Corpus Discourse Data Set
收藏github2023-01-27 更新2024-05-31 收录
下载链接:
https://github.com/esrel/LUNA.Discourse
下载链接
链接失效反馈官方服务:
资源简介:
LUNA Corpus Discourse数据集包含来自意大利LUNA人机交互语料库的60个对话,这些对话来自硬件/软件帮助台领域,并遵循Penn Discourse Treebank (PDTB)指南进行标注。数据集总共包含1,606个话语关系,其中1,052个是显式话语关系。对话被分为训练、开发和测试集,分别为42、6和12个。
The LUNA Corpus Discourse dataset comprises 60 dialogues sourced from the Italian LUNA human-computer interaction corpus, specifically from the hardware/software helpdesk domain. These dialogues are annotated following the guidelines of the Penn Discourse Treebank (PDTB). The dataset contains a total of 1,606 discourse relations, with 1,052 being explicit discourse relations. The dialogues are divided into training, development, and test sets, consisting of 42, 6, and 12 dialogues respectively.
创建时间:
2023-01-17
原始信息汇总
数据集概述
名称: LUNA Corpus Discourse Data Set
领域: 硬件/软件帮助台
语言: 意大利语
对话数量: 60
注释遵循: Penn Discourse Treebank (PDTB) 指南
包含的论述关系数量: 1,606
明确论述关系数量: 1,052
数据集结构
对话分割:
- 训练集: 42 对话
- 开发集: 6 对话
- 测试集: 12 对话
数据格式:
- 每个对话以JSON文件存储,包含以下字段:
DOC_ID: 文件名的数字部分tokens: 扁平化的词列表blocks: 文本文件中块的词起始和结束索引列表(制表符分隔)groups: 文本文件中组的词起始和结束索引列表(换行符分隔)relations: 论述关系列表
论述关系类型
类型分布:
| 类型 | 总数 | 训练 | 开发 | 测试 |
|---|---|---|---|---|
| Explicit | 1,052 | 659 | 135 | 258 |
| Implicit | 490 | 294 | 74 | 122 |
| AltLex | 11 | 8 | 2 | 1 |
| EntRel | 56 | 33 | 7 | 16 |
论述关系感官
感官分布:
| 类型 | 总数 | 0 | 1s | 2s | 2c |
|---|---|---|---|---|---|
| Explicit | 1,052 | 4 | 1,045 | 3 | NA |
| Implicit | 490 | 3 | 481 | 3 | 3 |
| AltLex | 11 | 1 | 10 | NA | NA |
| EntRel | 56 | NA | NA | NA | NA |
论述关系感官选择
- 所有论述关系简化为具有精确的1个感官(或0,如果缺失)。
- 如果存在多个感官,选择第一个。
- 对于具有两个连接词的隐含关系,选择第一个连接词的第一个感官。
论述关系感官级别
级别1感官:
- PDTB有4个级别1感官:比较、偶然性、扩展和时间性。
- LUNA添加了3个仅有一个级别的感官:论述标记、中断、重复。
级别2和级别3+感官:
- 大多数关系具有级别2感官,但有些仅具有级别1感官。
- 级别3感官进一步细分类别,如比较.让步.认识论让步。
数据匿名化
- 数据在词级别进行匿名化,使用特定替换规则。
参考文献
- 如果使用此数据集进行出版,请引用Tonelli等人的论文。
搜集汇总
数据集介绍

构建方式
LUNA Corpus Discourse Data Set 的构建基于意大利语LUNA人机对话语料库,涵盖了硬件/软件帮助台领域的60个对话。这些对话遵循Penn Discourse Treebank (PDTB) 的标注指南,共标注了1,606个话语关系,其中1,052个为显式话语关系。数据集被划分为训练集(42个对话)、开发集(6个对话)和测试集(12个对话),每个对话以JSON格式存储,包含对话ID、词汇列表、文本块和组块的索引以及话语关系列表。
特点
该数据集的特点在于其丰富的标注层次和多样的话语关系类型。数据集不仅包含显式和隐式话语关系,还涵盖了AltLex和EntRel等特殊类型。每个话语关系都标注了连接词、论据及补充材料,且支持多层次的意义分类,如Comparison、Contingency、Expansion和Temporal等。此外,数据集还进行了匿名化处理,保护了个人隐私和敏感信息。
使用方法
使用该数据集时,首先需加载JSON格式的对话文件,解析其中的词汇、块、组块和话语关系信息。通过分析`relations`字段,可以提取出不同类型的话语关系及其意义层次。开发者可以利用训练集进行模型训练,开发集进行调优,测试集进行最终评估。数据集的多层次标注结构特别适合用于自然语言处理任务,如话语关系识别、对话系统开发等。
背景与挑战
背景概述
LUNA Corpus Discourse Data Set 是一个专注于意大利语对话的语料库,主要应用于硬件/软件帮助台领域。该数据集由60个对话组成,遵循Penn Discourse Treebank (PDTB) 的标注规范,共包含1,606个话语关系,其中1,052个为显式话语关系。该数据集由Sara Tonelli、Giuseppe Riccardi等研究人员于2010年创建,旨在为自然语言处理领域中的话语关系分析提供高质量的数据支持。通过对话语关系的细致标注,该数据集为研究者提供了丰富的语料资源,推动了对话语理解和生成模型的发展。
当前挑战
LUNA Corpus Discourse Data Set 在构建和应用过程中面临多重挑战。首先,话语关系的标注需要高度精确,尤其是在处理显式和隐式关系时,标注者需具备深厚的语言学知识。其次,数据集的构建过程中,对话的匿名化处理增加了复杂性,尤其是在保护隐私的同时确保数据的可用性。此外,话语关系的多层次分类(如Comparison、Contingency、Expansion等)要求标注者具备对复杂语义结构的深刻理解,这进一步增加了标注的难度。最后,数据集中存在少量无意义或错误标注的关系,这对模型的训练和评估提出了额外的挑战。
常用场景
经典使用场景
LUNA Corpus Discourse Data Set 主要用于自然语言处理领域中的话语关系分析研究。该数据集包含了60个意大利语对话,涵盖了硬件/软件帮助台领域的对话内容,并按照Penn Discourse Treebank (PDTB) 的标注标准进行了话语关系标注。研究者可以通过该数据集深入探讨话语关系的分类、识别及其在对话中的分布规律,尤其是在多轮对话中的显式和隐式话语关系的表现。
实际应用
在实际应用中,LUNA Corpus Discourse Data Set 可用于开发智能客服系统和对话管理系统。通过分析帮助台领域中的对话数据,系统能够更准确地识别用户意图和对话中的关键信息,从而提供更高效的服务。此外,该数据集还可用于教育领域,帮助学生和研究者理解话语关系的复杂性,并为语言教学提供实际案例。
衍生相关工作
基于LUNA Corpus Discourse Data Set,研究者们开展了多项经典工作。例如,Tonelli等人(2010)提出了对话中话语关系的标注框架,为后续研究奠定了基础。Riccardi等人(2016)则进一步探讨了话语连接词在口语对话中的检测方法,推动了话语关系自动识别技术的发展。这些工作不仅扩展了话语关系研究的深度,还为自然语言处理领域的其他任务提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



