LUNA Corpus Discourse Data Set

github2023-01-27 更新2024-05-31 收录

下载链接：

https://github.com/esrel/LUNA.Discourse

下载链接

链接失效反馈

官方服务：

资源简介：

LUNA Corpus Discourse数据集包含来自意大利LUNA人机交互语料库的60个对话，这些对话来自硬件/软件帮助台领域，并遵循Penn Discourse Treebank (PDTB)指南进行标注。数据集总共包含1,606个话语关系，其中1,052个是显式话语关系。对话被分为训练、开发和测试集，分别为42、6和12个。

The LUNA Corpus Discourse dataset comprises 60 dialogues sourced from the Italian LUNA human-computer interaction corpus, specifically from the hardware/software helpdesk domain. These dialogues are annotated following the guidelines of the Penn Discourse Treebank (PDTB). The dataset contains a total of 1,606 discourse relations, with 1,052 being explicit discourse relations. The dialogues are divided into training, development, and test sets, consisting of 42, 6, and 12 dialogues respectively.

创建时间：

2023-01-17

原始信息汇总

数据集概述

名称: LUNA Corpus Discourse Data Set

领域: 硬件/软件帮助台

语言: 意大利语

对话数量: 60

注释遵循: Penn Discourse Treebank (PDTB) 指南

包含的论述关系数量: 1,606

明确论述关系数量: 1,052

数据集结构

对话分割:

训练集: 42 对话
开发集: 6 对话
测试集: 12 对话

数据格式:

每个对话以JSON文件存储，包含以下字段：
- DOC_ID: 文件名的数字部分
- tokens: 扁平化的词列表
- blocks: 文本文件中块的词起始和结束索引列表（制表符分隔）
- groups: 文本文件中组的词起始和结束索引列表（换行符分隔）
- relations: 论述关系列表

论述关系类型

类型分布:

类型	总数	训练	开发	测试
Explicit	1,052	659	135	258
Implicit	490	294	74	122
AltLex	11	8	2	1
EntRel	56	33	7	16

论述关系感官

感官分布:

类型	总数	0	1s	2s	2c
Explicit	1,052	4	1,045	3	NA
Implicit	490	3	481	3	3
AltLex	11	1	10	NA	NA
EntRel	56	NA	NA	NA	NA

论述关系感官选择

所有论述关系简化为具有精确的1个感官（或0，如果缺失）。
如果存在多个感官，选择第一个。
对于具有两个连接词的隐含关系，选择第一个连接词的第一个感官。

论述关系感官级别

级别1感官:

PDTB有4个级别1感官：比较、偶然性、扩展和时间性。
LUNA添加了3个仅有一个级别的感官：论述标记、中断、重复。

级别2和级别3+感官:

大多数关系具有级别2感官，但有些仅具有级别1感官。
级别3感官进一步细分类别，如比较.让步.认识论让步。

数据匿名化

数据在词级别进行匿名化，使用特定替换规则。

参考文献

如果使用此数据集进行出版，请引用Tonelli等人的论文。

搜集汇总

数据集介绍

构建方式

LUNA Corpus Discourse Data Set 的构建基于意大利语LUNA人机对话语料库，涵盖了硬件/软件帮助台领域的60个对话。这些对话遵循Penn Discourse Treebank (PDTB) 的标注指南，共标注了1,606个话语关系，其中1,052个为显式话语关系。数据集被划分为训练集（42个对话）、开发集（6个对话）和测试集（12个对话），每个对话以JSON格式存储，包含对话ID、词汇列表、文本块和组块的索引以及话语关系列表。

特点

该数据集的特点在于其丰富的标注层次和多样的话语关系类型。数据集不仅包含显式和隐式话语关系，还涵盖了AltLex和EntRel等特殊类型。每个话语关系都标注了连接词、论据及补充材料，且支持多层次的意义分类，如Comparison、Contingency、Expansion和Temporal等。此外，数据集还进行了匿名化处理，保护了个人隐私和敏感信息。

使用方法

使用该数据集时，首先需加载JSON格式的对话文件，解析其中的词汇、块、组块和话语关系信息。通过分析`relations`字段，可以提取出不同类型的话语关系及其意义层次。开发者可以利用训练集进行模型训练，开发集进行调优，测试集进行最终评估。数据集的多层次标注结构特别适合用于自然语言处理任务，如话语关系识别、对话系统开发等。

背景与挑战

背景概述

LUNA Corpus Discourse Data Set 是一个专注于意大利语对话的语料库，主要应用于硬件/软件帮助台领域。该数据集由60个对话组成，遵循Penn Discourse Treebank (PDTB) 的标注规范，共包含1,606个话语关系，其中1,052个为显式话语关系。该数据集由Sara Tonelli、Giuseppe Riccardi等研究人员于2010年创建，旨在为自然语言处理领域中的话语关系分析提供高质量的数据支持。通过对话语关系的细致标注，该数据集为研究者提供了丰富的语料资源，推动了对话语理解和生成模型的发展。

当前挑战

LUNA Corpus Discourse Data Set 在构建和应用过程中面临多重挑战。首先，话语关系的标注需要高度精确，尤其是在处理显式和隐式关系时，标注者需具备深厚的语言学知识。其次，数据集的构建过程中，对话的匿名化处理增加了复杂性，尤其是在保护隐私的同时确保数据的可用性。此外，话语关系的多层次分类（如Comparison、Contingency、Expansion等）要求标注者具备对复杂语义结构的深刻理解，这进一步增加了标注的难度。最后，数据集中存在少量无意义或错误标注的关系，这对模型的训练和评估提出了额外的挑战。

常用场景

经典使用场景

LUNA Corpus Discourse Data Set 主要用于自然语言处理领域中的话语关系分析研究。该数据集包含了60个意大利语对话，涵盖了硬件/软件帮助台领域的对话内容，并按照Penn Discourse Treebank (PDTB) 的标注标准进行了话语关系标注。研究者可以通过该数据集深入探讨话语关系的分类、识别及其在对话中的分布规律，尤其是在多轮对话中的显式和隐式话语关系的表现。

实际应用

在实际应用中，LUNA Corpus Discourse Data Set 可用于开发智能客服系统和对话管理系统。通过分析帮助台领域中的对话数据，系统能够更准确地识别用户意图和对话中的关键信息，从而提供更高效的服务。此外，该数据集还可用于教育领域，帮助学生和研究者理解话语关系的复杂性，并为语言教学提供实际案例。

衍生相关工作

基于LUNA Corpus Discourse Data Set，研究者们开展了多项经典工作。例如，Tonelli等人（2010）提出了对话中话语关系的标注框架，为后续研究奠定了基础。Riccardi等人（2016）则进一步探讨了话语连接词在口语对话中的检测方法，推动了话语关系自动识别技术的发展。这些工作不仅扩展了话语关系研究的深度，还为自然语言处理领域的其他任务提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集