five

LUNA Corpus Discourse Data Set

收藏
github2023-01-27 更新2024-05-31 收录
下载链接:
https://github.com/esrel/LUNA.Discourse
下载链接
链接失效反馈
官方服务:
资源简介:
LUNA Corpus Discourse数据集包含来自意大利LUNA人机交互语料库的60个对话,这些对话来自硬件/软件帮助台领域,并遵循Penn Discourse Treebank (PDTB)指南进行标注。数据集总共包含1,606个话语关系,其中1,052个是显式话语关系。对话被分为训练、开发和测试集,分别为42、6和12个。

The LUNA Corpus Discourse dataset comprises 60 dialogues sourced from the Italian LUNA human-computer interaction corpus, specifically from the hardware/software helpdesk domain. These dialogues are annotated following the guidelines of the Penn Discourse Treebank (PDTB). The dataset contains a total of 1,606 discourse relations, with 1,052 being explicit discourse relations. The dialogues are divided into training, development, and test sets, consisting of 42, 6, and 12 dialogues respectively.
创建时间:
2023-01-17
原始信息汇总

数据集概述

名称: LUNA Corpus Discourse Data Set

领域: 硬件/软件帮助台

语言: 意大利语

对话数量: 60

注释遵循: Penn Discourse Treebank (PDTB) 指南

包含的论述关系数量: 1,606

明确论述关系数量: 1,052

数据集结构

对话分割:

  • 训练集: 42 对话
  • 开发集: 6 对话
  • 测试集: 12 对话

数据格式:

  • 每个对话以JSON文件存储,包含以下字段:
    • DOC_ID: 文件名的数字部分
    • tokens: 扁平化的词列表
    • blocks: 文本文件中块的词起始和结束索引列表(制表符分隔)
    • groups: 文本文件中组的词起始和结束索引列表(换行符分隔)
    • relations: 论述关系列表

论述关系类型

类型分布:

类型 总数 训练 开发 测试
Explicit 1,052 659 135 258
Implicit 490 294 74 122
AltLex 11 8 2 1
EntRel 56 33 7 16

论述关系感官

感官分布:

类型 总数 0 1s 2s 2c
Explicit 1,052 4 1,045 3 NA
Implicit 490 3 481 3 3
AltLex 11 1 10 NA NA
EntRel 56 NA NA NA NA

论述关系感官选择

  • 所有论述关系简化为具有精确的1个感官(或0,如果缺失)。
  • 如果存在多个感官,选择第一个。
  • 对于具有两个连接词的隐含关系,选择第一个连接词的第一个感官。

论述关系感官级别

级别1感官:

  • PDTB有4个级别1感官:比较、偶然性、扩展和时间性。
  • LUNA添加了3个仅有一个级别的感官:论述标记、中断、重复。

级别2和级别3+感官:

  • 大多数关系具有级别2感官,但有些仅具有级别1感官。
  • 级别3感官进一步细分类别,如比较.让步.认识论让步。

数据匿名化

  • 数据在词级别进行匿名化,使用特定替换规则。

参考文献

  • 如果使用此数据集进行出版,请引用Tonelli等人的论文。
搜集汇总
数据集介绍
main_image_url
构建方式
LUNA Corpus Discourse Data Set 的构建基于意大利语LUNA人机对话语料库,涵盖了硬件/软件帮助台领域的60个对话。这些对话遵循Penn Discourse Treebank (PDTB) 的标注指南,共标注了1,606个话语关系,其中1,052个为显式话语关系。数据集被划分为训练集(42个对话)、开发集(6个对话)和测试集(12个对话),每个对话以JSON格式存储,包含对话ID、词汇列表、文本块和组块的索引以及话语关系列表。
特点
该数据集的特点在于其丰富的标注层次和多样的话语关系类型。数据集不仅包含显式和隐式话语关系,还涵盖了AltLex和EntRel等特殊类型。每个话语关系都标注了连接词、论据及补充材料,且支持多层次的意义分类,如Comparison、Contingency、Expansion和Temporal等。此外,数据集还进行了匿名化处理,保护了个人隐私和敏感信息。
使用方法
使用该数据集时,首先需加载JSON格式的对话文件,解析其中的词汇、块、组块和话语关系信息。通过分析`relations`字段,可以提取出不同类型的话语关系及其意义层次。开发者可以利用训练集进行模型训练,开发集进行调优,测试集进行最终评估。数据集的多层次标注结构特别适合用于自然语言处理任务,如话语关系识别、对话系统开发等。
背景与挑战
背景概述
LUNA Corpus Discourse Data Set 是一个专注于意大利语对话的语料库,主要应用于硬件/软件帮助台领域。该数据集由60个对话组成,遵循Penn Discourse Treebank (PDTB) 的标注规范,共包含1,606个话语关系,其中1,052个为显式话语关系。该数据集由Sara Tonelli、Giuseppe Riccardi等研究人员于2010年创建,旨在为自然语言处理领域中的话语关系分析提供高质量的数据支持。通过对话语关系的细致标注,该数据集为研究者提供了丰富的语料资源,推动了对话语理解和生成模型的发展。
当前挑战
LUNA Corpus Discourse Data Set 在构建和应用过程中面临多重挑战。首先,话语关系的标注需要高度精确,尤其是在处理显式和隐式关系时,标注者需具备深厚的语言学知识。其次,数据集的构建过程中,对话的匿名化处理增加了复杂性,尤其是在保护隐私的同时确保数据的可用性。此外,话语关系的多层次分类(如Comparison、Contingency、Expansion等)要求标注者具备对复杂语义结构的深刻理解,这进一步增加了标注的难度。最后,数据集中存在少量无意义或错误标注的关系,这对模型的训练和评估提出了额外的挑战。
常用场景
经典使用场景
LUNA Corpus Discourse Data Set 主要用于自然语言处理领域中的话语关系分析研究。该数据集包含了60个意大利语对话,涵盖了硬件/软件帮助台领域的对话内容,并按照Penn Discourse Treebank (PDTB) 的标注标准进行了话语关系标注。研究者可以通过该数据集深入探讨话语关系的分类、识别及其在对话中的分布规律,尤其是在多轮对话中的显式和隐式话语关系的表现。
实际应用
在实际应用中,LUNA Corpus Discourse Data Set 可用于开发智能客服系统和对话管理系统。通过分析帮助台领域中的对话数据,系统能够更准确地识别用户意图和对话中的关键信息,从而提供更高效的服务。此外,该数据集还可用于教育领域,帮助学生和研究者理解话语关系的复杂性,并为语言教学提供实际案例。
衍生相关工作
基于LUNA Corpus Discourse Data Set,研究者们开展了多项经典工作。例如,Tonelli等人(2010)提出了对话中话语关系的标注框架,为后续研究奠定了基础。Riccardi等人(2016)则进一步探讨了话语连接词在口语对话中的检测方法,推动了话语关系自动识别技术的发展。这些工作不仅扩展了话语关系研究的深度,还为自然语言处理领域的其他任务提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作