five

ding-01

收藏
arXiv2025-08-18 更新2025-08-22 收录
下载链接:
https://doi.org/10.5281/zenodo.15537425
下载链接
链接失效反馈
官方服务:
资源简介:
ding-01数据集是一个法语对话的抽象意义表示(AMR)语料库,由格勒诺布尔阿尔卑斯大学、CNRS、格勒诺布尔理工学院、LIG和巴黎电信LTCI的研究团队创建。该语料库包含1830个对话回合,涵盖了丰富的法语对话特征,如话语标记和反馈表达。ding-01数据集的创建旨在弥补法语AMR语料库的稀缺,并为法语对话的语义解析研究提供资源。数据集的内容包括对话回合、 Tokens数、话语标记和反馈表达等,数据集创建过程包括人工标注和评估。该数据集的应用领域包括机器翻译、自动文本摘要、人机交互等,旨在解决法语NLP系统发展中语义资源不足的问题。

The ding-01 dataset is an abstract meaning representation (AMR) corpus for French dialogues, developed by research teams from Université Grenoble Alpes, CNRS, Grenoble Institute of Technology, Laboratoire d'Informatique de Grenoble (LIG), and LTCI, Télécom Paris. This corpus comprises 1830 dialogue turns, encompassing a diverse set of French dialogue features such as discourse markers and feedback expressions. The ding-01 dataset was created to address the scarcity of existing French AMR corpora and provide valuable resources for semantic parsing research on French dialogues. The dataset includes components such as dialogue turns, token counts, discourse markers and feedback expressions, with its development process involving manual annotation and evaluation. Application scenarios for this dataset cover machine translation, automatic text summarization, human-computer interaction and other fields, aiming to mitigate the shortage of semantic resources in the advancement of French natural language processing (NLP) systems.
提供机构:
Univ.Grenoble Alpes, CNRS, Grenoble INP, LIG, 38000 Grenoble, France; LTCI, Télécom Paris, 91120 Palaiseau, France
创建时间:
2025-08-18
搜集汇总
数据集介绍
main_image_url
构建方式
在法语自然语言处理领域,ding-01数据集的构建基于DinG语料库的转录文本,采用人工标注方式系统性地标注抽象意义表示(AMR)图。标注过程历时六个月,由专业标注人员使用metAMoRphosED工具对1,830个对话话轮进行语义图构建,并通过每周例会解决标注分歧。为处理法语口语特有现象(如话语标记词“donc”的歧义性),团队制定了专项标注指南并参考英文AMR 3.0的标注范式,最终通过三重标注验证和冲突消解机制确保标注质量,SMATCH一致性评分达71.6。
使用方法
该数据集适用于训练和评估法语AMR解析模型,使用者可通过划分训练集(1,375例)、开发集(146例)和测试集(146例)进行序列到序列的AMR解析实验。基于mBart多语言模型的解析器可实现AMR图的线性化生成与后处理重构,预训练模型在测试集上达到73.5的SMATCH分数。该资源还可作为辅助标注工具,通过模型自动生成初始标注再经人工修正的半自动化流程加速语义标注进程,并为法语对话系统的语义理解研究提供基准数据。
背景与挑战
背景概述
在自然语言处理领域,抽象意义表示(AMR)作为一种结构化语义表示方法,自2013年提出以来已成为语义解析的核心工具。ding-01数据集由格勒诺布尔阿尔卑斯大学与巴黎电信研究院于2025年联合构建,专注于法语自发对话的AMR标注。该数据集以桌游《卡坦岛》的真实对话转录为语料,旨在解决法语语义资源匮乏及对话动态特征表征不足的问题,为法语对话系统与计算语言学研究提供了重要基础。
当前挑战
该数据集需应对法语自发对话中独特的语言现象挑战,包括话语标记词(如“donc”“alors”)的歧义消解、跨话轮指代与动词省略的结构化表示,以及口语中焦点结构与不流利现象(如重复、修正)的语义编码。构建过程中需克服标准AMR框架对口语动态特征覆盖不足的局限,通过扩展语义角色与制定细粒度标注规范,确保法语特有语法现象与语用功能的准确捕获,同时维持与英文AMR资源的兼容性。
常用场景
经典使用场景
在自然语言处理领域,ding-01数据集作为首个针对法语自发对话的抽象意义表示语料库,为研究口语交互的语义结构提供了重要基础。该数据集通过标注棋盘游戏《卡坦岛》对话转录文本,捕捉了法语口语中特有的语用现象,如话语标记词和反馈信号,为分析口语动态特性提供了丰富资源。
解决学术问题
该数据集有效解决了法语语义解析资源匮乏的问题,特别是填补了对话场景下AMR标注的空白。通过扩展标准AMR框架以涵盖法语特有的语言结构(如分裂句和左偏置结构),为跨语言语义表示研究提供了新范式,显著提升了法语自然语言处理系统的语义理解能力。
实际应用
在实际应用层面,ding-01支持开发面向法语对话的智能助手系统,特别是在游戏交互和社交对话场景中。基于该数据集训练的AMR解析器可作为辅助标注工具,大幅提升语义标注效率,为构建法语对话系统提供核心技术支持,同时促进人机交互界面的自然度提升。
数据集最近研究
最新研究方向
在自然语言处理领域,ding-01数据集作为首个针对法语自发对话的抽象意义表示(AMR)标注语料库,显著推动了对话语义解析的前沿研究。其创新性体现在扩展AMR框架以涵盖话语标记、反馈信号及跨话轮共指等口语现象,为法语对话理解提供了结构化语义表征基础。当前研究热点集中于利用该数据集训练跨语言AMR解析模型,探索从英语AMR资源到法语对话的迁移学习机制,同时关注口语不流利现象的语义建模。该资源不仅填补了法语语义解析数据空白,更为人机交互、对话系统等应用提供了关键基础设施,已引起计算语言学社区对低资源语言语义表征的广泛关注。
相关研究论文
  • 1
    ding-01 :ARG0: An AMR Corpus for Spontaneous French DialogueUniv.Grenoble Alpes, CNRS, Grenoble INP, LIG, 38000 Grenoble, France; LTCI, Télécom Paris, 91120 Palaiseau, France · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作