five

deutsche-telekom/NLU-Evaluation-Data-en-de

收藏
Hugging Face2023-12-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/deutsche-telekom/NLU-Evaluation-Data-en-de
下载链接
链接失效反馈
官方服务:
资源简介:
NLU评估数据 - 英语和德语是一个多领域的标注数据集,包含英语和德语,用于评估自然语言理解(NLU)服务和平台。数据集基于xliuhw/NLU-Evaluation-Data仓库的标注数据,并添加了德语翻译列。数据集包含25K用户话语,涵盖21个领域,适用于文本分类和意图分类任务。数据集由Philip May编译并开源,版权归xliuhw/NLU-Evaluation-Data的作者和Philip May所有,数据以Creative Commons Attribution 4.0 International License (CC BY 4.0)发布。

NLU Evaluation Data - English & German is a multi-domain annotated dataset encompassing English and German, intended for evaluating natural language understanding (NLU) services and platforms. This dataset is built upon the annotated data from the xliuhw/NLU-Evaluation-Data repository, with additional German translation columns added. It contains 25K user utterances across 21 domains, and is applicable to text classification and intent classification tasks. Compiled and open-sourced by Philip May, the copyright of this dataset is held by the authors of xliuhw/NLU-Evaluation-Data and Philip May, and it is released under the Creative Commons Attribution 4.0 International License (CC BY 4.0).
提供机构:
deutsche-telekom
原始信息汇总

数据集概述

基本信息

  • 许可证: CC-BY-4.0
  • 来源数据集: 扩展自 nlu_evaluation_data
  • 多语言支持: 多语言
  • 支持语言: 英语 (en), 德语 (de)
  • 数据集大小: 10K<n<100K
  • 任务类别: 文本分类
  • 任务ID: 意图分类

描述

  • 名称: NLU Evaluation Data - English and German
  • 内容: 包含25K用户交互语句的多领域数据集,涉及21个领域,用于人机交互。
  • 用途: 用于评估自然语言理解服务和平台。

数据集构建

  • 原始数据: 基于 xliuhw/NLU-Evaluation-Data 的标注数据。
  • 新增内容: 添加了 answer_de 列,通过 DeepLanswer 列的文本翻译成德语。

数据集特点

  • 标签使用: 推荐使用 scenariointent 的组合标签进行更细粒度的分类。
  • 数据问题: 包含 NaN 值和重复值,需进行过滤处理。

版权信息

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为NLU-Evaluation-Data-en-de,由德国电信的Philip May基于xliuhw/NLU-Evaluation-Data原始英文语料构建而成。原始数据集包含21个领域、约2.5万条用户话语,用于人机交互场景下的自然语言理解评估。为拓展多语言能力,研究者利用DeepL翻译引擎将原始数据集中的`answer`列逐条翻译为德语,新增`answer_de`列,从而形成英德双语平行语料。构建过程中,保留了原始数据中的`scenario`和`intent`标签,并建议通过拼接二者生成更细粒度的分类标签(如`alarm_set`)。需要注意的是,原始数据中`answer`列存在部分NaN值,导致翻译后的`answer_de`列同样存在缺失值,这些行在使用时应予以过滤。此外,数据集中存在重复条目,需根据具体任务进行去重处理。
特点
该数据集的核心特点在于其双语覆盖与多领域多样性。英语与德语的双语版本为跨语言自然语言理解研究提供了标准化基准,尤其适用于评估多语言对话系统的意图识别与语义解析能力。21个领域的广泛覆盖——涵盖闹钟、天气、日历等日常交互场景——使得模型能够学习到丰富的上下文与领域特定表达。数据集提供了`scenario`和`intent`两级标签体系,支持粗粒度与细粒度的分类任务,灵活性较高。同时,作为公开可用的评估基准(CC BY 4.0协议),其与arXiv论文的配套发布确保了研究可复现性。需注意数据中存在的NaN值与重复项构成了使用上的特殊性,要求预处理阶段进行针对性清洗。
使用方法
使用该数据集时,建议首先加载原始CSV文件,检查并移除`answer`或`answer_de`列中包含NaN值的行,以避免模型训练或评估中的错误。随后,根据任务需求选择标签:若进行粗粒度分类,可直接使用`scenario`或`intent`列;若追求更细致的区分,可将二者拼接为复合标签(如`scenario_intent`格式)。数据集中存在的重复条目需通过去重操作消除冗余,确保评估结果的公正性。对于文本分类任务,可将`text`列作为输入,标签列作为目标变量,采用标准的监督学习流程。此外,双语版本支持零样本跨语言迁移学习实验,即使用英语数据训练模型后直接评估德语子集,或反之。最终结果可对比arXiv论文中的基准性能,以验证模型改进效果。
背景与挑战
背景概述
在对话式人工智能领域,自然语言理解(NLU)是构建高效人机交互系统的核心基石,其性能直接决定了智能助手的语义解析能力与用户体验。由德国电信(Deutsche Telekom)的Philip May于2022年主导创建的NLU-Evaluation-Data-en-de数据集,正是针对多语言环境下NLU服务评估的迫切需求应运而生。该数据集在原有英文NLU评估数据(xliuhw/NLU-Evaluation-Data)基础上,通过DeepL翻译引擎扩展了德语版本,覆盖21个领域、包含约2.5万条用户话语,并标注了场景(scenario)与意图(intent)标签。其核心研究问题在于为跨语言NLU平台提供标准化基准测试,推动对话系统在多语言场景下的鲁棒性评估。该数据集已被广泛应用于学术与工业界的NLU模型对比研究,对多语言对话系统的性能度量与优化产生了重要影响。
当前挑战
该数据集面临的核心挑战之一是跨语言NLU的语义保真度问题,由于德语版本通过机器翻译生成,源语言中的细微语义、文化语境或口语化表达可能失真,导致意图分类任务在德语场景下的准确率下降。其次,构建过程中存在数据不完整性挑战,原始数据集的回答(answer)列包含NaN值,这些缺失值在德语翻译列中同样存在,需在预处理阶段进行严格过滤,否则会引入噪声干扰模型训练。此外,数据集中存在的重复值(duplicate values)可能加剧过拟合风险,削弱评估结果的泛化能力。最后,多领域(21个领域)与细粒度标签(如通过拼接场景与意图生成的复合标签)虽提升了任务复杂度,但也对模型在稀疏标签分布下的鲁棒学习提出了更高要求,需要设计有效的正则化策略来应对领域偏移与类别不平衡问题。
常用场景
经典使用场景
NLU-Evaluation-Data-en-de数据集作为多领域、多语种的人机交互语料库,其最经典的应用场景在于自然语言理解(NLU)服务的基准测试与性能评估。该数据集涵盖21个领域、25K条用户话语,并同时提供英语与德语标注,为构建跨语言对话系统的意图识别与语义解析任务提供了标准化的评测平台。研究者可借助其细粒度标签(如场景与意图的拼接)来训练和验证分类模型,从而衡量不同NLU平台在真实多域交互中的鲁棒性与泛化能力。
衍生相关工作
该数据集衍生了一系列经典工作,包括基于其标注体系扩展的多语言NLU评测基准,以及针对意图识别任务提出的新型模型架构。例如,研究者利用其英语-德语平行语料探索跨语言迁移学习,开发了结合预训练语言模型(如BERT)的零样本意图分类方法。此外,该数据集的细粒度标签设计启发了后续工作,如通过拼接场景与意图生成复合标签,用于训练更精细的对话状态追踪器,推动了端到端对话系统在复杂多域场景下的性能突破。
数据集最近研究
最新研究方向
当前,多语言自然语言理解(NLU)在人机交互领域备受关注,尤其是跨语言意图识别与场景分类的鲁棒性成为研究热点。deutsche-telekom/NLU-Evaluation-Data-en-de数据集通过将英文NLU-Evaluation-Data翻译为德语,构建了覆盖21个领域、包含25K条用户话语的双语标注资源,为评估多语言对话系统提供了关键基准。该数据集直接服务于前沿研究方向,如跨语言迁移学习、零样本意图分类及多领域对话管理,其细粒度标签(如“alarm_set”)设计支持更精准的模型训练。结合arXiv相关论文,该数据集已用于对比主流NLU平台(如Dialogflow、LUIS)的性能差异,揭示了语言与文化差异对意图识别的影响。随着多语言对话代理在智能家居、客服等场景的普及,该数据集为提升跨语言交互的自然性与准确性奠定了数据基础,推动了多语言NLU服务在真实应用中的公平性与泛化能力评估。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作