five

deutsche-telekom/NLU-few-shot-benchmark-en-de

收藏
Hugging Face2023-12-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/deutsche-telekom/NLU-few-shot-benchmark-en-de
下载链接
链接失效反馈
官方服务:
资源简介:
NLU Few-shot Benchmark - English and German数据集是一个用于人机交互领域的少样本训练数据集,包含德语和英语的文本,共有64种不同的语句(类别),每个类别在训练集中有20个样本,总计1280个训练样本。该数据集旨在为英语和德语聊天机器人的意图分类器提供基准测试。数据集由Philip May和Deutsche Telekom编译并开源,版权归原作者所有,数据发布遵循CC BY 4.0许可。
提供机构:
deutsche-telekom
原始信息汇总

数据集概述

基本信息

  • 许可证: CC-BY-4.0
  • 语言: 英语、德语
  • 多语言性: 多语言
  • 来源数据集: 扩展自 deutsche-telekom/NLU-Evaluation-Data-en-de
  • 大小类别: 1K<n<10K
  • 任务类别: 文本分类
  • 任务ID: 意图分类

数据集描述

  • 名称: NLU Few-shot Benchmark - English and German
  • 领域: 人机交互
  • 内容: 包含64种不同语句(类别)的德语和英语文本,每个类别在训练集中有20个样本,总计1280个训练样本。
  • 用途: 用于基准测试英语和德语聊天机器人的意图分类器。

数据处理步骤

  • 删除NaN
  • 删除answer_deanswer中的重复项
  • 删除answer_de超过70个字符的行
  • 添加label列: df["label"] = df["scenario"] + "_" + df["intent"]
  • 移除样本数少于25的类别:
    • audio_volume_other
    • cooking_query
    • general_greet
    • music_dislikeness
  • 随机选择训练集 - 每个类别(label)精确20个样本
  • 剩余样本用于测试集

版权信息

  • 版权所有者: Philip May, Deutsche Telekom AG
  • 许可证: Creative Commons Attribution 4.0 International License (CC BY 4.0)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作