deutsche-telekom/NLU-few-shot-benchmark-en-de

Name: deutsche-telekom/NLU-few-shot-benchmark-en-de
Creator: deutsche-telekom
Published: 2023-12-17 17:41:42
License: 暂无描述

Hugging Face2023-12-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/deutsche-telekom/NLU-few-shot-benchmark-en-de

下载链接

链接失效反馈

官方服务：

资源简介：

NLU Few-shot Benchmark - English and German数据集是一个用于人机交互领域的少样本训练数据集，包含德语和英语的文本，共有64种不同的语句（类别），每个类别在训练集中有20个样本，总计1280个训练样本。该数据集旨在为英语和德语聊天机器人的意图分类器提供基准测试。数据集由Philip May和Deutsche Telekom编译并开源，版权归原作者所有，数据发布遵循CC BY 4.0许可。

提供机构：

deutsche-telekom

原始信息汇总

数据集概述

基本信息

许可证: CC-BY-4.0
语言: 英语、德语
多语言性: 多语言
来源数据集: 扩展自 deutsche-telekom/NLU-Evaluation-Data-en-de
大小类别: 1K<n<10K
任务类别: 文本分类
任务ID: 意图分类

数据集描述

名称: NLU Few-shot Benchmark - English and German
领域: 人机交互
内容: 包含64种不同语句（类别）的德语和英语文本，每个类别在训练集中有20个样本，总计1280个训练样本。
用途: 用于基准测试英语和德语聊天机器人的意图分类器。

数据处理步骤

删除NaN值
删除answer_de和answer中的重复项
删除answer_de超过70个字符的行
添加label列: df["label"] = df["scenario"] + "_" + df["intent"]
移除样本数少于25的类别:
- audio_volume_other
- cooking_query
- general_greet
- music_dislikeness
随机选择训练集 - 每个类别（label）精确20个样本
剩余样本用于测试集

版权信息

许可证: Creative Commons Attribution 4.0 International License (CC BY 4.0)

5,000+

优质数据集

54 个

任务类型

进入经典数据集