deutsche-telekom/NLU-few-shot-benchmark-en-de
收藏Hugging Face2023-12-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/deutsche-telekom/NLU-few-shot-benchmark-en-de
下载链接
链接失效反馈官方服务:
资源简介:
NLU Few-shot Benchmark - English and German数据集是一个用于人机交互领域的少样本训练数据集,包含德语和英语的文本,共有64种不同的语句(类别),每个类别在训练集中有20个样本,总计1280个训练样本。该数据集旨在为英语和德语聊天机器人的意图分类器提供基准测试。数据集由Philip May和Deutsche Telekom编译并开源,版权归原作者所有,数据发布遵循CC BY 4.0许可。
提供机构:
deutsche-telekom
原始信息汇总
数据集概述
基本信息
- 许可证: CC-BY-4.0
- 语言: 英语、德语
- 多语言性: 多语言
- 来源数据集: 扩展自 deutsche-telekom/NLU-Evaluation-Data-en-de
- 大小类别: 1K<n<10K
- 任务类别: 文本分类
- 任务ID: 意图分类
数据集描述
- 名称: NLU Few-shot Benchmark - English and German
- 领域: 人机交互
- 内容: 包含64种不同语句(类别)的德语和英语文本,每个类别在训练集中有20个样本,总计1280个训练样本。
- 用途: 用于基准测试英语和德语聊天机器人的意图分类器。
数据处理步骤
- 删除
NaN值 - 删除
answer_de和answer中的重复项 - 删除
answer_de超过70个字符的行 - 添加
label列:df["label"] = df["scenario"] + "_" + df["intent"] - 移除样本数少于25的类别:
audio_volume_othercooking_querygeneral_greetmusic_dislikeness
- 随机选择训练集 - 每个类别(
label)精确20个样本 - 剩余样本用于测试集
版权信息
- 版权所有者: Philip May, Deutsche Telekom AG
- 许可证: Creative Commons Attribution 4.0 International License (CC BY 4.0)



