qgyd2021/few_shot_intent_sft
收藏Hugging Face2024-05-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/qgyd2021/few_shot_intent_sft
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于小样本意图识别指令的数据集,包含了多种意图识别的数据,并将其制作成prompt,用于few-shot的意图识别LLM研究。数据集涵盖了中文和英文等多种语言,并且包含了多个子集,每个子集都是从对应的数据集和模板动态生成的。数据集还提供了数据加载的代码示例,并列举了数据集的来源和参考链接。
该数据集是一个用于小样本意图识别指令的数据集,包含了多种意图识别的数据,并将其制作成prompt,用于few-shot的意图识别LLM研究。数据集涵盖了中文和英文等多种语言,并且包含了多个子集,每个子集都是从对应的数据集和模板动态生成的。数据集还提供了数据加载的代码示例,并列举了数据集的来源和参考链接。
提供机构:
qgyd2021
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类型: 文本分类, 问答, 文本生成
- 语言: 中文, 英文
- 数据集大小: 100M<n<1B
数据集描述
- 名称: 小样本意图识别指令数据集
- 用途: 用于few-shot的意图识别LLM研究
- 特点: 数据集通过动态生成
{dataset_name}_prompt子集,每次结果不同,适用于GPT训练
样本示例
- 训练子集示例: 包含多个意图识别示例,如关于健身房安全性的问题
- 测试子集示例: 展示不同场景下的意图识别,如电销场景中的意图判断
数据来源
- 意图识别数据集: 包括多种语言和领域的意图识别数据集,如ATIS, banking77等
- 文本分类数据集: 如ag_news, daily_dialog等,用于文本分类任务
- 其他任务类型数据集: 如情感分类、指令微调等
数据加载
- 加载方式: 使用
datasets库加载和合并多个子集数据
数据集详细信息
意图识别
- 数据集: 包括多种语言和领域的意图识别数据集,如ATIS, banking77等
- 样本数量: 从几百到几万不等
- 描述: 用于训练和测试意图识别模型
文本分类
- 数据集: 如ag_news, daily_dialog等
- 样本数量: 从几千到几十万不等
- 描述: 用于文本分类任务,如新闻主题分类、对话情感分类等
其他任务类型
- 数据集: 如情感分类、指令微调等
- 样本数量: 从几千到几万不等
- 描述: 用于特定任务的训练和测试,如情感检测、指令理解等
数据集使用
- 加载: 使用Python脚本加载和处理数据集
- 应用: 主要用于自然语言处理领域的研究和开发,如意图识别、文本分类等任务的模型训练和评估
搜集汇总
数据集介绍

构建方式
该数据集通过收集意图识别的数据,并制作成prompt模板,用于few-shot的意图识别LLM研究。数据集的构建主要依赖于从不同来源收集的意图识别数据,包括英文和中文的数据集,如ATIS、conv_intent、banking77等,以及为特定任务创建的prompt模板。
使用方法
使用该数据集时,首先需要加载对应的子集,然后可以根据具体的任务需求,利用数据集中的prompt模板进行模型的训练和测试。在训练过程中,可以通过动态生成的prompt来模拟few-shot学习场景,从而提高模型的泛化能力。
背景与挑战
背景概述
qgyd2021/few_shot_intent_sft数据集是基于小样本意图识别任务构建的,收集了意图识别的数据集并将其制作成prompt,用于few-shot的意图识别LLM研究。该数据集由多个子集组成,涵盖了不同的领域和任务类型,如文本分类、意图识别等。其主要研究人员或机构包括清华大学、阿里巴巴等,创建时间为2021年。该数据集的核心研究问题是小样本条件下的意图识别,其对相关领域的影响力体现在为小样本学习提供了有效的数据支持和模型评估基准。
当前挑战
在构建qgyd2021/few_shot_intent_sft数据集的过程中,研究人员面临了多个挑战。首先,如何从有限的样本中学习到有效的意图表示是一个关键问题。其次,由于数据集包含了多个子集,每个子集都可能具有不同的分布和特征,因此确保模型具有良好的泛化能力是一个挑战。此外,数据集中的标注质量、样本平衡性以及如何设计有效的prompt模板也是构建过程中需要解决的问题。
常用场景
经典使用场景
qgyd2021/few_shot_intent_sft 数据集被广泛应用于小样本意图识别任务中,尤其是在自然语言处理领域。其经典使用场景包括为聊天机器人、虚拟助手等应用提供意图识别功能,以实现对用户输入的准确理解和响应。
解决学术问题
该数据集解决了小样本学习中的数据不足问题,为研究者在意图识别领域提供了可用的资源。它帮助学术研究解决了如何在小样本情况下训练出高效意图识别模型的问题,对于提升模型泛化能力和减少对大规模数据的依赖具有重要意义。
实际应用
在实际应用中,qgyd2021/few_shot_intent_sft 数据集可用于提升聊天机器人的用户体验,使得机器人在与用户互动时能够更好地理解用户意图,从而提供更加精准的服务和响应。此外,它还可以应用于客户服务、信息检索和推荐系统等多个领域。
数据集最近研究
最新研究方向
该数据集最新研究方向主要聚焦于小样本意图识别任务,特别是在few-shot学习框架下,如何通过少量样本实现有效的意图识别。研究包括但不限于意图识别模型的构建、prompt模板的设计以及跨领域意图识别等。
以上内容由遇见数据集搜集并总结生成



