intent_instructions
收藏Hugging Face2026-03-10 更新2026-03-11 收录
下载链接:
https://huggingface.co/datasets/KandoCare/intent_instructions
下载链接
链接失效反馈官方服务:
资源简介:
Kando意图数据集是一个用于意图检测的用户查询示例集合,专门针对KANDO系统。数据集包含训练集和测试集,训练集有3751个示例,测试集有260个示例。数据集中的每个示例包含三个字段:text(文本)、instruction(指令)和output_json(输出JSON)。意图类别包括creer_cible(创建目标)、afficher_cible(显示目标)、afficher_chute(显示跌落)、afficher_appel(显示呼叫)、annuler(取消)、creer_chute(创建跌落)、afficher_plan_de_soins(显示护理计划)和profil(个人资料)。训练集中各类别的分布较为均衡,其中creer_cible占比最高(22.28%),而测试集中的分布也类似,creer_cible占比24.33%。该数据集适用于意图识别和自然语言处理任务。
创建时间:
2026-03-06
原始信息汇总
Kando Intent Dataset 概述
数据集基本信息
- 数据集名称:Kando Intent Dataset
- 发布者/维护者:KandoCare
- 数据集地址:https://huggingface.co/datasets/KandoCare/intent_instructions
- 描述:用于意图检测的KANDO用户请求示例数据集。
数据集结构与内容
- 数据格式:包含三个文本字段。
- 特征(Features):
text:字符串类型。instruction:字符串类型。output_json:字符串类型。
数据划分与规模
- 训练集(train):
- 示例数量:3751个。
- 文件大小:3725092字节。
- 测试集(test):
- 示例数量:260个。
- 文件大小:255799字节。
- 总体规模:
- 数据集总大小:3980891字节。
- 下载大小:75256字节。
意图类别分布
训练集(train)分布
| 意图(Intent) | 示例数量 | 百分比 |
|---|---|---|
{"intent": "creer_cible"} |
823 | 22.28% |
{"intent": "afficher_cible"} |
645 | 17.46% |
{"intent": "afficher_chute"} |
452 | 12.24% |
{"intent": "afficher_appel"} |
424 | 11.48% |
{"intent": "annuler"} |
409 | 11.07% |
{"intent": "creer_chute"} |
327 | 8.85% |
{"intent": "afficher_plan_de_soins"} |
312 | 8.45% |
{"intent": "profil"} |
302 | 8.18% |
测试集(test)分布
| 意图(Intent) | 示例数量 | 百分比 |
|---|---|---|
{"intent": "creer_cible"} |
64 | 24.33% |
{"intent": "creer_chute"} |
37 | 14.07% |
{"intent": "profil"} |
36 | 13.69% |
{"intent": "annuler"} |
36 | 13.69% |
{"intent": "afficher_plan_de_soins"} |
25 | 9.51% |
{"intent": "afficher_appel"} |
23 | 8.75% |
{"intent": "afficher_cible"} |
22 | 8.37% |
{"intent": "afficher_chute"} |
20 | 7.60% |
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,意图识别数据集对于构建智能对话系统至关重要。Kando意图数据集通过收集真实的用户查询构建而成,涵盖了医疗健康管理场景中的多种用户意图。该数据集包含训练集与测试集,分别收录了3751条和260条样本,每条样本均包含原始文本、对应的指令以及结构化输出,确保了数据的完整性与实用性。数据划分遵循标准机器学习实践,旨在支持模型训练与评估的可靠性。
特点
该数据集聚焦于医疗健康管理领域,其核心特点在于覆盖了八种明确的用户意图,如创建目标、显示护理计划等,这些意图分布均衡,反映了实际应用中的多样性。数据集以法语呈现,每条记录均包含文本、指令和JSON格式的输出,提供了丰富的结构化信息。其规模适中,训练集与测试集的比例合理,有助于模型在保持泛化能力的同时避免过拟合,为意图检测任务提供了高质量的语言资源。
使用方法
在意图识别模型开发中,该数据集可直接用于训练和评估分类或序列标注模型。研究人员可基于文本特征提取意图标签,或利用指令与输出字段进行多任务学习。数据集以标准格式提供,支持通过HuggingFace库便捷加载,分割为训练和测试部分便于交叉验证。使用时应关注类别分布,确保模型在不同意图上的性能均衡,并可结合预处理技术优化输入表示,以提升医疗对话系统的准确性与鲁棒性。
背景与挑战
背景概述
在自然语言处理领域,意图识别作为对话系统的核心组件,旨在准确理解用户查询背后的语义目的。Kando意图数据集专注于医疗健康领域的法语用户指令,由Kando项目团队构建,旨在支持特定垂直场景下的意图分类研究。该数据集收录了用户与系统交互的文本指令及其对应的意图标签,涵盖了创建目标、显示护理计划等八类医疗相关操作,为法语医疗对话系统的开发提供了宝贵的标注资源。其构建反映了对专业领域数据稀缺性的关注,推动了垂直领域意图理解技术的发展。
当前挑战
该数据集致力于解决医疗健康领域法语意图识别的挑战,其核心在于处理专业术语的歧义性以及用户表达方式的多样性,例如同一种意图可能对应多种口语化或简略表述。在构建过程中,挑战主要集中于数据标注的一致性,由于医疗指令的严谨性,需要领域专家参与以确保意图标签的准确性;同时,数据规模相对有限,各类别样本分布不均衡,可能影响模型在少数类别上的泛化性能,这要求研究者开发有效的数据增强或迁移学习策略以应对样本偏差问题。
常用场景
经典使用场景
在自然语言处理领域,意图识别是构建智能对话系统的核心任务之一。Kando Intent Dataset以其专注于医疗健康管理场景的用户查询,为意图分类模型提供了高质量的标注数据。该数据集常用于训练和评估基于深度学习的分类器,如BERT或RoBERTa,以准确识别用户指令背后的意图类别,例如创建目标或显示护理计划,从而提升对话代理的语义理解能力。
实际应用
在实际应用中,Kando Intent Dataset可直接用于开发医疗机构的智能助手系统。例如,集成该数据集训练的模型能够自动解析医护人员或患者的自然语言请求,快速触发电子健康记录中的相应功能,如查询护理计划或管理患者目标。这不仅优化了临床工作流程,降低了人工操作负担,也增强了医疗服务的响应效率与个性化水平。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括基于预训练语言模型的微调策略比较、针对不平衡数据的数据增强技术探索,以及多任务学习框架在医疗意图识别中的性能验证。这些工作不仅提升了数据集本身的利用率,还推动了意图识别领域在特征提取、模型泛化及领域特定优化等方面的理论进展与实践创新。
以上内容由遇见数据集搜集并总结生成



