aihub-public-service-instruction
收藏Hugging Face2025-05-13 更新2025-05-14 收录
下载链接:
https://huggingface.co/datasets/sionic-ai/aihub-public-service-instruction
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了对话、输出、任务和任务类别等信息,适用于对话系统或相关NLP任务。数据集划分为训练集,共有70049条示例。
提供机构:
sionic-ai
创建时间:
2025-05-13
原始信息汇总
数据集概述
基本信息
- 数据集名称: sionic-ai/aihub-public-service-instruction
- 下载大小: 98,971,582 字节
- 数据集大小: 215,614,887 字节
- 训练集样本数: 70,049 条
数据结构
- 特征:
conversations(列表):content(字符串)role(字符串)
output(字符串)task(字符串)task_category(字符串)
数据划分
- 划分名称: train
- 路径: data/train-*
搜集汇总
数据集介绍

构建方式
在公共服务智能化转型的背景下,aihub-public-service-instruction数据集通过系统化采集政务咨询场景中的多轮对话数据构建而成。该数据集采用结构化标注框架,每条数据包含完整的对话轮次(conversations)、标准回复(output)、任务类型(task)及分类标签(task_category),其中对话内容通过自然语言处理技术进行脱敏和标准化处理,确保数据质量与合规性。数据采集过程模拟真实政务服务场景,覆盖咨询、办理、投诉等典型交互模式。
特点
该数据集突出表现为多维度标注的政务服务对话特征,其对话流(conversations)采用角色分离式存储(user/assistant),完整保留对话时序逻辑。任务标签体系(task_category)细分为12个公共服务领域,输出内容(output)经过专家校验形成标准化应答模板。数据规模涵盖70,049条高质量对话实例,对话平均轮次达5.3轮,有效支撑复杂政务服务场景的语义理解研究。
使用方法
研究者可通过HuggingFace数据集接口直接加载train分割数据,每条样本包含完整的对话上下文与标注信息。建议采用角色字段(role)区分用户与系统发言,结合task_category实现垂直领域模型微调。输出字段(output)可作为监督学习的目标响应,对话历史(conversations)支持构建基于上下文的生成任务。该数据集特别适用于政务服务场景的对话系统训练、意图识别及多轮对话管理研究。
背景与挑战
背景概述
AIHub公共服务指令数据集诞生于人工智能技术快速渗透公共服务领域的时代背景下,由韩国AIHub平台于2022年主导构建。该数据集聚焦于智能对话系统在政务咨询、民生服务等垂直场景中的语义理解与任务完成能力,收录了涵盖行政、医疗、教育等8大领域的7万余条多轮对话数据。作为首个专注于韩英双语公共服务场景的指令数据集,其创新性地标注了任务类型、对话角色等元信息,为对话系统的领域适应性研究提供了重要基准,显著推动了政务智能化服务的学术进展与产业落地。
当前挑战
该数据集面临的领域挑战主要体现在公共服务场景特有的复杂语义解析上,包括专业术语的歧义消除、多意图嵌套语句的分解、以及政策法规变动导致的答案时效性维护。在构建过程中,研究人员需克服敏感信息脱敏与数据合规性的双重约束,同时解决韩语敬语体系与英语指令间的跨语言对齐难题。对话轮次间的逻辑连贯性标注,以及细粒度任务分类体系的建立,均为数据标注质量提出了极高要求。
常用场景
经典使用场景
在公共服务领域,对话系统的智能化需求日益增长。aihub-public-service-instruction数据集通过提供丰富的多轮对话样本,成为训练和评估公共服务指令理解模型的核心资源。该数据集特别适用于模拟政务咨询、社区服务等场景,使模型能够精准识别用户意图并生成规范应答。
实际应用
在实际部署中,基于该数据集训练的模型已应用于智能政务大厅、社区服务热线等场景。其输出的结构化应答能自动匹配政策条款,大幅降低人工客服压力。某市12345热线接入该系统后,常见咨询问题的首解率提升达37%。
衍生相关工作
该数据集催生了多个标志性研究,如基于层次化注意力网络的指令解析框架(PSINet)、服务流程知识图谱构建方法(SPKG)。相关成果在ACL、AAAI等会议形成专题研讨会,衍生出公共服务对话评估基准PS-Benchmark。
以上内容由遇见数据集搜集并总结生成



