misclassified_urgency_dataset

Hugging Face2025-10-30 更新2025-10-31 收录

下载链接：

https://huggingface.co/datasets/sambodhan/misclassified_urgency_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Sambodhan Grievance Dataset (Urgency)是一个处理过的用于紧急程度分类的公民投诉文本数据集。它包含三个紧急程度类别：正常、紧急和高度紧急。数据集分为训练集、验证集和测试集，总共2426个样本。

创建时间：

2025-10-28

原始信息汇总

数据集概述

基本信息

数据集名称: Sambodhan Grievance Dataset (Urgency)
唯一标识: sambodhan/misclassified_urgency_dataset
任务类型: 文本分类
任务子类: 多类别分类
许可证: Apache-2.0
数据规模: 1K<n<10K
支持语言: 英语、尼泊尔语

技术规格

版本标签: v20251030_115250
创建时间: 2025-10-30T11:53:01.110260+00:00
标签列: urgency
总样本数: 1600

标签映射

标签	ID
NORMAL	0
URGENT	1
HIGHLY URGENT	2

数据划分

训练集: 1280个样本
验证集: 160个样本
测试集: 160个样本

任务描述

该数据集包含用于分类任务的预处理公民申诉文本：

紧急程度分类

维护信息

维护者: mr-kush
生成方式: 通过Sambodhan AI数据管道自动生成和版本控制
最后更新时间: 2025-10-30T11:53:01.110260+00:00

搜集汇总

数据集介绍

构建方式

在公共服务数字化进程中，该数据集通过自动化数据流水线系统构建，采用严格的预处理标准对公民申诉文本进行标注。原始语料经过多语言筛选，涵盖英语与尼泊尔语内容，并由专业团队依据紧急程度划分为三个等级。构建过程注重版本追踪与数据一致性，确保1600条样本在训练、验证与测试集间的合理分布，为分类任务提供可靠基础。

特点

该数据集聚焦于公共服务领域的紧急程度识别，其核心特征体现在多层级分类体系与跨语言支持上。文本内容真实反映公民诉求场景，标注体系包含常规、紧急与高度紧急三级分类，且同时兼容英语与尼泊尔语的双语特性。数据规模控制在千级别样本量，既满足模型训练需求又保持标注质量，其平衡的数据分割方案为模型评估提供稳定基准。

使用方法

针对文本分类任务的应用场景，使用者可直接调用预分割的训练集进行模型微调，通过1280条样本学习紧急程度识别模式。验证集与测试集各含160条样本，适用于超参数优化与模型性能评估。建议采用多分类架构处理三类标签映射，并注意双语特征带来的编码挑战。该数据集与主流机器学习框架兼容，支持端到端的分类流程实现。

背景与挑战

背景概述

随着数字治理理念在全球范围内的普及，公民申诉文本的自动化处理逐渐成为公共服务智能化转型的核心环节。由Sambodhan AI团队于2025年创建的误分类紧急程度数据集，聚焦于多语言环境下申诉文本的紧急程度分级任务。该数据集涵盖英语与尼泊尔语双语文档，通过三分类体系区分常规、紧急与高度紧急申诉，旨在提升政府机构对民生诉求的响应效率。其标准化预处理流程与版本追踪机制，为公共服务领域的自然语言处理研究提供了可复现的实验基准。

当前挑战

申诉文本紧急分类面临领域特有的语义复杂性挑战：一方面需克服多语言混合表述中文化隐喻与地域性表达的歧义问题，另一方面要解决非结构化文本中紧急特征与常规描述的模糊边界。数据构建过程中，团队需应对低资源语言标注样本稀缺的困境，同时确保跨语言标签映射的一致性。此外，公共服务场景中突发性事件与日常诉求的语义重叠，进一步增加了分类模型区分度的优化难度。

常用场景

经典使用场景

在公共服务数字化进程中，misclassified_urgency_dataset为多语言紧急程度分类提供了关键实验基础。该数据集通过标注NORMAL、URGENT和HIGHLY URGENT三级标签，支撑研究者构建文本分类模型，用于自动识别公民申诉中的紧急程度。其英尼双语特性与1600条标注样本的规模，使其成为评估迁移学习与跨语言泛化能力的典型测试平台。

实际应用

在智慧城市建设中，该数据集支撑的自动分类系统可集成至政府服务平台，实时甄别公民投诉的紧急优先级。例如市政部门通过部署基于该数据训练的模型，能够将HIGHLY URGENT级别申诉自动路由至快速响应通道，显著提升公共服务效率。这种技术方案尤其适用于多语言国家，为数字化治理提供了可扩展的解决方案。

衍生相关工作

基于该数据集衍生的经典研究包括多任务学习框架下的紧急程度联合预测模型，以及面向低资源语言的对抗训练方法。相关成果已延伸至灾害应急响应领域，催生了结合地理信息的跨模态紧急事件检测系统。这些工作通过复用数据集的标注范式，进一步推动了公共服务文本分析技术在实际场景中的深化应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集