arabic-itsm-dataset
收藏Hugging Face2026-03-02 更新2026-03-03 收录
下载链接:
https://huggingface.co/datasets/albaz2000/arabic-itsm-dataset
下载链接
链接失效反馈官方服务:
资源简介:
阿拉伯语ITSM数据集是一个包含10,000条阿拉伯语IT支持工单的合成数据集,采用埃及阿拉伯方言编写,并标注了结构化的3级ITSM分类体系。数据集涵盖了完整的帮助台场景,包括访问问题、网络故障、硬件错误、软件问题、安全事件和服务请求等。技术词汇中混合了英语术语,真实反映了埃及工作场所的通信特点。
数据集包含18个字段,包括工单ID、创建/更新时间戳、提交渠道、生成模型、方言类型、阿拉伯语标题和描述正文、3级分类路径(6个一级类、16个二级类、48个三级类)、关键词标签、结构化标签对象、业务影响评分(1-5)、解决紧急度评分(1-5)、计算优先级(1-5)和情感分类(积极/中性/消极/混合)。
数据采用LLM生成,并通过自动化流程进行质量检查、去重和验证。数据以CSV(约6.5MB)和JSONL(约9MB)格式提供,适用于阿拉伯语文本分类、意图识别和IT服务管理领域的自然语言处理任务。数据集包含少量重复记录(约4.5%),建议在使用前进行去重处理。
创建时间:
2026-02-21
原始信息汇总
Arabic ITSM 数据集概述
数据集基本信息
- 数据集名称: Arabic ITSM Dataset
- 语言: 阿拉伯语 (ar)
- 许可证: MIT
- 任务类别: 文本分类
- 任务ID: 多类分类、意图分类
- 标签: 阿拉伯语、ITSM、合成数据、埃及阿拉伯语、服务台、工单分类
- 数据规模: 10K < n < 100K
- 记录数量: 10,000 条
数据集内容
- 数据描述: 一个包含 10,000 条阿拉伯语 IT 支持工单的合成数据集,标注有结构化的 3 级 ITSM 分类法,使用大语言模型生成,并在发布前进行了程序化验证。
- 语言特征: 工单使用埃及阿拉伯语书写,涵盖完整的服务台场景,混合了阿拉伯语技术词汇和英语术语。
- 数据格式: CSV (约 6.5 MB) 和 JSONL (约 9 MB)。
- 数据文件:
- CSV 文件:
https://raw.githubusercontent.com/bazokhan/arabic-itsm-dataset/master/dataset_clean.csv - JSONL 文件:
https://raw.githubusercontent.com/bazokhan/arabic-itsm-dataset/master/dataset_clean.jsonl
- CSV 文件:
数据模式 (Schema)
| 字段 | 类型 | 描述 |
|---|---|---|
ticket_id |
字符串 | 唯一ID,格式为 TCKT-NNN-NNN |
created_at |
ISO 8601 | 带时区的工单创建时间戳 |
updated_at |
ISO 8601 | 最后更新时间戳 (≥ created_at) |
channel |
字符串 | 提交渠道: email、portal、chatbot、phone |
model |
字符串 | 生成工单的LLM模型 |
dialect |
字符串 | 阿拉伯语方言 (例如 Egyptian) |
title_ar |
字符串 | 简短的阿拉伯语标题 |
description_ar |
字符串 | 完整的阿拉伯语描述正文 |
category_level_1 |
字符串 | 顶级类别 (6个类) |
category_level_2 |
字符串 | 子类别 (16个类) |
category_level_3 |
字符串 | 叶类别 (48个类) |
category_path |
字符串 | 复合路径 "L1 > L2 > L3" |
tags |
JSON 数组 | 2–6 个关键词标签 |
labels_json |
JSON 对象 | 结构化标签对象 {l1, l2, l3, tags} |
impact |
整数 1–5 | 业务影响评分 |
urgency |
整数 1–5 | 解决紧急性评分 |
priority |
整数 1–5 | 计算得出: round((impact + urgency) / 2),限制在1–5 |
sentiment |
字符串 | positive、neutral、negative、mixed |
分类法 (Taxonomy)
采用 3 级层次结构: 6 个顶级类别 → 16 个子类别 → 48 个叶类别。
| L1 (顶级) | L2 (子类) | L3 (叶类) |
|---|---|---|
| Access | Account | Password Reset, Account Locked, Profile Update |
| Access | Permissions | Role Request, Permission Denied, Admin Access |
| Access | MFA/SSO | MFA Failure, SSO Login Issue, Authenticator Issue |
| Network | WiFi | Connectivity, Authentication, Slow Speed |
| Network | VPN | Connection Failure, Credentials, Split Tunnel |
| Network | Internet/LAN | No Internet, DNS, Latency |
| Hardware | Laptop/Desktop | Boot Issue, Performance, Battery |
| Hardware | Printer/Scanner | Print Failure, Driver, Paper Jam |
| Hardware | Peripherals | Keyboard/Mouse, Monitor, Docking Station |
| Software | Email/Calendar | Outlook Issue, Mailbox Access, Sync Problem |
| Software | Office Apps | Word/Excel, License, Crash |
| Software | Business App | Bug, Feature Request, Integration |
| Security | Malware/Phishing | Phishing Email, Suspicious Link, Virus Alert |
| Security | Policy/Compliance | Blocked Site, Device Encryption, Data Access |
| Service | Request | New Device, New Account, Software Install |
| Service | Incident | Outage, Degradation, Intermittent |
完整分类法文件: https://github.com/bazokhan/arabic-itsm-dataset/blob/master/taxonomy_itsm_v1.json
构建方法
- 设计分类法: 手工制作了反映真实 IT 服务台类别的 3 级 ITSM 层次结构。
- 编写生成合约: 定义了完整的数据模式、优先级公式、目标方言、类别约束和真实性要求。
- 在托管 VPS 上自动生成: 使用自托管的智能体框架和自有模型,通过自动化管道生成工单、进行质量检查、去重、丰富简短描述并根据分类法进行验证。
- 最终验证与合并: 对生成的数据部分进行最终模式验证,通过的行写入
dataset_clean.*,失败的行写入dataset_rejected.jsonl。
探索与分析
- 探索笔记本:
https://github.com/bazokhan/arabic-itsm-dataset/blob/master/notebooks/inspect_data.ipynb - 分析内容: 涵盖所有 3 个分类级别的类别分布、类别平衡分析、情感/渠道/方言细分、文本长度统计、标签频率、重复和缺失值检查以及交叉表分析。
重要说明
- 未应用文本预处理: 数据集包含生成的原始阿拉伯语文本。
- 优先级计算:
priority由验证器强制执行:round((impact + urgency) / 2)并限制在 1–5。 - 残留重复项: 发布的数据集中存在 451 对完全相同的
(title_ar, description_ar)重复项(约占总行数的 4.5%)。建议在预处理时应用去重操作。
许可证与贡献者
- 许可证: MIT
- 主要贡献者:
- Assistant Professor Dr. Eman Sanad: 项目监督并提供原始想法和研究方向。
- @DrEmadAgha: 构建并运行了自动生成管道。
- Mohamed A. Elbaz (@bazokhan): 设计了分类法,编写了生成和修复提示,运行了最终验证并发布了数据集。
搜集汇总
数据集介绍
构建方式
在信息技术服务管理领域,阿拉伯语支持工单数据集的构建面临真实语料稀缺的挑战。该数据集采用合成生成策略,首先精心设计了一个三层级分类体系,涵盖六大核心类别及其细分场景。通过制定详尽的生成协议,明确工单结构、方言规范与真实性要求,利用自托管的大语言模型代理框架进行自动化批量生成。生成过程中融入了程序化质量检查、去重处理与内容增强机制,最终通过严格的模式验证确保数据一致性与分类准确性,形成包含一万条埃及阿拉伯语工单的标准化集合。
特点
本数据集的核心特征体现在其语言与结构的专门化设计上。所有工单均使用埃及阿拉伯方言撰写,并自然混入英语技术术语,真实模拟了埃及工作场所的技术沟通语境。数据集配备了精细的三层级ITSM分类体系,包含48个叶节点类别,为意图识别与工单路由提供了结构化标签。此外,每条记录均附有业务影响、紧急度、优先级及情感倾向等多维度元数据,并保留了原始的提交渠道与时间戳信息,为多角度分析提供了丰富维度。
使用方法
研究者可直接从GitHub或Hugging Face平台以CSV或JSONL格式加载该数据集,用于阿拉伯语自然语言处理任务,如多级文本分类、意图识别模型训练。使用前建议进行必要的文本规范化处理,并依据分析需求检查类别的分布平衡性。配套的探索性笔记本提供了数据概览、统计分析与交叉验证的范例。用户亦可参考提供的生成脚本与提示模板,基于现有分类体系扩展或定制生成新的合成数据,以适配特定的研究或应用场景。
背景与挑战
背景概述
在信息技术服务管理领域,阿拉伯语自然语言处理资源长期处于稀缺状态,尤其缺乏高质量、结构化的领域特定数据集。阿拉伯语ITSM数据集应运而生,由开罗大学人工智能与计算学院的Eman Sanad博士团队主导,于近期创建并发布。该数据集旨在填补阿拉伯语,特别是埃及阿拉伯语方言在IT支持工单自动分类与理解研究中的空白。其核心研究问题聚焦于如何利用合成数据生成技术,构建一个涵盖多层次ITSM分类体系的阿拉伯语语料库,以支持意图识别、工单路由及优先级评估等下游任务。该数据集的问世,为阿拉伯语NLP在专业垂直领域的应用提供了关键基础设施,有望推动跨语言IT服务自动化研究的发展。
当前挑战
该数据集致力于解决阿拉伯语IT支持工单自动分类的领域挑战,其核心在于处理埃及阿拉伯语方言与英语技术术语的混合使用、复杂的三级分类体系建模,以及工单中蕴含的情感与业务影响等多维度信息的联合理解。在构建过程中,研究团队面临多重技术挑战:首先,需设计严谨的生成契约与分类法,以确保合成数据的领域真实性与逻辑一致性;其次,自动化生成流程需克服大规模合成数据中的重复问题,并通过后处理脚本进行质量增强与验证;最后,确保数据在方言表达、技术术语、时间戳逻辑及优先级计算等多个维度的程序化验证,构成了数据集构建的完整性挑战。
常用场景
经典使用场景
在阿拉伯语自然语言处理领域,特别是在IT服务管理(ITSM)的文本分类任务中,Arabic ITSM Dataset提供了一个结构化的基准。该数据集包含一万条埃及阿拉伯语IT支持工单,标注了精细的三级分类体系,涵盖了访问、网络、硬件、软件、安全和服务六大领域。研究人员通常利用该数据集训练和评估多类别文本分类模型,尤其是针对阿拉伯语方言的意图识别和工单自动路由系统,以验证模型在混合英语技术术语的埃及阿拉伯语环境下的性能表现。
衍生相关工作
围绕Arabic ITSM Dataset,已衍生出多项探索性研究与实践。例如,研究者利用其三级分类体系开发了层次化文本分类模型,以处理ITSM领域复杂的类别层级结构。另有工作专注于该数据集的低资源特性,探索了基于预训练语言模型的少样本迁移学习策略。此外,结合其情感和优先级标签,一些研究尝试构建端到端的工单自动处理管道,不仅进行分类,还预测解决路径和资源分配,推动了阿拉伯语对话式AI和智能运维(AIOps)方向的发展。
数据集最近研究
最新研究方向
在阿拉伯语自然语言处理领域,针对IT服务管理(ITSM)的专业数据集长期稀缺,阿拉伯语ITSM数据集的推出填补了这一空白。该数据集聚焦于埃及阿拉伯语方言的IT支持工单分类,其前沿研究方向主要围绕大语言模型(LLM)驱动的合成数据生成与验证技术。研究者正探索如何利用此类结构化、多层级标注的合成数据,提升阿拉伯语场景下的意图识别与多分类任务性能,特别是在混合英语技术术语的真实工作场景中。这一进展与全球低资源语言AI应用的热点相呼应,为阿拉伯语地区的自动化服务台、智能客服系统开发提供了关键数据基础,推动了领域适应性模型的研究与实践。
以上内容由遇见数据集搜集并总结生成



