arabic-itsm-dataset

Hugging Face2026-03-02 更新2026-03-03 收录

下载链接：

https://huggingface.co/datasets/albaz2000/arabic-itsm-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

阿拉伯语ITSM数据集是一个包含10,000条阿拉伯语IT支持工单的合成数据集，采用埃及阿拉伯方言编写，并标注了结构化的3级ITSM分类体系。数据集涵盖了完整的帮助台场景，包括访问问题、网络故障、硬件错误、软件问题、安全事件和服务请求等。技术词汇中混合了英语术语，真实反映了埃及工作场所的通信特点。数据集包含18个字段，包括工单ID、创建/更新时间戳、提交渠道、生成模型、方言类型、阿拉伯语标题和描述正文、3级分类路径（6个一级类、16个二级类、48个三级类）、关键词标签、结构化标签对象、业务影响评分（1-5）、解决紧急度评分（1-5）、计算优先级（1-5）和情感分类（积极/中性/消极/混合）。数据采用LLM生成，并通过自动化流程进行质量检查、去重和验证。数据以CSV（约6.5MB）和JSONL（约9MB）格式提供，适用于阿拉伯语文本分类、意图识别和IT服务管理领域的自然语言处理任务。数据集包含少量重复记录（约4.5%），建议在使用前进行去重处理。

创建时间：

2026-02-21

原始信息汇总

Arabic ITSM 数据集概述

数据集基本信息

数据集名称: Arabic ITSM Dataset
语言: 阿拉伯语 (ar)
许可证: MIT
任务类别: 文本分类
任务ID: 多类分类、意图分类
标签: 阿拉伯语、ITSM、合成数据、埃及阿拉伯语、服务台、工单分类
数据规模: 10K < n < 100K
记录数量: 10,000 条

数据集内容

数据描述: 一个包含 10,000 条阿拉伯语 IT 支持工单的合成数据集，标注有结构化的 3 级 ITSM 分类法，使用大语言模型生成，并在发布前进行了程序化验证。
语言特征: 工单使用埃及阿拉伯语书写，涵盖完整的服务台场景，混合了阿拉伯语技术词汇和英语术语。
数据格式: CSV (约 6.5 MB) 和 JSONL (约 9 MB)。
数据文件:
- CSV 文件: https://raw.githubusercontent.com/bazokhan/arabic-itsm-dataset/master/dataset_clean.csv
- JSONL 文件: https://raw.githubusercontent.com/bazokhan/arabic-itsm-dataset/master/dataset_clean.jsonl

数据模式 (Schema)

字段	类型	描述
`ticket_id`	字符串	唯一ID，格式为 `TCKT-NNN-NNN`
`created_at`	ISO 8601	带时区的工单创建时间戳
`updated_at`	ISO 8601	最后更新时间戳 (≥ `created_at`)
`channel`	字符串	提交渠道: `email`、`portal`、`chatbot`、`phone`
`model`	字符串	生成工单的LLM模型
`dialect`	字符串	阿拉伯语方言 (例如 `Egyptian`)
`title_ar`	字符串	简短的阿拉伯语标题
`description_ar`	字符串	完整的阿拉伯语描述正文
`category_level_1`	字符串	顶级类别 (6个类)
`category_level_2`	字符串	子类别 (16个类)
`category_level_3`	字符串	叶类别 (48个类)
`category_path`	字符串	复合路径 `"L1 > L2 > L3"`
`tags`	JSON 数组	2–6 个关键词标签
`labels_json`	JSON 对象	结构化标签对象 `{l1, l2, l3, tags}`
`impact`	整数 1–5	业务影响评分
`urgency`	整数 1–5	解决紧急性评分
`priority`	整数 1–5	计算得出: `round((impact + urgency) / 2)`，限制在1–5
`sentiment`	字符串	`positive`、`neutral`、`negative`、`mixed`

分类法 (Taxonomy)

采用 3 级层次结构: 6 个顶级类别 → 16 个子类别 → 48 个叶类别。

L1 (顶级)	L2 (子类)	L3 (叶类)
Access	Account	Password Reset, Account Locked, Profile Update
Access	Permissions	Role Request, Permission Denied, Admin Access
Access	MFA/SSO	MFA Failure, SSO Login Issue, Authenticator Issue
Network	WiFi	Connectivity, Authentication, Slow Speed
Network	VPN	Connection Failure, Credentials, Split Tunnel
Network	Internet/LAN	No Internet, DNS, Latency
Hardware	Laptop/Desktop	Boot Issue, Performance, Battery
Hardware	Printer/Scanner	Print Failure, Driver, Paper Jam
Hardware	Peripherals	Keyboard/Mouse, Monitor, Docking Station
Software	Email/Calendar	Outlook Issue, Mailbox Access, Sync Problem
Software	Office Apps	Word/Excel, License, Crash
Software	Business App	Bug, Feature Request, Integration
Security	Malware/Phishing	Phishing Email, Suspicious Link, Virus Alert
Security	Policy/Compliance	Blocked Site, Device Encryption, Data Access
Service	Request	New Device, New Account, Software Install
Service	Incident	Outage, Degradation, Intermittent

完整分类法文件: https://github.com/bazokhan/arabic-itsm-dataset/blob/master/taxonomy_itsm_v1.json

构建方法

设计分类法: 手工制作了反映真实 IT 服务台类别的 3 级 ITSM 层次结构。
编写生成合约: 定义了完整的数据模式、优先级公式、目标方言、类别约束和真实性要求。
在托管 VPS 上自动生成: 使用自托管的智能体框架和自有模型，通过自动化管道生成工单、进行质量检查、去重、丰富简短描述并根据分类法进行验证。
最终验证与合并: 对生成的数据部分进行最终模式验证，通过的行写入 dataset_clean.*，失败的行写入 dataset_rejected.jsonl。

探索与分析

探索笔记本: https://github.com/bazokhan/arabic-itsm-dataset/blob/master/notebooks/inspect_data.ipynb
分析内容: 涵盖所有 3 个分类级别的类别分布、类别平衡分析、情感/渠道/方言细分、文本长度统计、标签频率、重复和缺失值检查以及交叉表分析。

重要说明

未应用文本预处理: 数据集包含生成的原始阿拉伯语文本。
优先级计算: priority 由验证器强制执行: round((impact + urgency) / 2) 并限制在 1–5。
残留重复项: 发布的数据集中存在 451 对完全相同的 (title_ar, description_ar) 重复项（约占总行数的 4.5%）。建议在预处理时应用去重操作。

许可证与贡献者

许可证: MIT
主要贡献者:
- Assistant Professor Dr. Eman Sanad: 项目监督并提供原始想法和研究方向。
- @DrEmadAgha: 构建并运行了自动生成管道。
- Mohamed A. Elbaz (@bazokhan): 设计了分类法，编写了生成和修复提示，运行了最终验证并发布了数据集。

搜集汇总

数据集介绍

构建方式

在信息技术服务管理领域，阿拉伯语支持工单数据集的构建面临真实语料稀缺的挑战。该数据集采用合成生成策略，首先精心设计了一个三层级分类体系，涵盖六大核心类别及其细分场景。通过制定详尽的生成协议，明确工单结构、方言规范与真实性要求，利用自托管的大语言模型代理框架进行自动化批量生成。生成过程中融入了程序化质量检查、去重处理与内容增强机制，最终通过严格的模式验证确保数据一致性与分类准确性，形成包含一万条埃及阿拉伯语工单的标准化集合。

特点

本数据集的核心特征体现在其语言与结构的专门化设计上。所有工单均使用埃及阿拉伯方言撰写，并自然混入英语技术术语，真实模拟了埃及工作场所的技术沟通语境。数据集配备了精细的三层级ITSM分类体系，包含48个叶节点类别，为意图识别与工单路由提供了结构化标签。此外，每条记录均附有业务影响、紧急度、优先级及情感倾向等多维度元数据，并保留了原始的提交渠道与时间戳信息，为多角度分析提供了丰富维度。

使用方法

研究者可直接从GitHub或Hugging Face平台以CSV或JSONL格式加载该数据集，用于阿拉伯语自然语言处理任务，如多级文本分类、意图识别模型训练。使用前建议进行必要的文本规范化处理，并依据分析需求检查类别的分布平衡性。配套的探索性笔记本提供了数据概览、统计分析与交叉验证的范例。用户亦可参考提供的生成脚本与提示模板，基于现有分类体系扩展或定制生成新的合成数据，以适配特定的研究或应用场景。

背景与挑战

背景概述

在信息技术服务管理领域，阿拉伯语自然语言处理资源长期处于稀缺状态，尤其缺乏高质量、结构化的领域特定数据集。阿拉伯语ITSM数据集应运而生，由开罗大学人工智能与计算学院的Eman Sanad博士团队主导，于近期创建并发布。该数据集旨在填补阿拉伯语，特别是埃及阿拉伯语方言在IT支持工单自动分类与理解研究中的空白。其核心研究问题聚焦于如何利用合成数据生成技术，构建一个涵盖多层次ITSM分类体系的阿拉伯语语料库，以支持意图识别、工单路由及优先级评估等下游任务。该数据集的问世，为阿拉伯语NLP在专业垂直领域的应用提供了关键基础设施，有望推动跨语言IT服务自动化研究的发展。

当前挑战

该数据集致力于解决阿拉伯语IT支持工单自动分类的领域挑战，其核心在于处理埃及阿拉伯语方言与英语技术术语的混合使用、复杂的三级分类体系建模，以及工单中蕴含的情感与业务影响等多维度信息的联合理解。在构建过程中，研究团队面临多重技术挑战：首先，需设计严谨的生成契约与分类法，以确保合成数据的领域真实性与逻辑一致性；其次，自动化生成流程需克服大规模合成数据中的重复问题，并通过后处理脚本进行质量增强与验证；最后，确保数据在方言表达、技术术语、时间戳逻辑及优先级计算等多个维度的程序化验证，构成了数据集构建的完整性挑战。

常用场景

经典使用场景

在阿拉伯语自然语言处理领域，特别是在IT服务管理（ITSM）的文本分类任务中，Arabic ITSM Dataset提供了一个结构化的基准。该数据集包含一万条埃及阿拉伯语IT支持工单，标注了精细的三级分类体系，涵盖了访问、网络、硬件、软件、安全和服务六大领域。研究人员通常利用该数据集训练和评估多类别文本分类模型，尤其是针对阿拉伯语方言的意图识别和工单自动路由系统，以验证模型在混合英语技术术语的埃及阿拉伯语环境下的性能表现。

衍生相关工作

围绕Arabic ITSM Dataset，已衍生出多项探索性研究与实践。例如，研究者利用其三级分类体系开发了层次化文本分类模型，以处理ITSM领域复杂的类别层级结构。另有工作专注于该数据集的低资源特性，探索了基于预训练语言模型的少样本迁移学习策略。此外，结合其情感和优先级标签，一些研究尝试构建端到端的工单自动处理管道，不仅进行分类，还预测解决路径和资源分配，推动了阿拉伯语对话式AI和智能运维（AIOps）方向的发展。

数据集最近研究