EDU-NER-2025

Name: EDU-NER-2025
Creator: 墨西哥国立自治大学计算机研究所
Published: 2025-04-25 15:50:58
License: 暂无描述

arXiv2025-04-25 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2504.18142v1

下载链接

链接失效反馈

官方服务：

资源简介：

EDU-NER-2025是一个针对乌尔都语教育文本的命名实体识别（NER）数据集，由墨西哥国立自治大学计算机研究所创建。该数据集包含约13万条推文，涵盖与教育领域相关的13个独特实体，如学术角色、课程名称、机构术语等。数据集的创建旨在解决乌尔都语教育领域NER研究中的数据集稀缺问题，并促进对资源匮乏语言中教育文本的探索。

EDU-NER-2025 is a named entity recognition (NER) dataset tailored for Urdu educational texts, developed by the Institute of Computer Science, National Autonomous University of Mexico. This dataset contains approximately 130,000 tweets, covering 13 distinct entities related to the education domain, including academic roles, course names, institutional terminology, and others. The development of this dataset aims to address the scarcity of datasets for NER research in the Urdu educational field, and facilitate the exploration of educational texts in low-resource languages.

提供机构：

墨西哥国立自治大学计算机研究所

创建时间：

2025-04-25

搜集汇总

数据集介绍

构建方式

EDU-NER-2025数据集的构建过程体现了对乌尔都语教育领域文本资源的系统性开发。研究团队通过Twitter API采集了约30万条与教育相关的乌尔都语推文，时间跨度为2023至2024年，确保了数据的时效性。原始数据经过严格的预处理流程，包括特殊字符过滤、大小写统一、分词处理以及停用词去除等标准化操作。为确保标注质量，项目组制定了详细的标注规范，并采用多阶段筛选机制，最终由三位通过严格考核的母语标注者完成人工标注工作。标注过程采用Fleiss' Kappa系数进行一致性检验，达到0.79的显著一致性水平。数据集最终包含13类教育领域特有实体，如课程代码、学术职称等，共标注约66万词汇单元。

使用方法

该数据集支持多层次的研究应用：在模型训练层面，研究者可采用5折交叉验证策略，利用数据集提供的丰富标注信息训练传统机器学习（如随机森林）、深度学习（如BiLSTM）及预训练语言模型（如XLM-RoBERTa）；在特征工程层面，数据集兼容基于特征向量的传统方法（如SVM使用的n-gram特征）和现代嵌入方法（如FastText、GloVe等词嵌入）；在评估验证层面，数据集支持精确度、召回率、F1值等标准NER评估指标，同时其细粒度的实体分类（如区分'LOCATION'与'ORGANIZATION'）可进行更深入的错误分析。特别值得注意的是，实验证明XLM-RoBERTa在该数据集上经微调后达到98%的交叉验证准确率，为后续研究提供了强有力的基线模型。

背景与挑战

背景概述

EDU-NER-2025数据集由Centro de Investigación en Computación, Instituto Politécnico Nacional (CIC-IPN)的研究团队于2023-2024年创建，旨在解决乌尔都语教育领域命名实体识别（NER）的研究空白。作为首个专注于乌尔都语教育文本的标注数据集，它包含13类教育相关实体（如课程名称、学术角色等），数据源自社交媒体平台X（原Twitter）的30万条教育主题推文。该数据集通过精细的人工标注流程（Fleiss' Kappa=0.79）和跨机器学习、深度学习、Transformer模型的系统验证（最佳模型XLM-RoBERTa达到98%准确率），为低资源语言的领域特定NLP研究提供了重要基准。其创新性体现在针对乌尔都语教育文本的形态复杂性（如Nastaliq书写系统、学术术语歧义等）设计了专用标注规范，填补了现有乌尔都语语料库多集中于新闻领域的不足。

当前挑战

该数据集面临双重核心挑战：领域适应性方面，乌尔都语教育文本存在独特的形态复杂性（如学术术语'بیل'可指实验室或实验课）、荣誉称谓干扰（'بحاص رسیفورپ'）以及英语代码混合（'BS-IT مارگورپ'），导致通用NER模型F1值显著下降；构建过程中，标注一致性受阿拉伯字母右书写的Nastaliq脚本分词困难影响，且教育实体边界模糊（需区分'ٹنمٹراپیڈ یرٹسمیک'作为机构名与'یرٹسمیک'作为学科名）。此外，社交媒体文本存在非正式拼写变异（'لصیف vs ہلصیف'）和领域术语缺失（需新建教育专用词典），迫使研究团队开发动态标注规则并通过三阶段标注员筛选流程保障数据质量。

常用场景

经典使用场景

EDU-NER-2025数据集在自然语言处理领域中被广泛用于乌尔都语教育文本的命名实体识别任务。该数据集通过标注教育领域特有的13类实体，如学术角色、课程名称和机构术语等，为研究者提供了丰富的标注数据。特别是在处理乌尔都语这类低资源语言时，该数据集通过其精细的标注和多样的实体类别，显著提升了模型在教育领域的实体识别能力。

解决学术问题

EDU-NER-2025数据集解决了乌尔都语教育文本中命名实体识别的两大核心问题：一是缺乏针对教育领域的标注数据，二是乌尔都语本身的形态复杂性和歧义性。通过提供高质量的标注数据和详细的标注指南，该数据集为研究者提供了可靠的基准，使得模型能够更准确地识别教育领域特有的实体，填补了乌尔都语NER研究的空白。

实际应用

在实际应用中，EDU-NER-2025数据集被用于构建智能教育系统，如自动化的学术内容分类、教育知识图谱构建和学生问答系统。例如，教育机构可以利用该数据集训练的模型，从社交媒体或学术报告中提取关键实体，用于课程推荐或学术资源管理，从而提升教育服务的智能化水平。

数据集最近研究