Twitter2015-Urdu

Name: Twitter2015-Urdu
Creator: 北京化工大学信息科学与技术学院
Published: 2025-05-08 19:38:20
License: 暂无描述

arXiv2025-05-08 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.05148v1

下载链接

链接失效反馈

官方服务：

资源简介：

Twitter2015-Urdu数据集是首个为乌尔都语多模态命名实体识别（MNER）设计的MNER数据集，由Twitter2015英语数据集翻译和标注而成，确保了文本和图像在文化和语言上的相关性。该数据集经过精心设计，以支持严格的实验，并促进乌尔都语MNER研究的进展。该数据集的创建过程包括数据收集、数据预处理、翻译和审查、分词、数据标注以及质量控制与验证等关键步骤。该数据集的发布旨在解决低资源语言如乌尔都语在MNER领域的挑战，并为未来研究提供基准数据集。

The Twitter2015-Urdu dataset is the first multi-modal named entity recognition (MNER) dataset specifically tailored for the Urdu language. Developed through translation and annotation of the English Twitter2015 dataset, it guarantees cultural and linguistic relevance between the textual and visual components. This dataset is meticulously designed to support rigorous experimental research and promote the advancement of Urdu MNER studies. The construction of the dataset involves several key stages: data collection, data preprocessing, translation and review, tokenization, data annotation, as well as quality control and validation. The release of this dataset aims to address the challenges faced by low-resource languages such as Urdu in the MNER field, while providing a benchmark dataset for future research.

提供机构：

北京化工大学信息科学与技术学院

创建时间：

2025-05-08

搜集汇总

数据集介绍

构建方式

Twitter2015-Urdu数据集的构建基于Twitter2015英文数据集，通过多阶段流程实现跨语言迁移。首先对原始英文数据进行预处理，包括去除实体标签、清理特殊字符及标准化文本格式。随后采用Google Translate API进行初步机器翻译，并由乌尔都语母语者进行人工审校，确保语言准确性和文化适应性。针对乌尔都语特有的语法结构（如右向左书写、粘着性特征），使用Urduhack工具进行分词处理，并通过双语专家团队进行实体标注，最终形成包含8,257个文本-图像对的平行语料库。

使用方法

研究者可通过加载标准JSON格式的数据文件快速接入实验流程。文本模态建议使用Urdu-BERT提取上下文表征，视觉模态推荐采用ResNet-152提取图像特征。基准评估需遵循严格的跨模态对齐协议：对于包含视觉消歧实体的样本（如图像中出现的'Denver'对应文本中的'ڈینور'），需同时计算文本单模态与多模态预测结果。官方提供U-MNER框架作为参考实现，包含跨模态注意力融合模块和视觉门控机制，支持PyTorch环境下的端到端训练与评估。

背景与挑战

背景概述

Twitter2015-Urdu数据集由北京化工大学信息科学与技术学院的Hussain Ahmad、Qingyang Zeng和Jing Wan团队于2025年发布，旨在解决乌尔都语多模态命名实体识别（MNER）领域的研究空白。作为首个针对乌尔都语的MNER数据集，其基于广泛使用的Twitter2015英文数据集进行本地化改造，通过乌尔都语特定语法规则标注，并保留原始数据集的图文对齐特性。该数据集的发布填补了低资源语言多模态研究的工具缺口，为乌尔都语NLP社区提供了基准测试基础，推动了社交媒体文本挖掘、跨模态信息融合等方向的发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，乌尔都语缺乏显性大写标记、存在形态粘着性和自由语序等特性，导致传统NER模型准确率下降；同时多模态场景下图文语义错位（如'Denver'文本对应犬类图像）加剧实体消歧难度。在构建过程中，团队需克服乌尔都语复杂脚本的tokenization难题（如连字分离）、文化特定表达的翻译适配（如习语'raining cats and dogs'本地化为'موسلا دھار بارش'），以及社交媒体文本特有的拼写变体（如'صمد'存在'سماد','صماد'等变体），最终通过人工复审与Urduhack工具的结合确保数据质量。

常用场景

经典使用场景

Twitter2015-Urdu数据集作为首个乌尔都语多模态命名实体识别（MNER）基准数据集，其经典使用场景聚焦于社交媒体文本与图像的联合分析。在乌尔都语社交媒体的语境下，该数据集通过融合文本的语法规则与图像的视觉线索，解决了传统单模态方法在实体歧义消解上的局限性。例如，推文“Denver是比赛明星球员”中，文本单独无法确定“Denver”指代人物还是动物，而配套图像通过展示犬只接球的场景，为模型提供了关键的多模态消歧依据。

解决学术问题

该数据集系统性地解决了低资源语言研究中标注数据匮乏和基线标准缺失两大核心问题。通过将英文Twitter2015数据集适配乌尔都语特有的形态复杂性（如黏着语特征、无大写标记）和文化语境，填补了乌尔都语MNER领域的数据空白。其实验基准验证了多模态融合模型相较纯文本模型的显著优势（F1提升9.59%），为后续研究提供了可复现的评估框架。

实际应用

在实际应用中，该数据集支撑的U-MNER框架可有效服务于南亚地区的社交媒体监控系统。例如在巴基斯坦的舆情分析中，模型通过解析乌尔都语推文及其配图，能精准识别政治人物（PER）、敏感地点（LOC）等实体，辅助政府机构进行危机预警。此外，在跨境电子商务场景中，该技术可自动提取乌尔都语商品帖文中的品牌（ORG）和价格（MISC）信息，显著提升多语言商品库的构建效率。

数据集最近研究