CMNER

Name: CMNER
Creator: 教育部航空航天信息安全与可信计算重点实验室
Published: 2024-03-01 15:12:20
License: 暂无描述

arXiv2024-03-01 更新2024-06-21 收录

下载链接：

https://github.com/Jyz99/CMNER

下载链接

链接失效反馈

官方服务：

资源简介：

CMNER是一个基于中国最大社交媒体平台微博构建的中文多模态命名实体识别数据集。该数据集包含5000条微博帖子及18326张相关图片，涉及人物、地点、组织和其他四类实体。数据集通过Python爬虫从微博网站收集，经过筛选和标注，确保数据的质量和适用性。CMNER旨在解决中文多模态命名实体识别领域的数据稀缺问题，通过图像辅助提高文本中实体的识别准确性，适用于自然语言处理和社交媒体分析等领域。

CMNER is a Chinese multimodal named entity recognition dataset built on Weibo, the largest social media platform in China. It contains 5,000 Weibo posts and 18,326 associated images, covering four entity categories: person, location, organization, and others. The dataset was collected from Weibo via Python crawlers, then filtered and annotated to ensure data quality and applicability. CMNER aims to address the data scarcity issue in the field of Chinese multimodal named entity recognition, improve the accuracy of entity recognition in texts with the assistance of images, and is applicable to fields such as natural language processing and social media analysis.

提供机构：

教育部航空航天信息安全与可信计算重点实验室

创建时间：

2024-02-21

搜集汇总

数据集介绍

构建方式

在社交媒体多模态信息处理领域，中文多模态命名实体识别数据集的构建面临显著挑战。CMNER数据集以微博平台为数据源，精心筛选了同时包含文本与图像的帖子，确保内容符合多模态研究需求。数据采集过程采用Python爬虫技术，设定文本长度上限并过滤涉及敏感或隐私的内容。标注工作遵循CoNLL2003标准，运用BIO标注法对人物、地点、组织及杂类四类实体进行人工标注，并通过多标注者协商机制保障标注一致性，最终形成包含5000条微博及18326张图像的高质量数据集。

特点

CMNER数据集在中文多模态命名实体识别研究中展现出独特价值。其核心特征在于真实还原了微博平台“一文本多图像”的社交媒体场景，平均每条文本伴随约3.67张相关图像，为探究视觉信息对实体识别的辅助作用提供了丰富素材。数据覆盖体育、旅游、科技等多个领域，实体分布呈现领域特异性，如体育类以人物实体为主。数据规模包含27044个标注实体，实体类型分布均衡，为模型训练与评估奠定了坚实基础。

使用方法

该数据集适用于多模态命名实体识别任务的模型训练与性能评估。研究者可将文本与对应图像作为联合输入，通过跨模态注意力等机制融合视觉与文本特征，以提升实体检测与分类精度。数据已划分为训练、验证与测试集，便于进行基准实验与模型比较。此外，CMNER支持跨语言研究，可与英文多模态数据集结合，通过翻译与对齐方法探索中英文数据间的相互增强效应，为多语言自然语言处理提供新的实验平台。

背景与挑战

背景概述

在自然语言处理领域，多模态命名实体识别（MNER）作为一项前沿任务，旨在融合文本与图像信息以提升实体识别精度。然而，中文多模态数据集的匮乏长期制约着该方向的发展。为此，武汉大学的研究团队于2024年构建了CMNER数据集，这是首个基于中国社交媒体微博的中文多模态命名实体识别数据集。该数据集包含5000条微博帖子及18326张对应图像，实体标注涵盖人物、地点、组织与杂类四种类别。CMNER的推出不仅填补了中文多模态语料库的空白，还为跨语言NLP研究提供了重要资源，推动了多模态信息处理技术在中文场景下的应用与创新。

当前挑战

CMNER数据集所应对的核心挑战在于解决社交媒体场景下多模态命名实体识别的复杂性。具体而言，其面临的领域问题挑战包括：文本与图像间的语义对齐困难，例如实体在视觉语境中的隐含表征可能导致模型误判；多图像输入带来的信息冗余与噪声干扰，要求模型具备跨模态融合与筛选能力。在构建过程中，挑战主要体现在数据采集与标注环节：微博帖子常包含无关图像或隐私信息，需经过严格过滤与脱敏处理；中文实体边界模糊性与类别歧义性增加了标注一致性难度，需设计精细的标注协议并通过多人协作与讨论确保质量。此外，数据集中实体分布不均衡与跨语言差异也为模型泛化带来考验。

常用场景

经典使用场景

在社交媒体信息处理领域，CMNER数据集为中文多模态命名实体识别研究提供了关键实验平台。该数据集源自微博平台，包含文本与图像的配对信息，其经典应用场景在于评估和开发能够融合视觉与文本特征的多模态实体识别模型。研究者利用CMNER验证图像信息对实体边界判定和类型分类的辅助作用，尤其在处理社交媒体中常见的歧义性表述时，视觉线索能有效提升模型性能。

衍生相关工作

基于CMNER数据集衍生出多模态实体识别的创新方法探索，包括自适应协同注意力网络与统一多模态Transformer等基准模型的改进研究。该数据集还促进了跨语言多模态学习方向的发展，研究者通过中英文数据集的对齐实验验证了跨语言知识迁移的有效性。相关研究进一步拓展到图神经网络融合、提示学习等前沿架构在中文多模态场景下的适应性探索。

数据集最近研究