MNRE
收藏github2021-11-23 更新2024-05-31 收录
下载链接:
https://github.com/thecharm/MNRE
下载链接
链接失效反馈官方服务:
资源简介:
MNRE是一个挑战性的多模态数据集,用于在社交媒体帖子中使用视觉证据进行神经关系抽取。该数据集要求理解视觉和语言,旨在推动多模态对齐向更高语义水平的发展。
MNRE is a challenging multimodal dataset designed for neural relation extraction using visual evidence in social media posts. This dataset necessitates an understanding of both visual and linguistic elements, aiming to advance multimodal alignment towards higher semantic levels.
创建时间:
2021-04-04
原始信息汇总
MNRE数据集概述
数据集版本
- MNRE-2: 2021年6月22日发布的精简版本,合并了几个模糊的类别,并增加了更多支持样本。原版本已移至Version-1。
数据集目标
- 提出新任务:多模态神经关系抽取。
- 提供数据集MNRE,用于模型评估。
数据统计
与先前NRE数据集的比较
| 数据集 | # 图像 | # 单词 | # 句子 | # 实体 | # 关系 | # 实例 |
|---|---|---|---|---|---|---|
| SemEval-2010 Task 8 | - | 205k | 10,717 | 21,434 | 9 | 8,853 |
| ACE 2003-2004 | - | 297k | 12,783 | 46,108 | 24 | 16,771 |
| TACRED | - | 1,823k | 53,791 | 152,527 | 41 | 21,773 |
| FewRel | - | 1,397k | 56,109 | 72,124 | 100 | 70,000 |
| MNRE | 9,201 | 258k | 9,201 | 30,970 | 23 | 15,485 |
类别分布
- 根据实体类型标记关系类型,例如人与人之间的关系可分类为“校友”、“夫妻”和“亲属”等。
数据收集
- 原始语料来自三个来源:Twitter15、Twitter17和Twitter爬取数据。
- 使用预训练的NER标记工具elmo提取实体及其类型。
数据使用
- 文本关系处理结果位于
./mnre_txt/。 - 图像数据可从此处下载。
- 每行数据包含:文本、头部实体及其位置、尾部实体及其位置、图像ID、关系及实体类别。
案例研究
- 展示了视觉信息在关系抽取中的有效性,包括物体及其属性的识别,以及人与人或人与物体之间的交互。
搜集汇总
数据集介绍

构建方式
MNRE数据集的构建过程体现了多模态数据融合的前沿理念。该数据集主要来源于两个公开的多模态命名实体识别数据集——Twitter15和Twitter17,以及从Twitter平台爬取的数据。通过使用预训练的NER标注工具elmo,研究团队从文本中提取了实体及其类型,并结合图像数据构建了多模态关系抽取任务。数据集经过精心设计,包含了9,201张图像和15,484个样本,涵盖了23种关系类别,并划分为训练集、开发集和测试集,以支持模型的全面评估。
使用方法
MNRE数据集的使用方法简洁而高效。文本关系数据存储在`./mnre_txt/`目录中,图像数据可通过提供的链接下载。每个句子根据关系数量被拆分为多个实例,每行数据包含分词后的文本、头尾实体及其位置、图像ID以及关系类别。研究人员可通过加载这些数据,结合图像信息,训练和评估多模态关系抽取模型。数据集的分割方式(训练集12,247个样本,开发集1,624个样本,测试集1,614个样本)为模型的开发与验证提供了清晰的框架。
背景与挑战
背景概述
MNRE数据集由Changmeng Zheng等人于2021年提出,旨在推动多模态神经关系抽取领域的研究。该数据集首次发布于ICME 2021会议,并迅速成为社交媒体中多模态关系抽取任务的重要基准。MNRE数据集的核心研究问题在于如何通过结合视觉和文本信息,准确识别社交媒体帖子中实体之间的关系。相较于传统的关系抽取任务,MNRE引入了视觉证据,使得模型能够更好地理解复杂的语义关系。该数据集包含9,201张图像和15,485个样本,覆盖23种关系类别,为多模态对齐和语义理解提供了丰富的实验数据。
当前挑战
MNRE数据集在解决多模态关系抽取问题时面临多重挑战。首先,社交媒体中的文本和图像信息往往具有高度的噪声和模糊性,如何有效融合这两种模态以提升关系抽取的准确性是一个关键难题。其次,数据集中存在大量实体对,其关系可能依赖于复杂的视觉线索,这对模型的视觉理解能力提出了更高要求。此外,数据集的构建过程中,研究人员需要从社交媒体平台爬取大量数据,并进行精细的标注和清洗,以确保数据的质量和一致性。这些挑战不仅推动了多模态关系抽取技术的发展,也为未来的研究提供了新的方向。
常用场景
经典使用场景
MNRE数据集在社交媒体帖子的多模态关系抽取任务中展现了其独特的价值。通过结合视觉和文本信息,该数据集为研究者提供了一个挑战性的平台,用于开发和评估能够同时理解图像和文本内容的模型。这种多模态方法不仅提高了关系抽取的准确性,还增强了模型对复杂语义的理解能力。
解决学术问题
MNRE数据集解决了传统关系抽取方法在处理多模态数据时的局限性。传统方法主要依赖文本信息,往往忽略了图像中蕴含的丰富语义信息。MNRE通过引入视觉证据,使得模型能够更准确地识别实体间的关系,特别是在文本信息不充分或存在歧义的情况下。这一突破推动了多模态对齐技术的发展,为更高层次的语义理解奠定了基础。
实际应用
在实际应用中,MNRE数据集被广泛用于社交媒体分析、信息检索和知识图谱构建等领域。例如,在社交媒体平台上,通过分析用户发布的图文内容,可以更准确地识别出人物之间的关系,从而为用户提供更个性化的推荐服务。此外,该数据集还可用于构建更精确的知识图谱,提升智能问答系统的性能。
数据集最近研究
最新研究方向
近年来,随着多模态学习在自然语言处理领域的快速发展,MNRE数据集作为多模态神经关系抽取任务的重要资源,逐渐成为研究热点。该数据集通过结合视觉和文本信息,挑战了传统关系抽取模型的局限性,推动了多模态对齐技术向更高语义层次的迈进。当前的研究方向主要集中在如何有效融合视觉和文本特征,以提升关系抽取的准确性。特别是在社交媒体数据中,视觉信息往往能够提供关键的上下文线索,帮助模型更准确地识别实体之间的关系。例如,通过分析图像中的视觉对象及其属性,模型能够更好地理解实体之间的复杂关系,如“校友”或“毕业院校”等。此外,MNRE-2版本的推出进一步优化了数据集的类别划分,增加了样本支持,为研究者提供了更为丰富和精确的实验数据。这些进展不仅推动了多模态关系抽取技术的发展,也为社交媒体分析、信息检索等应用领域提供了新的研究思路。
以上内容由遇见数据集搜集并总结生成



