five

MNRE|多模态分析数据集|神经关系抽取数据集

收藏
github2021-11-23 更新2024-05-31 收录
多模态分析
神经关系抽取
下载链接:
https://github.com/thecharm/MNRE
下载链接
链接失效反馈
资源简介:
MNRE是一个挑战性的多模态数据集,用于在社交媒体帖子中使用视觉证据进行神经关系抽取。该数据集要求理解视觉和语言,旨在推动多模态对齐向更高语义水平的发展。

MNRE is a challenging multimodal dataset designed for neural relation extraction using visual evidence in social media posts. This dataset necessitates an understanding of both visual and linguistic elements, aiming to advance multimodal alignment towards higher semantic levels.
创建时间:
2021-04-04
原始信息汇总

MNRE数据集概述

数据集版本

  • MNRE-2: 2021年6月22日发布的精简版本,合并了几个模糊的类别,并增加了更多支持样本。原版本已移至Version-1

数据集目标

  • 提出新任务:多模态神经关系抽取。
  • 提供数据集MNRE,用于模型评估。

数据统计

与先前NRE数据集的比较

数据集 # 图像 # 单词 # 句子 # 实体 # 关系 # 实例
SemEval-2010 Task 8 - 205k 10,717 21,434 9 8,853
ACE 2003-2004 - 297k 12,783 46,108 24 16,771
TACRED - 1,823k 53,791 152,527 41 21,773
FewRel - 1,397k 56,109 72,124 100 70,000
MNRE 9,201 258k 9,201 30,970 23 15,485

类别分布

  • 根据实体类型标记关系类型,例如人与人之间的关系可分类为“校友”、“夫妻”和“亲属”等。

数据收集

  • 原始语料来自三个来源:Twitter15、Twitter17和Twitter爬取数据。
  • 使用预训练的NER标记工具elmo提取实体及其类型。

数据使用

  • 文本关系处理结果位于./mnre_txt/
  • 图像数据可从此处下载。
  • 每行数据包含:文本、头部实体及其位置、尾部实体及其位置、图像ID、关系及实体类别。

案例研究

  • 展示了视觉信息在关系抽取中的有效性,包括物体及其属性的识别,以及人与人或人与物体之间的交互。
AI搜集汇总
数据集介绍
main_image_url
构建方式
MNRE数据集的构建过程体现了多模态数据融合的前沿理念。该数据集主要来源于两个公开的多模态命名实体识别数据集——Twitter15和Twitter17,以及从Twitter平台爬取的数据。通过使用预训练的NER标注工具elmo,研究团队从文本中提取了实体及其类型,并结合图像数据构建了多模态关系抽取任务。数据集经过精心设计,包含了9,201张图像和15,484个样本,涵盖了23种关系类别,并划分为训练集、开发集和测试集,以支持模型的全面评估。
使用方法
MNRE数据集的使用方法简洁而高效。文本关系数据存储在`./mnre_txt/`目录中,图像数据可通过提供的链接下载。每个句子根据关系数量被拆分为多个实例,每行数据包含分词后的文本、头尾实体及其位置、图像ID以及关系类别。研究人员可通过加载这些数据,结合图像信息,训练和评估多模态关系抽取模型。数据集的分割方式(训练集12,247个样本,开发集1,624个样本,测试集1,614个样本)为模型的开发与验证提供了清晰的框架。
背景与挑战
背景概述
MNRE数据集由Changmeng Zheng等人于2021年提出,旨在推动多模态神经关系抽取领域的研究。该数据集首次发布于ICME 2021会议,并迅速成为社交媒体中多模态关系抽取任务的重要基准。MNRE数据集的核心研究问题在于如何通过结合视觉和文本信息,准确识别社交媒体帖子中实体之间的关系。相较于传统的关系抽取任务,MNRE引入了视觉证据,使得模型能够更好地理解复杂的语义关系。该数据集包含9,201张图像和15,485个样本,覆盖23种关系类别,为多模态对齐和语义理解提供了丰富的实验数据。
当前挑战
MNRE数据集在解决多模态关系抽取问题时面临多重挑战。首先,社交媒体中的文本和图像信息往往具有高度的噪声和模糊性,如何有效融合这两种模态以提升关系抽取的准确性是一个关键难题。其次,数据集中存在大量实体对,其关系可能依赖于复杂的视觉线索,这对模型的视觉理解能力提出了更高要求。此外,数据集的构建过程中,研究人员需要从社交媒体平台爬取大量数据,并进行精细的标注和清洗,以确保数据的质量和一致性。这些挑战不仅推动了多模态关系抽取技术的发展,也为未来的研究提供了新的方向。
常用场景
经典使用场景
MNRE数据集在社交媒体帖子的多模态关系抽取任务中展现了其独特的价值。通过结合视觉和文本信息,该数据集为研究者提供了一个挑战性的平台,用于开发和评估能够同时理解图像和文本内容的模型。这种多模态方法不仅提高了关系抽取的准确性,还增强了模型对复杂语义的理解能力。
解决学术问题
MNRE数据集解决了传统关系抽取方法在处理多模态数据时的局限性。传统方法主要依赖文本信息,往往忽略了图像中蕴含的丰富语义信息。MNRE通过引入视觉证据,使得模型能够更准确地识别实体间的关系,特别是在文本信息不充分或存在歧义的情况下。这一突破推动了多模态对齐技术的发展,为更高层次的语义理解奠定了基础。
实际应用
在实际应用中,MNRE数据集被广泛用于社交媒体分析、信息检索和知识图谱构建等领域。例如,在社交媒体平台上,通过分析用户发布的图文内容,可以更准确地识别出人物之间的关系,从而为用户提供更个性化的推荐服务。此外,该数据集还可用于构建更精确的知识图谱,提升智能问答系统的性能。
数据集最近研究
最新研究方向
近年来,随着多模态学习在自然语言处理领域的快速发展,MNRE数据集作为多模态神经关系抽取任务的重要资源,逐渐成为研究热点。该数据集通过结合视觉和文本信息,挑战了传统关系抽取模型的局限性,推动了多模态对齐技术向更高语义层次的迈进。当前的研究方向主要集中在如何有效融合视觉和文本特征,以提升关系抽取的准确性。特别是在社交媒体数据中,视觉信息往往能够提供关键的上下文线索,帮助模型更准确地识别实体之间的关系。例如,通过分析图像中的视觉对象及其属性,模型能够更好地理解实体之间的复杂关系,如“校友”或“毕业院校”等。此外,MNRE-2版本的推出进一步优化了数据集的类别划分,增加了样本支持,为研究者提供了更为丰富和精确的实验数据。这些进展不仅推动了多模态关系抽取技术的发展,也为社交媒体分析、信息检索等应用领域提供了新的研究思路。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录