five

MESED|多模态学习数据集|实体识别数据集

收藏
arXiv2023-07-27 更新2024-06-21 收录
多模态学习
实体识别
下载链接:
https://github.com/THUKElab/MESED
下载链接
链接失效反馈
资源简介:
MESED是由清华大学创建的第一个大规模多模态实体集扩展数据集,包含14,489个来自维基百科的实体和434,675对图像-句子。该数据集设计了26个粗粒度和70个细粒度语义类别,用于评估模型在处理复杂实体如负实体、同义实体、多义实体和长尾实体时的表现。MESED旨在通过多模态信息提高实体表示的准确性,解决单一文本模态在实体扩展任务中的局限性,并应用于知识挖掘、网络搜索、分类体系构建和知识图谱等领域。
提供机构:
清华大学
创建时间:
2023-07-27
AI搜集汇总
数据集介绍
main_image_url
构建方式
MESED数据集的构建采用了自上而下的方法,首先收集语义类别及其对应的实体,然后依次收集与实体相关的文本和视觉上下文。具体步骤包括:从维基百科中爬取语义类别和实体,随机抽取维基百科页面中的实体作为负例,并添加多义词和同义词以增加混淆;通过维基百科文章中的超链接收集实体标注的句子;使用Google图像搜索引擎收集与实体或句子相关的图像,并通过图像重排序算法选择最合适的图像。
特点
MESED数据集具有多个显著特点:首先,它是首个用于实体集扩展的多模态数据集,包含大规模的手动校准;其次,数据集设计了26个粗粒度和70个细粒度的语义类别,细粒度类别之间存在语义重叠,增加了扩展任务的难度;此外,数据集包含了多义词、同义词和长尾实体,以测试模型对稀有实体的理解能力。
使用方法
MESED数据集可用于评估和训练多模态实体集扩展模型。研究者可以使用该数据集进行模型训练和验证,通过比较不同模型的性能来优化算法。数据集提供了多种扩展设置,包括基于文本、视觉和多模态的扩展,支持多种模态信息的融合研究。此外,数据集的高质量标注和丰富的语义类别使其成为评估多模态实体理解能力的可靠基准。
背景与挑战
背景概述
MESED数据集由清华大学和鹏城实验室的研究团队于2023年创建,旨在解决多模态实体集扩展(MESE)任务中的复杂实体问题。该数据集是首个大规模多模态实体集扩展数据集,包含14,489个实体和434,675个图像-句子对,经过精细的人工校准。MESED数据集的构建旨在评估模型在处理多模态信息时的性能,并为未来的研究提供基准。其核心研究问题是如何利用多模态信息(如文本和图像)来扩展实体集,特别是处理具有细粒度语义差异、同义词、多义词和长尾实体等复杂情况。MESED数据集的发布对知识发现和自然语言处理领域具有重要影响,为多模态实体理解提供了新的研究方向。
当前挑战
MESED数据集面临的挑战主要包括两个方面:一是解决实体集扩展任务中的复杂实体问题,如细粒度语义差异、同义词、多义词和长尾实体的识别与扩展;二是在数据集构建过程中,如何确保多模态信息的有效性和一致性。具体挑战包括:1)如何从多模态信息中提取互补信息,以增强模型对实体的理解;2)如何处理多模态信息中的噪声和不一致性,确保图像与文本信息的准确对齐;3)如何设计有效的评估指标和基准设置,以全面评估模型在多模态实体扩展任务中的性能。这些挑战不仅推动了多模态实体扩展技术的发展,也为相关领域的研究提供了新的思路和方法。
常用场景
经典使用场景
MESED数据集的经典使用场景在于多模态实体集扩展任务(MESE),其中模型通过整合来自多种模态的信息来表示和扩展实体。该数据集特别适用于处理复杂实体,如具有细粒度语义差异的负实体、同义实体、多义实体和长尾实体。通过利用多模态信息,模型能够提供互补信息,通过共同的视觉属性提供统一的信号,并提供同义实体的鲁棒对齐信号。
解决学术问题
MESED数据集解决了传统单模态实体集扩展方法在处理复杂实体时的局限性,特别是在区分细粒度语义差异、处理同义和多义实体以及理解长尾实体方面。该数据集的引入为多模态实体集扩展任务提供了高质量的基准,推动了相关领域的研究进展,并为未来的研究指明了方向。
衍生相关工作
MESED数据集的发布催生了一系列相关研究工作,特别是在多模态实体理解和扩展领域。例如,基于MESED数据集,研究者提出了强大的多模态模型MultiExpan,并通过多种自监督预训练任务进行训练。此外,该数据集还激发了对生成式预训练模型(如GPT-4)在多模态实体扩展任务中应用的探索,进一步推动了多模态实体理解技术的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

中国行政区划shp数据

   中国行政区划数据是重要的基础地理信息数据,目前不同来源的全国行政区划数据非常多,但能够开放获取的高质量行政区域数据少之又少。基于此,锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础,辅以高德行政区划数据、天地图行政区划数据,参考历年来民政部公布的行政区划为属性基础,具有时间跨度长、属性丰富、国界准确、更新持续等特性。   中国行政区划数据统计截止时间是2023年2月12日,包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图,按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日,我国共有34个省级单位,分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日,我国共有333个地级单位,分别是293个地级市、7个地区、30个自治州和3个盟,其中38个矢量要素未纳入统计(比如直辖市北京等、特别行政区澳门等、省直辖县定安县等)。截止2023年1月1日,我国共有2843个县级单位,分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区,其中9个矢量要素未纳入县级类别统计范畴(比如特别行政区香港、无县级单位的地级市中山市东莞市等)。

CnOpenData 收录