five

Twitter-2015 and Twitter-2017|社交媒体数据数据集|实体识别数据集

收藏
github2023-12-19 更新2024-05-31 收录
社交媒体数据
实体识别
下载链接:
https://github.com/terence1023/ICL_for_FewMNER
下载链接
链接失效反馈
资源简介:
本数据集包含Twitter-2015和Twitter-2017的原始MNER数据,用于Few-shot Multimodal Named Entity Recognition任务。数据集需要从Google Drive下载并解压到指定文件夹。

本数据集汇聚了Twitter-2015及Twitter-2017的原始多模态命名实体识别(MNER)数据,旨在服务于少样本多模态命名实体识别任务。用户需从谷歌硬盘下载该数据集,并解压至指定目录。
创建时间:
2023-12-19
原始信息汇总

数据集概述

数据集名称

  • Twitter-2015
  • Twitter-2017

数据集来源

  • 原始数据集需从Google Drive下载,链接为Google Drive

数据集处理

  • 使用./process_data/change_dataset_format_twitter2015/2017.ipynb转换原始MNER数据集格式。
  • 使用./obtain_image_caption/image_caption_OFA_twitter2015/2017.py获取图像标题。
  • 使用./split_data_similarity/split_dataset/split_twitter2015/2017.ipynb采样不同数据集($mathcal{D}_ {10}$, $mathcal{D}_ {50}$, 和 $mathcal{D}_ {100}$)。

数据集用途

  • 用于Few-shot Multimodal Named Entity Recognition (FewMNER)任务,旨在通过少量标注示例有效定位和识别文本-图像对中的命名实体。

数据集操作示例

  • 以$mathcal{D}_{50}$和4-shot为例,运行以下命令:

    python twitter2015_50-1_shot-4.py python twitter2017_50-1_shot-4.py

数据集相关文献引用

  • 若使用此项目进行研究,请引用以下论文:

    @inproceedings{cai-etal-2023-context, title = "In-context Learning for Few-shot Multimodal Named Entity Recognition", author = "Cai, Chenran and Wang, Qianlong and Liang, Bin and Qin, Bing and Yang, Min and Wong, Kam-Fai and Xu, Ruifeng", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2023", publisher = "Association for Computational Linguistics", doi = "10.18653/v1/2023.findings-emnlp.196", pages = "2969--2979", }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Twitter-2015 和 Twitter-2017 数据集的构建基于多模态命名实体识别(MNER)任务,旨在通过少量标注样本实现文本与图像对中的命名实体定位与识别。首先,利用图像描述模型将图像转换为文本描述,使大型语言模型能够吸收视觉信息。随后,通过计算文本和图像模态的相似度排名总和,选择最接近的k个样本,形成演示上下文。最后,结合MNER定义和实体类别含义,设计有效的任务演示。
使用方法
使用该数据集时,首先从Google Drive下载原始MNER数据集并解压至指定文件夹。接着,通过预处理脚本对数据进行格式转换和图像描述生成。随后,利用相似度计算模块选择最相关的样本。最后,根据具体需求选择不同的少样本设置(如50样本、4-shot),运行相应的Python脚本进行模型训练和评估。
背景与挑战
背景概述
近年来,随着多模态数据在社交媒体中的广泛应用,多模态命名实体识别(MNER)逐渐成为自然语言处理领域的重要研究方向。Twitter-2015和Twitter-2017数据集由Chenran Cai等人于2023年创建,旨在解决少样本多模态命名实体识别(FewMNER)问题。该数据集的核心研究问题是如何利用少量标注样本来有效定位和识别文本-图像对中的命名实体。通过引入上下文学习(ICL)框架,研究人员提出了一种新的方法,将图像转换为文本描述,并结合文本和图像模态的相似性排名,从而在少样本设置下显著提升了识别性能。这一研究不仅推动了MNER领域的发展,也为实际应用中的实体识别提供了新的解决方案。
当前挑战
尽管Twitter-2015和Twitter-2017数据集在少样本多模态命名实体识别方面取得了显著进展,但仍面临若干挑战。首先,数据集的构建过程中,如何从海量社交媒体数据中筛选出具有代表性的样本,确保数据集的多样性和覆盖面,是一个复杂的问题。其次,图像到文本的转换过程中,如何保持信息的完整性和准确性,避免信息丢失或误解,是技术上的一个难点。此外,在少样本学习场景下,如何有效选择和利用有限的标注样本,设计合理的任务演示,以提升模型的泛化能力和识别精度,也是当前研究的重点和难点。
常用场景
经典使用场景
在自然语言处理领域,Twitter-2015和Twitter-2017数据集被广泛应用于少样本多模态命名实体识别(FewMNER)任务中。该数据集通过结合文本和图像信息,帮助模型在仅有少量标注样本的情况下,有效定位和识别命名实体。具体应用包括使用图像描述模型将图像转换为文本描述,从而使大型语言模型能够吸收视觉信息,并通过选择相似度最高的示例来构建上下文,最终实现高效的命名实体识别。
解决学术问题
Twitter-2015和Twitter-2017数据集解决了在实际应用中难以预先枚举所有实体类别的问题。通过引入少样本学习(Few-shot Learning)和上下文学习(In-context Learning),该数据集使得模型能够在有限标注数据的情况下,仍能准确识别和定位多模态命名实体。这一研究不仅提升了多模态命名实体识别的性能,还为少样本学习在自然语言处理中的应用提供了新的思路和方法。
实际应用
在实际应用中,Twitter-2015和Twitter-2017数据集可用于社交媒体内容的自动化分析和监控。例如,通过识别和分类社交媒体平台上的命名实体,可以帮助企业进行品牌监控、舆情分析和市场调研。此外,该数据集还可应用于新闻事件的实时追踪和分析,通过结合文本和图像信息,提高事件识别的准确性和效率。
数据集最近研究
最新研究方向
在多模态命名实体识别(MNER)领域,Twitter-2015和Twitter-2017数据集的最新研究方向聚焦于少样本学习(Few-shot Learning)。这一研究方向的兴起源于现实场景中无法预先枚举所有实体类别的挑战。研究者们通过引入上下文学习(In-context Learning)策略,提出了一种新颖的框架来处理少样本多模态命名实体识别(FewMNER)任务。该框架通过将视觉模态转换为文本描述,选择有用的示例,并设计有效的任务演示,显著提升了在少样本设置下的识别性能。这一研究不仅推动了MNER技术的前沿发展,也为多模态数据处理提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Open Power System Data

Open Power System Data is a free-of-charge data platform dedicated to electricity system researchers. We collect, check, process, document, and publish data that are publicly available but currently inconvenient to use. The project is a service provider to the modeling community: a supplier of a public good. Learn more about its background or just go ahead and explore the data platform.

re3data.org 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录