Twitter-2015 and Twitter-2017

github2023-12-19 更新2024-05-31 收录

下载链接：

https://github.com/terence1023/ICL_for_FewMNER

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含Twitter-2015和Twitter-2017的原始MNER数据，用于Few-shot Multimodal Named Entity Recognition任务。数据集需要从Google Drive下载并解压到指定文件夹。

本数据集汇聚了Twitter-2015及Twitter-2017的原始多模态命名实体识别（MNER）数据，旨在服务于少样本多模态命名实体识别任务。用户需从谷歌硬盘下载该数据集，并解压至指定目录。

创建时间：

2023-12-19

原始信息汇总

数据集概述

数据集名称

Twitter-2015
Twitter-2017

数据集来源

原始数据集需从Google Drive下载，链接为Google Drive。

数据集处理

使用./process_data/change_dataset_format_twitter2015/2017.ipynb转换原始MNER数据集格式。
使用./obtain_image_caption/image_caption_OFA_twitter2015/2017.py获取图像标题。
使用./split_data_similarity/split_dataset/split_twitter2015/2017.ipynb采样不同数据集（$mathcal{D}_ {10}$, $mathcal{D}_ {50}$, 和 $mathcal{D}_ {100}$）。

数据集用途

用于Few-shot Multimodal Named Entity Recognition (FewMNER)任务，旨在通过少量标注示例有效定位和识别文本-图像对中的命名实体。

数据集操作示例

以$mathcal{D}_{50}$和4-shot为例，运行以下命令：

python twitter2015_50-1_shot-4.py python twitter2017_50-1_shot-4.py

数据集相关文献引用

若使用此项目进行研究，请引用以下论文：

@inproceedings{cai-etal-2023-context, title = "In-context Learning for Few-shot Multimodal Named Entity Recognition", author = "Cai, Chenran and Wang, Qianlong and Liang, Bin and Qin, Bing and Yang, Min and Wong, Kam-Fai and Xu, Ruifeng", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2023", publisher = "Association for Computational Linguistics", doi = "10.18653/v1/2023.findings-emnlp.196", pages = "2969--2979", }

搜集汇总

数据集介绍

构建方式

Twitter-2015 和 Twitter-2017 数据集的构建基于多模态命名实体识别（MNER）任务，旨在通过少量标注样本实现文本与图像对中的命名实体定位与识别。首先，利用图像描述模型将图像转换为文本描述，使大型语言模型能够吸收视觉信息。随后，通过计算文本和图像模态的相似度排名总和，选择最接近的k个样本，形成演示上下文。最后，结合MNER定义和实体类别含义，设计有效的任务演示。

使用方法

使用该数据集时，首先从Google Drive下载原始MNER数据集并解压至指定文件夹。接着，通过预处理脚本对数据进行格式转换和图像描述生成。随后，利用相似度计算模块选择最相关的样本。最后，根据具体需求选择不同的少样本设置（如50样本、4-shot），运行相应的Python脚本进行模型训练和评估。

背景与挑战

背景概述

近年来，随着多模态数据在社交媒体中的广泛应用，多模态命名实体识别（MNER）逐渐成为自然语言处理领域的重要研究方向。Twitter-2015和Twitter-2017数据集由Chenran Cai等人于2023年创建，旨在解决少样本多模态命名实体识别（FewMNER）问题。该数据集的核心研究问题是如何利用少量标注样本来有效定位和识别文本-图像对中的命名实体。通过引入上下文学习（ICL）框架，研究人员提出了一种新的方法，将图像转换为文本描述，并结合文本和图像模态的相似性排名，从而在少样本设置下显著提升了识别性能。这一研究不仅推动了MNER领域的发展，也为实际应用中的实体识别提供了新的解决方案。

当前挑战

尽管Twitter-2015和Twitter-2017数据集在少样本多模态命名实体识别方面取得了显著进展，但仍面临若干挑战。首先，数据集的构建过程中，如何从海量社交媒体数据中筛选出具有代表性的样本，确保数据集的多样性和覆盖面，是一个复杂的问题。其次，图像到文本的转换过程中，如何保持信息的完整性和准确性，避免信息丢失或误解，是技术上的一个难点。此外，在少样本学习场景下，如何有效选择和利用有限的标注样本，设计合理的任务演示，以提升模型的泛化能力和识别精度，也是当前研究的重点和难点。

常用场景

经典使用场景

在自然语言处理领域，Twitter-2015和Twitter-2017数据集被广泛应用于少样本多模态命名实体识别（FewMNER）任务中。该数据集通过结合文本和图像信息，帮助模型在仅有少量标注样本的情况下，有效定位和识别命名实体。具体应用包括使用图像描述模型将图像转换为文本描述，从而使大型语言模型能够吸收视觉信息，并通过选择相似度最高的示例来构建上下文，最终实现高效的命名实体识别。

解决学术问题

Twitter-2015和Twitter-2017数据集解决了在实际应用中难以预先枚举所有实体类别的问题。通过引入少样本学习（Few-shot Learning）和上下文学习（In-context Learning），该数据集使得模型能够在有限标注数据的情况下，仍能准确识别和定位多模态命名实体。这一研究不仅提升了多模态命名实体识别的性能，还为少样本学习在自然语言处理中的应用提供了新的思路和方法。

实际应用

在实际应用中，Twitter-2015和Twitter-2017数据集可用于社交媒体内容的自动化分析和监控。例如，通过识别和分类社交媒体平台上的命名实体，可以帮助企业进行品牌监控、舆情分析和市场调研。此外，该数据集还可应用于新闻事件的实时追踪和分析，通过结合文本和图像信息，提高事件识别的准确性和效率。

数据集最近研究