NewsNER

github2024-09-03 更新2024-09-05 收录

下载链接：

https://github.com/HotCk-ProMax/NewsNER

下载链接

链接失效反馈

官方服务：

资源简介：

NewsNER项目旨在从新闻文章中提取跨领域的多模态命名实体识别数据集，包括爬虫、分类器和BERT实体识别部分。该项目是CMNER的子项目，并包含将数据转换为CMNER输入格式的脚本。

The NewsNER project aims to extract a cross-domain multimodal named entity recognition (NER) dataset from news articles, covering crawlers, classifiers, and BERT-based entity recognition modules. This project is a sub-project of CMNER, and includes scripts for converting data into the input format required by CMNER.

创建时间：

2024-09-02

原始信息汇总

NewsNER 数据集概述

项目简介

NewsNER 是一个从新闻文章中提取跨领域多模态命名实体识别数据集的项目，包含爬虫、分类器和 BERT 实体识别部分。NewsNER 是 CMNER 的子项目，并包含将数据转换为 CMNER 输入格式的脚本。

使用方法

运行 "run.py" 文件以完成任务。用户可以进入每个脚本修改保存路径或更改爬取新闻的数量。在 "run.py" 中指定要运行的脚本。

数据来源

分类器来自 BBC-Dataset-News-Classification。
图像检测来自 onestage_grounding。

数据集规模

理论上，如果有足够的资源和时间，可以获得高质量和大规模的英文跨领域多模态命名实体提取数据集。如果急需 CMNER 数据集，也可以使用该项目快速生成小规模的应急数据集。

搜集汇总

数据集介绍

构建方式

NewsNER数据集的构建基于从新闻文章中提取跨领域多模态命名实体识别数据。该过程涉及多个组件，包括网络爬虫、分类器以及BERT实体识别部分。具体而言，数据集的构建始于通过网络爬虫从新闻源中抓取原始数据，随后利用分类器对这些数据进行预处理和分类。最后，通过BERT模型进行实体识别，确保数据的高质量提取。此外，NewsNER项目还提供了将数据转换为CMNER输入格式的脚本，增强了其通用性和可扩展性。

特点

NewsNER数据集的显著特点在于其跨领域和多模态的特性。该数据集不仅涵盖了广泛的新闻类别，还整合了文本和图像数据，从而提供了丰富的多模态信息。此外，数据集的构建过程中采用了先进的BERT模型进行实体识别，确保了实体提取的准确性和效率。NewsNER还支持快速生成小规模应急数据集，满足特定需求。

使用方法

使用NewsNER数据集时，用户可以通过运行'run.py'脚本来完成任务。在此过程中，用户可以根据需要修改保存路径或调整抓取新闻的数量。通过在'run.py'中指定要运行的脚本，用户可以灵活地控制数据集的生成过程。此外，NewsNER项目还提供了将数据转换为CMNER输入格式的功能，便于用户在不同项目间无缝切换和使用。

背景与挑战

背景概述

NewsNER数据集是由CMNER项目的一个子项目，专注于从新闻文章中提取跨领域的多模态命名实体识别数据。该数据集的创建旨在解决多模态命名实体识别中的复杂问题，特别是在新闻领域的应用。通过整合爬虫、分类器和BERT实体识别部分，NewsNER项目不仅提供了高质量的数据集，还为相关研究提供了有力的工具支持。该项目的主要研究人员和机构通过结合BBC新闻分类数据集和图像检测技术，致力于构建一个大规模、高质量的英语数据集，以推动多模态命名实体识别领域的发展。

当前挑战

尽管NewsNER数据集在多模态命名实体识别领域展现了巨大的潜力，但其构建过程中仍面临诸多挑战。首先，跨领域数据的整合需要克服不同数据源之间的异质性问题，确保数据的一致性和准确性。其次，大规模数据的爬取和处理对计算资源和时间提出了高要求，如何在有限的资源下高效完成数据集的构建是一个重要挑战。此外，多模态数据的融合和实体识别的精确性也是该数据集面临的关键问题，特别是在处理新闻文本和图像等多模态信息时，如何确保实体识别的准确性和可靠性仍需进一步研究和优化。

常用场景

经典使用场景

在新闻领域，NewsNER数据集的经典使用场景主要集中在跨领域多模态命名实体识别任务中。通过整合新闻文章中的文本和图像信息，该数据集能够有效地支持实体识别模型的训练与评估，特别是在处理复杂的多模态数据时，其表现尤为突出。

衍生相关工作

基于NewsNER数据集，研究者们开展了一系列相关工作，包括但不限于多模态实体识别模型的改进、跨领域数据融合策略的研究以及新闻内容自动摘要生成等。这些工作不仅丰富了多模态信息处理的理论体系，也为实际应用提供了强有力的技术支持。

数据集最近研究