FiNERweb

github2025-12-17 更新2025-12-19 收录

下载链接：

https://github.com/whoisjones/FiNERweb

下载链接

链接失效反馈

官方服务：

资源简介：

一个多语言NER数据集，涵盖91种语言和25种文字。

A multilingual Named Entity Recognition (NER) dataset covering 91 languages and 25 writing systems.

创建时间：

2025-12-16

原始信息汇总

FiNERweb 数据集概述

数据集基本信息

数据集名称：FiNERweb
核心描述：一个多语言命名实体识别（NER）数据集，覆盖91种语言和25种文字。
相关论文：https://arxiv.org/abs/2512.13884

数据集获取与加载

主要托管平台：所有材料托管于 Hugging Face Hub（https://huggingface.co/collections/whoisjones/finerweb）。
项目代码仓库：https://github.com/whoisjones/FiNERweb-code
加载方式：
- 使用 datasets 库的 load_dataset 函数。
- 示例：finerweb = load_dataset(whoisjones/finerweb) 或按语言加载，如 finerweb_de = load_dataset(whoisjones/finerweb, split=deu)。

可用数据集版本

FiNERweb：https://huggingface.co/datasets/whoisjones/fiNERweb
FiNERweb-x：https://huggingface.co/datasets/whoisjones/fiNERweb-x（包含翻译标签的版本）

回归模型

模型托管于 Hugging Face，用于分类任务，主要包括基于 XLM-R 和 mDeBERTa 架构的二元分类和多标签分类器。

XLM-R 模型：
- 二元分类器（4o-mini）：https://huggingface.co/whoisjones/finerweb-binary-classifier-xlmr-4o
- 多标签分类器（4o-mini）：https://huggingface.co/whoisjones/finerweb-multilabel-classifier-xlmr-4o
- 二元分类器（Gemma3-27B）：https://huggingface.co/whoisjones/finerweb-binary-classifier-xlmr-gemma3
- 多标签分类器（Gemma3-27B）：https://huggingface.co/whoisjones/finerweb-multilabel-classifier-mdeberta-gemma3
mDeBERTa 模型：
- 二元分类器（4o-mini）：https://huggingface.co/whoisjones/finerweb-binary-classifier-mdeberta-4o
- 多标签分类器（4o-mini）：https://huggingface.co/whoisjones/finerweb-multilabel-classifier-mdeberta-4o
- 二元分类器（Gemma3-27B）：https://huggingface.co/whoisjones/finerweb-binary-classifier-mdeberta-gemma3
- 多标签分类器（Gemma3-27B）：https://huggingface.co/whoisjones/finerweb-multilabel-classifier-xlmr-gemma3

原始标注材料

这些是原始标注数据，建议优先使用上述处理好的数据集。

FiNERweb-gemma：https://huggingface.co/datasets/whoisjones/fiNERweb-gemma
FiNERweb-4o：https://huggingface.co/datasets/whoisjones/fiNERweb-4o
FiNERweb-multi：https://huggingface.co/datasets/whoisjones/fiNERweb-multi（多标签版本）

引用信息

如需引用，请参考以下 BibTeX 条目： bibtex @misc{golde2025finerwebdatasetsartifactsscalable, title={FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition}, author={Jonas Golde and Patrick Haller and Alan Akbik}, year={2025}, eprint={2512.13884}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2512.13884}, }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，多语言命名实体识别（NER）的进展依赖于高质量、大规模的数据资源。FiNERweb数据集的构建采用了前沿的大语言模型辅助标注策略，通过集成Gemma3-27B与GPT-4o-mini等先进模型，对覆盖91种语言和25种文字体系的网络文本进行自动化实体标注。这一过程不仅确保了标注的广泛覆盖性，还通过多模型协同与人工校验机制提升了标注的准确性与一致性，从而为多语言NER研究奠定了坚实的数据基础。

使用方法

为便于学术研究与工程应用，FiNERweb数据集已托管于Hugging Face平台。用户可通过`datasets`库直接加载完整数据集或指定语言子集，例如加载德语分片只需调用`load_dataset`函数并指定`split='deu'`参数。同时，数据集提供了预训练的回归模型，用户可利用`transformers`库加载模型与分词器，对任意文本进行命名实体识别质量的评估。这种即插即用的访问方式显著降低了多语言NER实验的门槛，促进了相关技术的快速迭代与部署。

背景与挑战

背景概述

FiNERweb数据集由Jonas Golde、Patrick Haller和Alan Akbik等研究人员于2025年构建，旨在应对自然语言处理领域中多语言命名实体识别（NER）的迫切需求。该数据集覆盖91种语言和25种文字体系，其核心研究问题聚焦于如何在大规模、多语言环境下实现高效且统一的实体识别，从而推动跨语言信息抽取和知识图谱构建的发展。FiNERweb的发布显著提升了低资源语言NER模型的性能，为全球化语境下的语义理解提供了坚实的数据基础。

当前挑战

多语言命名实体识别面临语言多样性带来的标注一致性与实体边界模糊等固有难题，低资源语言缺乏高质量标注数据进一步加剧了模型泛化的困难。在构建过程中，研究人员需协调91种语言的文本收集与标注，确保跨语言实体类别的对齐与标准化，同时处理不同文字体系带来的字符编码和分词差异。这些挑战要求数据集在规模与质量之间取得平衡，以实现真正的可扩展性与实用性。

常用场景

经典使用场景

在自然语言处理领域，多语言命名实体识别（NER）是跨语言信息抽取的核心任务。FiNERweb数据集以其覆盖91种语言和25种文字体系的规模，成为评估和训练多语言NER模型的基准资源。研究者通常利用该数据集对预训练语言模型进行微调，以验证模型在低资源语言上的泛化能力，特别是在处理非拉丁文字和复杂语言结构时，数据集提供的丰富标注为模型性能的全面评估奠定了坚实基础。

解决学术问题

传统多语言NER研究常受限于标注数据稀缺，尤其是对低资源语言的支持不足。FiNERweb通过大规模多语言标注，有效缓解了数据匮乏问题，使学者能够系统探究跨语言迁移学习、领域适应及模型鲁棒性等关键议题。该数据集推动了多语言表示学习的发展，为构建更具包容性的自然语言处理系统提供了实证基础，显著提升了学术社区对语言多样性处理的理解。

实际应用

在实际应用中，FiNERweb支持构建全球化的信息提取系统，例如跨国企业的舆情监控、多语言新闻聚合及跨文化社交媒体分析。其广泛的语言覆盖能力使得商业智能平台能够从不同语种的文档中自动识别公司、产品及人物等实体，辅助决策制定。此外，该数据集还可用于开发适应性更强的机器翻译辅助工具，通过实体识别提升翻译的准确性和上下文一致性。

数据集最近研究