five

FiNERweb

收藏
github2025-12-17 更新2025-12-19 收录
下载链接:
https://github.com/whoisjones/FiNERweb
下载链接
链接失效反馈
官方服务:
资源简介:
一个多语言NER数据集,涵盖91种语言和25种文字。

A multilingual Named Entity Recognition (NER) dataset covering 91 languages and 25 writing systems.
创建时间:
2025-12-16
原始信息汇总

FiNERweb 数据集概述

数据集基本信息

  • 数据集名称:FiNERweb
  • 核心描述:一个多语言命名实体识别(NER)数据集,覆盖91种语言和25种文字。
  • 相关论文:https://arxiv.org/abs/2512.13884

数据集获取与加载

  • 主要托管平台:所有材料托管于 Hugging Face Hub(https://huggingface.co/collections/whoisjones/finerweb)。
  • 项目代码仓库:https://github.com/whoisjones/FiNERweb-code
  • 加载方式
    • 使用 datasets 库的 load_dataset 函数。
    • 示例:finerweb = load_dataset(whoisjones/finerweb) 或按语言加载,如 finerweb_de = load_dataset(whoisjones/finerweb, split=deu)

可用数据集版本

  • FiNERweb:https://huggingface.co/datasets/whoisjones/fiNERweb
  • FiNERweb-x:https://huggingface.co/datasets/whoisjones/fiNERweb-x(包含翻译标签的版本)

回归模型

模型托管于 Hugging Face,用于分类任务,主要包括基于 XLM-R 和 mDeBERTa 架构的二元分类和多标签分类器。

  • XLM-R 模型
    • 二元分类器(4o-mini):https://huggingface.co/whoisjones/finerweb-binary-classifier-xlmr-4o
    • 多标签分类器(4o-mini):https://huggingface.co/whoisjones/finerweb-multilabel-classifier-xlmr-4o
    • 二元分类器(Gemma3-27B):https://huggingface.co/whoisjones/finerweb-binary-classifier-xlmr-gemma3
    • 多标签分类器(Gemma3-27B):https://huggingface.co/whoisjones/finerweb-multilabel-classifier-mdeberta-gemma3
  • mDeBERTa 模型
    • 二元分类器(4o-mini):https://huggingface.co/whoisjones/finerweb-binary-classifier-mdeberta-4o
    • 多标签分类器(4o-mini):https://huggingface.co/whoisjones/finerweb-multilabel-classifier-mdeberta-4o
    • 二元分类器(Gemma3-27B):https://huggingface.co/whoisjones/finerweb-binary-classifier-mdeberta-gemma3
    • 多标签分类器(Gemma3-27B):https://huggingface.co/whoisjones/finerweb-multilabel-classifier-xlmr-gemma3

原始标注材料

这些是原始标注数据,建议优先使用上述处理好的数据集。

  • FiNERweb-gemma:https://huggingface.co/datasets/whoisjones/fiNERweb-gemma
  • FiNERweb-4o:https://huggingface.co/datasets/whoisjones/fiNERweb-4o
  • FiNERweb-multi:https://huggingface.co/datasets/whoisjones/fiNERweb-multi(多标签版本)

引用信息

如需引用,请参考以下 BibTeX 条目: bibtex @misc{golde2025finerwebdatasetsartifactsscalable, title={FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition}, author={Jonas Golde and Patrick Haller and Alan Akbik}, year={2025}, eprint={2512.13884}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2512.13884}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,多语言命名实体识别(NER)的进展依赖于高质量、大规模的数据资源。FiNERweb数据集的构建采用了前沿的大语言模型辅助标注策略,通过集成Gemma3-27B与GPT-4o-mini等先进模型,对覆盖91种语言和25种文字体系的网络文本进行自动化实体标注。这一过程不仅确保了标注的广泛覆盖性,还通过多模型协同与人工校验机制提升了标注的准确性与一致性,从而为多语言NER研究奠定了坚实的数据基础。
使用方法
为便于学术研究与工程应用,FiNERweb数据集已托管于Hugging Face平台。用户可通过`datasets`库直接加载完整数据集或指定语言子集,例如加载德语分片只需调用`load_dataset`函数并指定`split='deu'`参数。同时,数据集提供了预训练的回归模型,用户可利用`transformers`库加载模型与分词器,对任意文本进行命名实体识别质量的评估。这种即插即用的访问方式显著降低了多语言NER实验的门槛,促进了相关技术的快速迭代与部署。
背景与挑战
背景概述
FiNERweb数据集由Jonas Golde、Patrick Haller和Alan Akbik等研究人员于2025年构建,旨在应对自然语言处理领域中多语言命名实体识别(NER)的迫切需求。该数据集覆盖91种语言和25种文字体系,其核心研究问题聚焦于如何在大规模、多语言环境下实现高效且统一的实体识别,从而推动跨语言信息抽取和知识图谱构建的发展。FiNERweb的发布显著提升了低资源语言NER模型的性能,为全球化语境下的语义理解提供了坚实的数据基础。
当前挑战
多语言命名实体识别面临语言多样性带来的标注一致性与实体边界模糊等固有难题,低资源语言缺乏高质量标注数据进一步加剧了模型泛化的困难。在构建过程中,研究人员需协调91种语言的文本收集与标注,确保跨语言实体类别的对齐与标准化,同时处理不同文字体系带来的字符编码和分词差异。这些挑战要求数据集在规模与质量之间取得平衡,以实现真正的可扩展性与实用性。
常用场景
经典使用场景
在自然语言处理领域,多语言命名实体识别(NER)是跨语言信息抽取的核心任务。FiNERweb数据集以其覆盖91种语言和25种文字体系的规模,成为评估和训练多语言NER模型的基准资源。研究者通常利用该数据集对预训练语言模型进行微调,以验证模型在低资源语言上的泛化能力,特别是在处理非拉丁文字和复杂语言结构时,数据集提供的丰富标注为模型性能的全面评估奠定了坚实基础。
解决学术问题
传统多语言NER研究常受限于标注数据稀缺,尤其是对低资源语言的支持不足。FiNERweb通过大规模多语言标注,有效缓解了数据匮乏问题,使学者能够系统探究跨语言迁移学习、领域适应及模型鲁棒性等关键议题。该数据集推动了多语言表示学习的发展,为构建更具包容性的自然语言处理系统提供了实证基础,显著提升了学术社区对语言多样性处理的理解。
实际应用
在实际应用中,FiNERweb支持构建全球化的信息提取系统,例如跨国企业的舆情监控、多语言新闻聚合及跨文化社交媒体分析。其广泛的语言覆盖能力使得商业智能平台能够从不同语种的文档中自动识别公司、产品及人物等实体,辅助决策制定。此外,该数据集还可用于开发适应性更强的机器翻译辅助工具,通过实体识别提升翻译的准确性和上下文一致性。
数据集最近研究
最新研究方向
在自然语言处理领域,多语言命名实体识别(NER)正朝着大规模、高覆盖的方向演进。FiNERweb数据集以其涵盖91种语言和25种文字的特性,成为该领域的重要资源。当前研究聚焦于利用大规模语言模型,如XLM-R和mDeBERTa,构建可扩展的多语言NER系统,并探索标签翻译与多标签分类等前沿方法。这些工作不仅提升了低资源语言的实体识别性能,也为全球化信息处理提供了坚实的技术基础,推动了跨语言知识抽取的实际应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作