five

lid-benchmark

收藏
Hugging Face2026-04-05 更新2026-04-06 收录
下载链接:
https://huggingface.co/datasets/omneity-labs/lid-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
LID Benchmark 是一个全面的语言识别模型评估数据集,包含对17种语言识别模型在8个不同基准测试上的系统评估。该数据集由Omneity Labs构建,旨在为语言识别任务提供标准化的性能比较基准。数据集包含多个子集:results_summary(每个模型×基准×范围的聚合指标,约136行)、results_aggregate(详细的聚合指标,约816行)、results_per_language(每种语言的准确率,约57,000行)、results_speed(推理速度,约136行)、model_languages(每个模型支持的语言代码,约4,700行)以及results_individual(每个样本的预测结果,约2800万行)。评估使用了包括准确率、macro-F1、weighted-F1、精确率和召回率在内的多种指标,所有语言代码均标准化为ISO 639-3 + Script (ISO 15924)格式。数据集适用于语言识别模型的性能评估、比较研究以及模型选择等场景。
创建时间:
2026-03-25
原始信息汇总

LID Benchmark 数据集概述

数据集基本信息

  • 数据集名称: LID Benchmark
  • 发布者: Omneity Labs
  • 许可证: Apache 2.0
  • 任务类别: 文本分类
  • 语言: 多语言
  • 标签: 语言识别、LID、基准测试、评估
  • 数据规模: 10M < n < 100M

数据集配置与内容

数据集包含以下六个配置子集:

配置名称 描述 数据行数(约)
results_summary 每个模型 × 基准测试 × 评估范围的汇总指标 136
results_aggregate 每个模型 × 基准测试 × 评估范围的详细聚合指标 816
results_per_language 每个模型 × 基准测试 × 评估范围下,每种语言的准确率 57,000
results_speed 每个模型 × 基准测试的推理速度(样本/秒) 136
model_languages 每个模型声明的支持的语言代码 4,700
results_individual 每个单独的预测结果(模型 × 基准测试 × 样本) 28,000,000

评估模型

共评估了17个语言识别模型: gherbal-v1, gherbal-v2, gherbal-v3, gherbal-v4, nllb-lid, openlid-v1, openlid-v2, hplt-openlid-v3, fastlid-176, glotlid, franc, franc-all, franc-min, cld2, langdetect, langid, py3langid。

评估基准

评估在8个不同的基准测试上进行:

基准测试名称 数据来源
flores-devtest https://huggingface.co/datasets/openlanguagedata/flores_plus (devtest split)
flores-dev https://huggingface.co/datasets/openlanguagedata/flores_plus (dev split)
madar https://camel.abudhabi.nyu.edu/madar-parallel-corpus
gherbal-multi https://huggingface.co/datasets/sawalni-ai/gherbal-multi
atlasia-lid https://huggingface.co/datasets/atlasia/Arabic-LID-Leaderboard
wili-2018 https://huggingface.co/datasets/wili_2018
commonlid https://huggingface.co/datasets/commoncrawl/CommonLID
bouquet https://huggingface.co/datasets/facebook/bouquet

方法论

  • 预测标准化: 所有预测均使用 babelcode 标准化为 ISO 639-3 + 文字 (ISO 15924) 代码。
  • 评估指标: 准确率、宏平均F1、加权F1、精确率、召回率。
  • 评估范围: 在多个范围(full, self, v1–v4)下进行计算。

相关资源

  • 交互式应用: 可通过 https://huggingface.co/spaces/omneity-labs/lid-benchmark 交互式探索结果。
  • 引用信息:
    • Omneity Labs LID Benchmark: https://huggingface.co/datasets/omneity-labs/lid-benchmark
    • Gherbal 模型: https://www.omneitylabs.com/models/gherbal
    • 评估基准: 参见上方链接的各个基准测试数据集。

作者

  • Omar Kamali (https://omarkamali.com)
  • Omneity Labs (https://omneitylabs.com)

许可证说明

本数据集中的评估结果基于 Apache 2.0 许可证发布。所使用的底层基准测试数据集保留其原始许可证。

搜集汇总
数据集介绍
main_image_url
构建方式
在语言识别技术日益重要的背景下,lid-benchmark数据集通过系统化整合八个权威基准测试平台构建而成,包括flores-devtest、madar、wili-2018等,覆盖了多语言文本的广泛领域。该数据集对17种主流语言识别模型进行了统一评估,所有预测结果均使用babelcode工具规范化为ISO 639-3语言代码与ISO 15924文字代码的组合格式,确保了标注体系的一致性。评估过程采用了准确率、宏平均F1值、加权F1值等多维度指标,并在完整范围、自声明范围及不同版本范围内进行计算,形成了从汇总统计到个体预测的六个结构化子集。
特点
该数据集的核心特点在于其全面性与标准化程度,它不仅囊括了gherbal系列、nllb-lid、fastlid-176等多种代表性模型,还跨越了从通用语料到特定区域文本的多样化基准。数据规模达到千万级别,其中results_individual子集包含约2800万条个体预测记录,为深入分析模型行为提供了精细粒度。所有评估结果均通过交互式排行榜公开,支持研究者动态探索模型在不同语言和场景下的性能表现,同时严格遵循原始基准数据的许可协议,保障了使用的合规性与可追溯性。
使用方法
研究者可通过HuggingFace平台直接加载数据集的六个配置子集,例如results_summary用于获取模型在各项基准上的聚合性能概览,而results_per_language则适于进行按语言细粒度的准确性分析。在具体应用中,该数据集能够服务于语言识别模型的比较评估、新模型基准测试以及多语言处理系统的性能优化。用户可依据研究需求,结合提供的标准化代码体系与多维度指标,开展模型鲁棒性、跨语言泛化能力或推理效率等方面的实证研究,并参考交互式应用以可视化方式洞察结果。
背景与挑战
背景概述
语言识别作为自然语言处理的基础任务,其核心在于精准判定文本所属的语言类别,对于多语言信息处理、机器翻译及内容审核等应用具有关键支撑作用。lid-benchmark数据集由Omneity Labs构建,旨在系统评估当前主流的语言识别模型性能。该数据集整合了包括flores-devtest、madar、wili-2018在内的八个权威基准测试,覆盖了从通用到特定领域的多样化语料,为研究社区提供了一个全面、标准化的模型比较平台。通过规范化输出至ISO 639-3与ISO 15924编码体系,并计算准确率、宏F1等多维度指标,该数据集显著提升了语言识别领域的评估透明度与可复现性,推动了模型优化与技术发展。
当前挑战
语言识别领域面临的核心挑战在于处理语言变体、方言及代码混合文本的精准判别,同时需应对低资源语言数据稀缺导致的模型偏差问题。在数据集构建过程中,整合多个异构基准测试涉及数据格式、语言标注体系及评估标准的统一,这是一项复杂且耗时的工程任务。此外,确保评估结果在不同模型与测试集间的公平可比性,要求设计严谨的度量方法与标准化流程,以克服因语料分布差异或标注不一致所带来的评估噪声。
常用场景
经典使用场景
在自然语言处理领域,语言识别是处理多语言文本的基础任务,lid-benchmark数据集通过整合17个语言识别模型在8个多样化基准上的评估结果,为研究者提供了一个标准化的性能比较平台。该数据集常用于系统性地评估模型在不同语言、语料类型和评估范围下的表现,帮助识别模型在特定语言或场景中的优势与局限,从而推动语言识别技术的优化与创新。
衍生相关工作
围绕lid-benchmark数据集,衍生了一系列经典研究工作,包括基于评估结果改进的Gherbal模型迭代、针对低资源语言识别的算法优化,以及跨基准迁移学习策略的探索。这些工作不仅深化了对语言识别模型性能影响因素的理解,还推动了如babelcode标准化工具的开发,促进了多语言评估框架的完善,为后续大规模语言识别基准的构建提供了方法论参考。
数据集最近研究
最新研究方向
在多语言自然语言处理领域,语言识别技术作为基础任务,其性能评估正朝着标准化与细粒度分析的方向演进。LID Benchmark数据集通过整合17个模型在8个基准上的评估结果,为研究者提供了全面的性能对比框架。当前前沿研究聚焦于低资源语言识别、混合语言文本处理以及模型效率优化,这些方向得益于该数据集提供的跨模型、跨语言详细指标。随着多语言大模型的兴起,该数据集在评估模型泛化能力、揭示语言偏见方面具有关键意义,推动了语言识别技术向更公平、高效的方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作