lid-benchmark

Hugging Face2026-04-05 更新2026-04-06 收录

下载链接：

https://huggingface.co/datasets/omneity-labs/lid-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

LID Benchmark 是一个全面的语言识别模型评估数据集，包含对17种语言识别模型在8个不同基准测试上的系统评估。该数据集由Omneity Labs构建，旨在为语言识别任务提供标准化的性能比较基准。数据集包含多个子集：results_summary（每个模型×基准×范围的聚合指标，约136行）、results_aggregate（详细的聚合指标，约816行）、results_per_language（每种语言的准确率，约57,000行）、results_speed（推理速度，约136行）、model_languages（每个模型支持的语言代码，约4,700行）以及results_individual（每个样本的预测结果，约2800万行）。评估使用了包括准确率、macro-F1、weighted-F1、精确率和召回率在内的多种指标，所有语言代码均标准化为ISO 639-3 + Script (ISO 15924)格式。数据集适用于语言识别模型的性能评估、比较研究以及模型选择等场景。

创建时间：

2026-03-25

原始信息汇总

LID Benchmark 数据集概述

数据集基本信息

数据集名称: LID Benchmark
发布者: Omneity Labs
许可证: Apache 2.0
任务类别: 文本分类
语言: 多语言
标签: 语言识别、LID、基准测试、评估
数据规模: 10M < n < 100M

数据集配置与内容

数据集包含以下六个配置子集：

配置名称	描述	数据行数（约）
`results_summary`	每个模型 × 基准测试 × 评估范围的汇总指标	136
`results_aggregate`	每个模型 × 基准测试 × 评估范围的详细聚合指标	816
`results_per_language`	每个模型 × 基准测试 × 评估范围下，每种语言的准确率	57,000
`results_speed`	每个模型 × 基准测试的推理速度（样本/秒）	136
`model_languages`	每个模型声明的支持的语言代码	4,700
`results_individual`	每个单独的预测结果（模型 × 基准测试 × 样本）	28,000,000

评估模型

共评估了17个语言识别模型： gherbal-v1, gherbal-v2, gherbal-v3, gherbal-v4, nllb-lid, openlid-v1, openlid-v2, hplt-openlid-v3, fastlid-176, glotlid, franc, franc-all, franc-min, cld2, langdetect, langid, py3langid。

评估基准

评估在8个不同的基准测试上进行：

基准测试名称	数据来源
flores-devtest	https://huggingface.co/datasets/openlanguagedata/flores_plus (devtest split)
flores-dev	https://huggingface.co/datasets/openlanguagedata/flores_plus (dev split)
madar	https://camel.abudhabi.nyu.edu/madar-parallel-corpus
gherbal-multi	https://huggingface.co/datasets/sawalni-ai/gherbal-multi
atlasia-lid	https://huggingface.co/datasets/atlasia/Arabic-LID-Leaderboard
wili-2018	https://huggingface.co/datasets/wili_2018
commonlid	https://huggingface.co/datasets/commoncrawl/CommonLID
bouquet	https://huggingface.co/datasets/facebook/bouquet

方法论

预测标准化: 所有预测均使用 babelcode 标准化为 ISO 639-3 + 文字 (ISO 15924) 代码。
评估指标: 准确率、宏平均F1、加权F1、精确率、召回率。
评估范围: 在多个范围（full, self, v1–v4）下进行计算。

作者

Omar Kamali (https://omarkamali.com)
Omneity Labs (https://omneitylabs.com)

许可证说明

本数据集中的评估结果基于 Apache 2.0 许可证发布。所使用的底层基准测试数据集保留其原始许可证。

搜集汇总

数据集介绍

构建方式

在语言识别技术日益重要的背景下，lid-benchmark数据集通过系统化整合八个权威基准测试平台构建而成，包括flores-devtest、madar、wili-2018等，覆盖了多语言文本的广泛领域。该数据集对17种主流语言识别模型进行了统一评估，所有预测结果均使用babelcode工具规范化为ISO 639-3语言代码与ISO 15924文字代码的组合格式，确保了标注体系的一致性。评估过程采用了准确率、宏平均F1值、加权F1值等多维度指标，并在完整范围、自声明范围及不同版本范围内进行计算，形成了从汇总统计到个体预测的六个结构化子集。

特点

该数据集的核心特点在于其全面性与标准化程度，它不仅囊括了gherbal系列、nllb-lid、fastlid-176等多种代表性模型，还跨越了从通用语料到特定区域文本的多样化基准。数据规模达到千万级别，其中results_individual子集包含约2800万条个体预测记录，为深入分析模型行为提供了精细粒度。所有评估结果均通过交互式排行榜公开，支持研究者动态探索模型在不同语言和场景下的性能表现，同时严格遵循原始基准数据的许可协议，保障了使用的合规性与可追溯性。

使用方法

研究者可通过HuggingFace平台直接加载数据集的六个配置子集，例如results_summary用于获取模型在各项基准上的聚合性能概览，而results_per_language则适于进行按语言细粒度的准确性分析。在具体应用中，该数据集能够服务于语言识别模型的比较评估、新模型基准测试以及多语言处理系统的性能优化。用户可依据研究需求，结合提供的标准化代码体系与多维度指标，开展模型鲁棒性、跨语言泛化能力或推理效率等方面的实证研究，并参考交互式应用以可视化方式洞察结果。

背景与挑战

背景概述

语言识别作为自然语言处理的基础任务，其核心在于精准判定文本所属的语言类别，对于多语言信息处理、机器翻译及内容审核等应用具有关键支撑作用。lid-benchmark数据集由Omneity Labs构建，旨在系统评估当前主流的语言识别模型性能。该数据集整合了包括flores-devtest、madar、wili-2018在内的八个权威基准测试，覆盖了从通用到特定领域的多样化语料，为研究社区提供了一个全面、标准化的模型比较平台。通过规范化输出至ISO 639-3与ISO 15924编码体系，并计算准确率、宏F1等多维度指标，该数据集显著提升了语言识别领域的评估透明度与可复现性，推动了模型优化与技术发展。

当前挑战

语言识别领域面临的核心挑战在于处理语言变体、方言及代码混合文本的精准判别，同时需应对低资源语言数据稀缺导致的模型偏差问题。在数据集构建过程中，整合多个异构基准测试涉及数据格式、语言标注体系及评估标准的统一，这是一项复杂且耗时的工程任务。此外，确保评估结果在不同模型与测试集间的公平可比性，要求设计严谨的度量方法与标准化流程，以克服因语料分布差异或标注不一致所带来的评估噪声。

常用场景

经典使用场景

在自然语言处理领域，语言识别是处理多语言文本的基础任务，lid-benchmark数据集通过整合17个语言识别模型在8个多样化基准上的评估结果，为研究者提供了一个标准化的性能比较平台。该数据集常用于系统性地评估模型在不同语言、语料类型和评估范围下的表现，帮助识别模型在特定语言或场景中的优势与局限，从而推动语言识别技术的优化与创新。

衍生相关工作

围绕lid-benchmark数据集，衍生了一系列经典研究工作，包括基于评估结果改进的Gherbal模型迭代、针对低资源语言识别的算法优化，以及跨基准迁移学习策略的探索。这些工作不仅深化了对语言识别模型性能影响因素的理解，还推动了如babelcode标准化工具的开发，促进了多语言评估框架的完善，为后续大规模语言识别基准的构建提供了方法论参考。

数据集最近研究