lid-benchmark
收藏Hugging Face2026-04-05 更新2026-04-06 收录
下载链接:
https://huggingface.co/datasets/omneity-labs/lid-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
LID Benchmark 是一个全面的语言识别模型评估数据集,包含对17种语言识别模型在8个不同基准测试上的系统评估。该数据集由Omneity Labs构建,旨在为语言识别任务提供标准化的性能比较基准。数据集包含多个子集:results_summary(每个模型×基准×范围的聚合指标,约136行)、results_aggregate(详细的聚合指标,约816行)、results_per_language(每种语言的准确率,约57,000行)、results_speed(推理速度,约136行)、model_languages(每个模型支持的语言代码,约4,700行)以及results_individual(每个样本的预测结果,约2800万行)。评估使用了包括准确率、macro-F1、weighted-F1、精确率和召回率在内的多种指标,所有语言代码均标准化为ISO 639-3 + Script (ISO 15924)格式。数据集适用于语言识别模型的性能评估、比较研究以及模型选择等场景。
创建时间:
2026-03-25
原始信息汇总
LID Benchmark 数据集概述
数据集基本信息
- 数据集名称: LID Benchmark
- 发布者: Omneity Labs
- 许可证: Apache 2.0
- 任务类别: 文本分类
- 语言: 多语言
- 标签: 语言识别、LID、基准测试、评估
- 数据规模: 10M < n < 100M
数据集配置与内容
数据集包含以下六个配置子集:
| 配置名称 | 描述 | 数据行数(约) |
|---|---|---|
results_summary |
每个模型 × 基准测试 × 评估范围的汇总指标 | 136 |
results_aggregate |
每个模型 × 基准测试 × 评估范围的详细聚合指标 | 816 |
results_per_language |
每个模型 × 基准测试 × 评估范围下,每种语言的准确率 | 57,000 |
results_speed |
每个模型 × 基准测试的推理速度(样本/秒) | 136 |
model_languages |
每个模型声明的支持的语言代码 | 4,700 |
results_individual |
每个单独的预测结果(模型 × 基准测试 × 样本) | 28,000,000 |
评估模型
共评估了17个语言识别模型: gherbal-v1, gherbal-v2, gherbal-v3, gherbal-v4, nllb-lid, openlid-v1, openlid-v2, hplt-openlid-v3, fastlid-176, glotlid, franc, franc-all, franc-min, cld2, langdetect, langid, py3langid。
评估基准
评估在8个不同的基准测试上进行:
| 基准测试名称 | 数据来源 |
|---|---|
| flores-devtest | https://huggingface.co/datasets/openlanguagedata/flores_plus (devtest split) |
| flores-dev | https://huggingface.co/datasets/openlanguagedata/flores_plus (dev split) |
| madar | https://camel.abudhabi.nyu.edu/madar-parallel-corpus |
| gherbal-multi | https://huggingface.co/datasets/sawalni-ai/gherbal-multi |
| atlasia-lid | https://huggingface.co/datasets/atlasia/Arabic-LID-Leaderboard |
| wili-2018 | https://huggingface.co/datasets/wili_2018 |
| commonlid | https://huggingface.co/datasets/commoncrawl/CommonLID |
| bouquet | https://huggingface.co/datasets/facebook/bouquet |
方法论
- 预测标准化: 所有预测均使用 babelcode 标准化为 ISO 639-3 + 文字 (ISO 15924) 代码。
- 评估指标: 准确率、宏平均F1、加权F1、精确率、召回率。
- 评估范围: 在多个范围(full, self, v1–v4)下进行计算。
相关资源
- 交互式应用: 可通过 https://huggingface.co/spaces/omneity-labs/lid-benchmark 交互式探索结果。
- 引用信息:
- Omneity Labs LID Benchmark: https://huggingface.co/datasets/omneity-labs/lid-benchmark
- Gherbal 模型: https://www.omneitylabs.com/models/gherbal
- 评估基准: 参见上方链接的各个基准测试数据集。
作者
- Omar Kamali (https://omarkamali.com)
- Omneity Labs (https://omneitylabs.com)
许可证说明
本数据集中的评估结果基于 Apache 2.0 许可证发布。所使用的底层基准测试数据集保留其原始许可证。
搜集汇总
数据集介绍

构建方式
在语言识别技术日益重要的背景下,lid-benchmark数据集通过系统化整合八个权威基准测试平台构建而成,包括flores-devtest、madar、wili-2018等,覆盖了多语言文本的广泛领域。该数据集对17种主流语言识别模型进行了统一评估,所有预测结果均使用babelcode工具规范化为ISO 639-3语言代码与ISO 15924文字代码的组合格式,确保了标注体系的一致性。评估过程采用了准确率、宏平均F1值、加权F1值等多维度指标,并在完整范围、自声明范围及不同版本范围内进行计算,形成了从汇总统计到个体预测的六个结构化子集。
特点
该数据集的核心特点在于其全面性与标准化程度,它不仅囊括了gherbal系列、nllb-lid、fastlid-176等多种代表性模型,还跨越了从通用语料到特定区域文本的多样化基准。数据规模达到千万级别,其中results_individual子集包含约2800万条个体预测记录,为深入分析模型行为提供了精细粒度。所有评估结果均通过交互式排行榜公开,支持研究者动态探索模型在不同语言和场景下的性能表现,同时严格遵循原始基准数据的许可协议,保障了使用的合规性与可追溯性。
使用方法
研究者可通过HuggingFace平台直接加载数据集的六个配置子集,例如results_summary用于获取模型在各项基准上的聚合性能概览,而results_per_language则适于进行按语言细粒度的准确性分析。在具体应用中,该数据集能够服务于语言识别模型的比较评估、新模型基准测试以及多语言处理系统的性能优化。用户可依据研究需求,结合提供的标准化代码体系与多维度指标,开展模型鲁棒性、跨语言泛化能力或推理效率等方面的实证研究,并参考交互式应用以可视化方式洞察结果。
背景与挑战
背景概述
语言识别作为自然语言处理的基础任务,其核心在于精准判定文本所属的语言类别,对于多语言信息处理、机器翻译及内容审核等应用具有关键支撑作用。lid-benchmark数据集由Omneity Labs构建,旨在系统评估当前主流的语言识别模型性能。该数据集整合了包括flores-devtest、madar、wili-2018在内的八个权威基准测试,覆盖了从通用到特定领域的多样化语料,为研究社区提供了一个全面、标准化的模型比较平台。通过规范化输出至ISO 639-3与ISO 15924编码体系,并计算准确率、宏F1等多维度指标,该数据集显著提升了语言识别领域的评估透明度与可复现性,推动了模型优化与技术发展。
当前挑战
语言识别领域面临的核心挑战在于处理语言变体、方言及代码混合文本的精准判别,同时需应对低资源语言数据稀缺导致的模型偏差问题。在数据集构建过程中,整合多个异构基准测试涉及数据格式、语言标注体系及评估标准的统一,这是一项复杂且耗时的工程任务。此外,确保评估结果在不同模型与测试集间的公平可比性,要求设计严谨的度量方法与标准化流程,以克服因语料分布差异或标注不一致所带来的评估噪声。
常用场景
经典使用场景
在自然语言处理领域,语言识别是处理多语言文本的基础任务,lid-benchmark数据集通过整合17个语言识别模型在8个多样化基准上的评估结果,为研究者提供了一个标准化的性能比较平台。该数据集常用于系统性地评估模型在不同语言、语料类型和评估范围下的表现,帮助识别模型在特定语言或场景中的优势与局限,从而推动语言识别技术的优化与创新。
衍生相关工作
围绕lid-benchmark数据集,衍生了一系列经典研究工作,包括基于评估结果改进的Gherbal模型迭代、针对低资源语言识别的算法优化,以及跨基准迁移学习策略的探索。这些工作不仅深化了对语言识别模型性能影响因素的理解,还推动了如babelcode标准化工具的开发,促进了多语言评估框架的完善,为后续大规模语言识别基准的构建提供了方法论参考。
数据集最近研究
最新研究方向
在多语言自然语言处理领域,语言识别技术作为基础任务,其性能评估正朝着标准化与细粒度分析的方向演进。LID Benchmark数据集通过整合17个模型在8个基准上的评估结果,为研究者提供了全面的性能对比框架。当前前沿研究聚焦于低资源语言识别、混合语言文本处理以及模型效率优化,这些方向得益于该数据集提供的跨模型、跨语言详细指标。随着多语言大模型的兴起,该数据集在评估模型泛化能力、揭示语言偏见方面具有关键意义,推动了语言识别技术向更公平、高效的方向发展。
以上内容由遇见数据集搜集并总结生成



