five

OpenLID-v3

收藏
arXiv2026-02-14 更新2026-02-17 收录
下载链接:
https://github.com/hplt-project/openlid
下载链接
链接失效反馈
官方服务:
资源简介:
OpenLID-v3是由奥斯陆大学语言技术组开发的语言识别数据集,旨在解决网络数据中相近语言区分和噪声过滤的难题。该数据集覆盖194种语言及一个‘非语言’类别,通过整合GlotLID的开放许可数据和最新维基百科语料进行扩展,特别优化了拉丁语、塞尔维亚语拉丁字母变体等易混淆语言的训练样本。数据来源包括多语言网页文档、平行语料库及人工标注的噪声样本,主要应用于大规模多语言预训练数据清洗,可有效提升低资源语言数据的纯净度。

OpenLID-v3 is a language identification dataset developed by the Language Technology Group at the University of Oslo, designed to address the challenges of distinguishing closely related languages and filtering noise in web-scale data. This dataset covers 194 languages plus a "non-language" category, and is expanded by integrating openly licensed data from GlotLID and the latest Wikipedia corpora, with specially optimized training samples for easily confusable languages such as Latin and Latin-script variants of Serbian. Its data sources include multilingual web documents, parallel corpora, and manually annotated noise samples. It is primarily applied to large-scale multilingual pre-training data cleaning, and can effectively improve the purity of low-resource language data.
提供机构:
奥斯陆大学·信息学系·语言技术组
创建时间:
2026-02-14
搜集汇总
数据集介绍
构建方式
在语言识别领域,构建高质量数据集对于提升模型性能至关重要。OpenLID-v3的构建过程基于对OpenLID-v2的改进,通过扩展训练数据、合并易混淆的语言变体集群以及引入专门标记噪声的类别来优化模型。具体而言,研究团队增加了更多训练样本,特别是针对拉丁语和拉丁字母书写的塞尔维亚语等语言;将八个阿拉伯语方言合并为一个阿拉伯语宏观语言类别,并将波斯语变体整合为法尔西语宏观语言;同时新增了“非语言”类别以有效识别网络文档中的噪声内容。这些调整旨在提升模型在识别相近语言和过滤非语言内容时的精确度。
特点
OpenLID-v3数据集在语言识别任务中展现出显著特点,其覆盖194种语言及一个“非语言”类别,专注于提升对相近语言的区分能力。该数据集特别强调对低资源语言的支持,通过合并易混淆的语言变体减少了错误分类的风险。此外,数据集的训练数据全部采用开源许可,确保了使用的透明度和可重复性。在评估方面,OpenLID-v3不仅在主流基准测试中表现优异,还针对特定语言组(如巴尔干半岛语言、斯堪的纳维亚语言等)提供了专门的测试集,以更细致地衡量模型在复杂场景下的性能。
使用方法
OpenLID-v3数据集主要用于训练和评估语言识别模型,特别是在处理网络文档中的多语言和噪声内容时。用户可以通过加载预训练模型,对文本数据进行语言分类,并利用其提供的“非语言”类别过滤无效内容。在实际应用中,该数据集支持与GlotLID等工具的集成,通过Top-1共识方法进一步提升分类精度,但需注意集成可能降低对低资源语言的覆盖范围。此外,研究人员可利用其针对相近语言设计的专项测试集,进行更深入的错误分析和模型优化,以推动语言识别技术在真实世界场景中的应用。
背景与挑战
背景概述
OpenLID-v3是奥斯陆大学语言技术组于2026年发布的开源语言识别系统,旨在提升对网络文档中语言识别的精确度,特别是针对资源匮乏语言和高度相似语言变体的区分。该系统的开发源于大规模多语言预训练数据集的构建需求,如HPLT和FineWeb项目,这些项目依赖语言识别技术从海量网络文本中筛选高质量语料。OpenLID-v3通过扩展训练数据、合并易混淆的语言簇以及引入非语言内容标签,显著优化了前代版本在语言识别任务中的性能,为多语言自然语言处理研究提供了关键的数据预处理工具。
当前挑战
OpenLID-v3面临的核心挑战在于准确区分高度相似的语言变体,例如波斯尼亚语、克罗地亚语和塞尔维亚语之间的细微差异,以及斯堪的纳维亚语言内部的混淆问题。构建过程中的挑战包括训练数据的不平衡性,尤其是低资源语言样本的稀缺性,以及网络文本中非语言内容(如代码、编码错误)的干扰。此外,现有评估基准如FLORES+和UDHR在反映真实网络数据噪声方面的局限性,也使得模型在实际应用中的泛化能力受到考验。
常用场景
经典使用场景
在构建大规模多语言预训练数据集的过程中,语言识别技术扮演着至关重要的角色。OpenLID-v3作为一款基于fastText架构的开放源代码语言识别工具,其最经典的应用场景在于从海量网络文档中精确筛选和归类特定语言的文本数据。该工具特别针对低资源语言和高度相似语言变体(如波斯尼亚语、克罗地亚语和塞尔维亚语)的识别难题进行了优化,通过引入噪声标签和改进训练数据,显著提升了在真实网络文本环境下的识别精度。这使得研究人员能够更有效地构建高质量、低污染的多语言语料库,为后续的自然语言处理模型训练奠定坚实基础。
实际应用
在实际应用中,OpenLID-v3已被集成到多个大规模多语言数据处理管道中,例如HPLT(高性能语言技术)和FineWeb等知名数据集的构建流程。它能够高效处理来自互联网的、包含各种体裁、领域和噪声的原始文档,实现文档级别的语言自动分类。这项技术对于开发支持多语言的预训练大模型至关重要,确保了训练数据在语言维度上的纯净性和代表性。特别是在全球范围内推进数字语言资源公平化的背景下,OpenLID-v3为准确识别和收录低资源语言、方言及区域性语言变体的文本提供了切实可行的工具,有助于缩小数字语言鸿沟。
衍生相关工作
围绕OpenLID-v3的评估和改进,衍生出了一系列重要的相关研究工作。其开发团队针对特定语言群创建了新的评测基准,例如为BCMS宏观语言以及挪威书面语和尼诺斯克语构建的专用测试集,弥补了FLORES+和UDHR等通用基准在评估相似语言识别能力上的不足。同时,研究工作探索了模型集成策略(如OpenLID-v3与GlotLID的Top-1集成),以在精度和召回率之间取得更优平衡。这些工作深化了学界对语言识别模型在真实、嘈杂网络数据环境下性能边界的理解,并推动了针对特定语言对或语言群的细粒度评测方法论的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作