开放语言识别数据集

Name: 开放语言识别数据集
Creator: 爱丁堡大学信息学院语言、认知与计算研究所
Published: 2023-05-23 16:43:42
License: 暂无描述

arXiv2023-05-23 更新2024-07-24 收录

下载链接：

https://github.com/laurieburchell/open-lid-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

开放语言识别数据集是由爱丁堡大学信息学院语言、认知与计算研究所创建的，旨在支持语言识别研究。该数据集包含201种语言的文本数据，数据来源包括新闻网站、维基百科和宗教文本等。数据集的创建过程中，研究人员对每个语言和数据源进行了手动审核，确保数据的可靠性。此数据集主要用于训练和评估语言识别模型，特别是在低资源语言的处理上，以提高自然语言处理应用的准确性和覆盖范围。

The Open Language Recognition Dataset was developed by the Institute for Language, Cognition and Computation, School of Informatics, University of Edinburgh, with the aim of supporting language recognition research. This dataset contains text data covering 201 languages, with sources including news websites, Wikipedia, religious texts, and others. During the dataset construction process, researchers conducted manual audits for each language and data source to ensure data reliability. This dataset is primarily used for training and evaluating language recognition models, especially for low-resource language processing, to enhance the accuracy and coverage of natural language processing (NLP) applications.

提供机构：

爱丁堡大学信息学院语言、认知与计算研究所

创建时间：

2023-05-23

原始信息汇总

OpenLID 数据集概述

数据集描述

OpenLID 数据集用于快速自然语言识别，支持 201 种语言。数据集包括训练模型所需的所有数据，并提供了训练数据和每种语言的性能指标。

数据集下载

数据集大小约为 21GB，可以通过以下命令下载并转换为 fastText 训练格式： shell wget https://data.statmt.org/lid/lid201-data.tsv.gz pigz -dc lid201-data.tsv.gz | awk -F" " {print"label"$2" "$1} > lid201-data.fasttext.tsv

每行数据包含一个句子、语言代码和脚本（例如 wol_Latn 表示使用拉丁字母的 Wolof 语），以及数据来源。

数据集处理

训练数据集中的类别经过采样处理，以改善类别偏斜问题。大类别被下采样，小类别被上采样。如果需要未采样的数据集，可以下载： shell wget https://data.statmt.org/lid/lid201-data-unsampled.tsv.gz

模型训练

使用以下命令训练模型： shell fasttext supervised -input lid201-data.fasttext.tsv -output lid201-model -minCount 1000 -bucket 1000000 -minn 2 -maxn 5 -lr 0.8 -dim 256 -epoch 2 -thread 68 -wordNgrams 1

量化模型训练命令： shell fasttext quantize -input lid201-data.fasttext.tsv -output lid201-model -minCount 1000 -bucket 1000000 -minn 2 -maxn 5 -lr 0.8 -dim 256 -epoch 2 -thread 68 -wordNgrams 1 -qnorm -cutoff 50000 -retrain

许可证

模型基于 GNU General Public License v3.0 许可。数据集中的各个子数据集具有不同的许可证，但都允许至少在研究中免费使用。完整的许可证列表可在 licenses.md 文件中查看。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，语言识别作为基础环节，其数据质量直接影响下游任务性能。开放语言识别数据集的构建聚焦于提升标注可靠性，通过精选新闻、维基百科及宗教文本等来源，规避了网络爬取数据常见的标签噪声问题。构建过程中，研究团队对每个数据源及语言进行了随机抽样的人工审核，依据字符特征、词汇模式等语言学线索验证语言标签的准确性，并统一采用BCP-47标准规范语言代码。数据预处理保持语言无关性，仅移除非打印字符并进行去标记化，最终通过比例采样平衡语言类别分布，形成涵盖201种语言、1.21亿行文本的高质量数据集。

特点

该数据集的核心特点在于其严谨的质量控制机制与广泛的语言覆盖。通过人工审核与来源筛选，确保了语言标签的可靠性，宏观平均F1分数达到0.93，显著降低了低资源语言的数据噪声问题。数据集涵盖201种语言变体，兼顾拉丁、阿拉伯、西里尔等多种文字体系，每条文本均标注对应文字形式，为跨文字语言识别研究提供支持。数据分布经过平衡处理，缓解了类别偏差，同时完整公开数据来源与许可信息，增强了研究的可复现性与透明度。

使用方法

该数据集适用于训练与评估语言识别模型，尤其能为低资源语言处理任务提供基准数据。使用者可通过公开代码库获取预处理后的文本数据，每条数据以行格式存储，包含语言代码及文字形式标注。在模型训练中，建议采用fasttext架构，嵌入字符级n-gram特征并配置线性分类器，可参照论文附录的超参数设置。评估阶段推荐使用FLORES-200基准测试集，通过宏观平均F1分数与误报率指标衡量模型性能，同时应注意方言变体与正式文本间的领域差异对结果的影响。

背景与挑战

背景概述

在自然语言处理领域，语言识别作为基础性任务，对多语言数据处理与应用构建具有关键作用。开放语言识别数据集由爱丁堡大学信息学院语言、认知与计算研究所的Laurie Burchell等研究人员于2023年创建，旨在应对现有语言识别系统在低资源语言上性能不足的挑战。该数据集涵盖201种语言，通过精心筛选与人工审核的单语数据构建，其核心研究问题聚焦于提升语言识别的准确性与可靠性，尤其关注资源匮乏语言的表征质量。该数据集的发布为语言识别研究提供了高质量基准，促进了多语言自然语言处理技术的公平发展与性能优化。

当前挑战

开放语言识别数据集面临的挑战主要体现在两个方面：在领域问题层面，语言识别任务需处理近亲语言区分困难、语言变体多样性以及低资源语言数据稀疏性等固有难题，例如阿拉伯语方言与汉语变体之间的混淆问题凸显了单标签分类的局限性。在构建过程中，数据收集面临可信标签获取的挑战，研究者需避免依赖网络爬取数据，转而采用新闻、维基百科等可靠来源，但这也导致文本风格偏向正式化；同时，语言标签标准化与人工审核过程耗费巨大，且需应对脚本多样性、语言代码不一致以及数据平衡性处理等复杂问题。

常用场景

经典使用场景

在自然语言处理领域，语言识别作为基础预处理步骤，其准确性直接影响下游任务性能。开放语言识别数据集通过精心筛选和人工审核，覆盖201种语言，为构建高精度语言识别模型提供了可靠数据支撑。该数据集在跨语言文本分类、多语种语料库过滤及低资源语言处理等场景中展现出卓越性能，尤其在处理新闻、维基百科等正式文本时，其宏平均F1分数达到0.93，显著提升了语言识别的鲁棒性。

衍生相关工作

基于该数据集衍生的经典工作包括对语言识别模型跨领域泛化能力的系统性评估，以及针对阿拉伯语方言、汉语变体等近缘语言区分难题的深入分析。相关研究进一步推动了如AfroLID等面向特定语系的语言识别工具发展，并启发了多模态语言识别、代码切换文本处理等新兴方向，为语言技术生态的包容性扩展提供了关键方法论参考。

数据集最近研究