开放语言识别数据集
收藏OpenLID 数据集概述
数据集描述
OpenLID 数据集用于快速自然语言识别,支持 201 种语言。数据集包括训练模型所需的所有数据,并提供了训练数据和每种语言的性能指标。
数据集下载
数据集大小约为 21GB,可以通过以下命令下载并转换为 fastText 训练格式: shell wget https://data.statmt.org/lid/lid201-data.tsv.gz pigz -dc lid201-data.tsv.gz | awk -F" " {print"label"$2" "$1} > lid201-data.fasttext.tsv
每行数据包含一个句子、语言代码和脚本(例如 wol_Latn 表示使用拉丁字母的 Wolof 语),以及数据来源。
数据集处理
训练数据集中的类别经过采样处理,以改善类别偏斜问题。大类别被下采样,小类别被上采样。如果需要未采样的数据集,可以下载: shell wget https://data.statmt.org/lid/lid201-data-unsampled.tsv.gz
模型训练
使用以下命令训练模型: shell fasttext supervised -input lid201-data.fasttext.tsv -output lid201-model -minCount 1000 -bucket 1000000 -minn 2 -maxn 5 -lr 0.8 -dim 256 -epoch 2 -thread 68 -wordNgrams 1
量化模型训练命令: shell fasttext quantize -input lid201-data.fasttext.tsv -output lid201-model -minCount 1000 -bucket 1000000 -minn 2 -maxn 5 -lr 0.8 -dim 256 -epoch 2 -thread 68 -wordNgrams 1 -qnorm -cutoff 50000 -retrain
许可证
模型基于 GNU General Public License v3.0 许可。数据集中的各个子数据集具有不同的许可证,但都允许至少在研究中免费使用。完整的许可证列表可在 licenses.md 文件中查看。

- 1An Open Dataset and Model for Language Identification爱丁堡大学信息学院语言、认知与计算研究所 · 2023年



