bilingual-tokenizer-training-data

Hugging Face2026-02-10 更新2026-02-11 收录

下载链接：

https://huggingface.co/datasets/catherinearnett/bilingual-tokenizer-training-data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多语言文本集合，包含多种语言和文字组合的配置（如拉丁字母书写的南非荷兰语、埃塞俄比亚字母书写的阿姆哈拉语等）。每个配置包含一个字符串类型的'text'字段，所有数据均为'train'分割。数据集提供了每个语言子集（通常每个语言有3个子集）的精确字节大小、样本数量、下载大小和数据集大小。技术规格完整，但未说明数据收集目的、方法或内容特征。

This dataset is a multilingual text corpus comprising configurations with diverse language and writing system combinations, such as Afrikaans written in Latin script and Amharic written in Ethiopian script, among others. Each configuration contains a 'text' field of string type, and all data belongs to the 'train' split. The dataset provides precise byte size, sample count, download size, and dataset size for each language subset (typically 3 subsets per language). While its technical specifications are complete, it does not specify the data collection purpose, methods, or content characteristics.

创建时间：

2026-02-10

原始信息汇总

数据集概述

基本信息

数据集名称：bilingual-tokenizer-training-data
托管地址：https://huggingface.co/datasets/catherinearnett/bilingual-tokenizer-training-data

数据集结构

该数据集包含多个配置（config），每个配置对应一种特定的语言和文字组合，并进一步划分为多个子集。所有配置均仅包含训练集（train split）。

配置列表与数据概览

每个配置的名称遵循“语言代码_文字代码_subset_编号”的格式。以下为部分配置的详细信息：

配置名称	特征	训练集样本数	训练集大小（字节）	下载大小（字节）	数据集大小（字节）
afr_Latn_subset_1	text (string)	37,879	21,728,800	15,182,645	21,728,800
afr_Latn_subset_2	text (string)	37,879	21,728,800	15,165,029	21,728,800
afr_Latn_subset_3	text (string)	37,879	21,728,800	15,207,266	21,728,800
als_Latn_subset_1	text (string)	137,358	95,303,572	65,785,087	95,303,572
als_Latn_subset_2	text (string)	137,358	95,303,572	65,785,013	95,303,572
als_Latn_subset_3	text (string)	137,358	95,303,572	65,790,996	95,303,572
amh_Ethi_subset_1	text (string)	136,170	524,702,448	258,345,245	524,702,448
amh_Ethi_subset_2	text (string)	136,054	524,700,994	258,271,490	524,700,994
amh_Ethi_subset_3	text (string)	136,274	524,698,614	258,327,435	524,698,614
arb_Arab_subset_1	text (string)	281,456	525,132,987	266,095,936	525,132,987
arb_Arab_subset_2	text (string)	282,461	525,135,888	266,204,808	525,135,888
arb_Arab_subset_3	text (string)	284,375	525,143,702	266,651,753	525,143,702
ars_Arab_subset_1	text (string)	44,276	132,099,192	68,294,504	132,099,192
ars_Arab_subset_2	text (string)	44,276	132,099,192	68,284,010	132,099,192
ars_Arab_subset_3	text (string)	44,276	132,099,192	68,281,443	132,099,192
ary_Arab_subset_1	text (string)	240,727	391,503,999	198,879,611	391,503,999
ary_Arab_subset_2	text (string)	240,727	391,503,999	198,884,712	391,503,999
ary_Arab_subset_3	text (string)	240,727	391,503,999	198,900,799	391,503,999
arz_Arab_subset_1	text (string)	52,893	119,379,319	61,943,643	119,379,319
arz_Arab_subset_2	text (string)	52,893	119,379,319	61,951,556	119,379,319
arz_Arab_subset_3	text (string)	52,893	119,379,319	61,946,508	119,379,319
asm_Beng_subset_1	text (string)	11,694	25,063,726	10,100,413	25,063,726
asm_Beng_subset_2	text (string)	11,694	25,063,726	10,099,669	25,063,726
asm_Beng_subset_3	text (string)	11,694	25,063,726	10,098,749	25,063,726
azj_Latn_subset_1	text (string)	40,802	33,980,534	22,333,006	33,980,534
azj_Latn_subset_2	text (string)	40,802	33,980,534	22,309,017	33,980,534
azj_Latn_subset_3	text (string)	40,802	33,980,534	22,320,385	33,980,534
bel_Cyrl_subset_1	text (string)	47,085	62,667,440	35,153,120	62,667,440
bel_Cyrl_subset_2	text (string)	47,085	62,667,440	35,150,134	62,667,440
bel_Cyrl_subset_3	text (string)	47,085	62,667,440	35,151,604	62,667,440
ben_Beng_subset_1	text (string)	227,996	524,972,642	206,313,646	524,972,642
ben_Beng_subset_2	text (string)	227,663	524,971,696	206,244,476	524,971,696
ben_Beng_subset_3	text (string)	227,458	524,972,806	206,253,888	524,972,806
bod_Tibt_subset_1	text (string)	2,972	8,617,539	2,940,370	8,617,539
bod_Tibt_subset_2	text (string)	2,972	8,617,539	2,941,826	8,617,539
bod_Tibt_subset_3	text (string)	2,972	8,617,539	2,940,393	8,617,539
bos_Latn_subset_1	text (string)	104,003	62,777,730	43,723,433	62,777,730
bos_Latn_subset_2	text (string)	104,003	62,777,730	43,664,311	62,777,730
bos_Latn_subset_3	text (string)	104,003	62,777,730	43,701,689	62,777,730
bul_Cyrl_subset_1	text (string)	379,052	360,852,190	195,352,287	360,852,190
bul_Cyrl_subset_2	text (string)	379,052	360,852,190	195,328,660	360,852,190
bul_Cyrl_subset_3	text (string)	379,052	360,852,190	195,353,831	360,852,190
cat_Latn_subset_1	text (string)	126,052	55,326,034	39,083,607	55,326,034
cat_Latn_subset_2	text (string)	126,052	55,326,034	39,084,943	55,326,034
cat_Latn_subset_3	text (string)	126,052	55,326,034	39,112,003	55,326,034
ces_Latn_subset_1	text (string)	683,566	526,339,120	374,509,392	526,339,120
ces_Latn_subset_2	text (string)	684,527	526,341,980	374,986,019	526,341,980
ces_Latn_subset_3	text (string)	684,352	526,342,324	375,070,972	526,342,324
ckb_Arab_subset_1	text (string)	104,704	304,468,900	143,965,792	304,468,900
ckb_Arab_subset_2	text (string)	104,704	304,468,900	143,977,298	304,468,900
ckb_Arab_subset_3	text (string)	104,704	304,468,900	143,962,234	304,468,900
cym_Latn_subset_1	text (string)	7,029	3,670,647	2,653,159	3,670,647
cym_Latn_subset_2	text (string)	7,029	3,670,647	2,654,991	3,670,647
cym_Latn_subset_3	text (string)	7,029	3,670,647	2,653,936	3,670,647
dan_Latn_subset_1	text (string)	878,305	526,923,491	361,711,615	526,923,491
dan_Latn_subset_2	text (string)	878,659	526,924,316	361,706,965	526,924,316
dan_Latn_subset_3	text (string)	878,584	526,923,972	361,717,198	526,923,972
fin_Latn_subset_1	text (string)	334,783	525,292,683	327,029,549	525,292,683
fin_Latn_subset_2	text (string)	334,467	525,303,524	327,164,399	525,303,524
fin_Latn_subset_3	text (string)	333,918	525,299,537	327,052,121	525,299,537
heb_Hebr_subset_1	text (string)	248,742	525,036,517	274,530,009	525,036,517
heb_Hebr_subset_2	text (string)	249,158	525,035,813	274,838,231	525,035,813
heb_Hebr_subset_3	text (string)	248,486	525,034,448	274,763,651	525,034,448
hin_Deva_subset_1	text (string)	275,630	406,721,991	169,710,457	406,721,991
hin_Deva_subset_2	text (string)	275,630	406,721,991	169,708,314	406,721,991
hin_Deva_subset_3	text (string)	275,630	406,721,991	169,716,740	406,721,991
hrv_Latn_subset_1	text (string)	39,492	27,918,976	19,676,113	27,918,976
hrv_Latn_subset_2	text (string)	39,492	27,918,976	19,770,877	27,918,976
hrv_Latn_subset_3	text (string)	39,492	27,918,976	19,745,976	27,918,976
isl_Latn_subset_1	text (string)	115,469	74,066,640	51,306,859	74,066,640
isl_Latn_subset_2	text (string)	115,469	74,066,640	51,323,440	74,066,640
isl_Latn_subset_3	text (string)	115,469	74,066,640	51,321,989	74,066,640

数据特征

核心特征：所有配置均包含一个名为“text”的字段，其数据类型为字符串（string）。
数据格式：数据文件路径格式为{config_name}/train-*，例如afr_Latn_subset_1/train-*。

语言与文字覆盖

数据集涵盖多种语言及其对应的文字系统，例如：

拉丁文字：afr（南非荷兰语）、als（阿勒曼尼语）、bos（波斯尼亚语）、cat（加泰罗尼亚语）、ces（捷克语）、cym（威尔士语）、dan（丹麦语）、fin（芬兰语）、hrv（克罗地亚语）、isl（冰岛语）等。
阿拉伯文字：arb（标准阿拉伯语）、ars（纳吉迪阿拉伯语）、ary（摩洛哥阿拉伯语）、arz（埃及阿拉伯语）、ckb（中库尔德语）等。
其他文字：amh_Ethi（阿姆哈拉语-埃塞俄比亚文字）、ben_Beng（孟加拉语-孟加拉文字）、hin_Deva（印地语-天城文）、bod_Tibt（藏语-藏文）等。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量的双语分词器训练数据是提升模型跨语言理解能力的关键。该数据集通过系统化地收集多语言文本，涵盖了从南非荷兰语到威尔士语等多种语言，每种语言均以特定脚本标注，并细分为多个子集以优化数据管理。数据集的构建过程注重原始文本的多样性与代表性，确保覆盖不同语言的实际使用场景，为分词器的训练提供了丰富的语言样本。

特点

该数据集以其广泛的语言覆盖和精细的结构化设计而著称，囊括了拉丁字母、阿拉伯字母、梵文字母等多种书写系统，体现了语言多样性。每个语言配置均包含三个独立的子集，不仅便于数据的分块处理与验证，还能有效支持模型训练的稳定性与泛化能力。数据规模从数万到数十万条文本不等，确保了训练资源的充足性与平衡性。

使用方法

使用该数据集时，研究人员可通过HuggingFace平台直接加载特定语言配置，例如选择'afr_Latn_subset_1'来获取南非荷兰语的训练文本。数据集以标准化的文本字段呈现，适用于训练双语或多语言分词器，用户可结合机器学习框架进行预处理与模型训练。其模块化结构允许灵活的数据选择与整合，支持跨语言自然语言处理任务的实验与优化。

背景与挑战

背景概述

在自然语言处理领域，多语言预训练模型的兴起催生了对于高质量双语分词器训练数据的迫切需求。bilingual-tokenizer-training-data数据集应运而生，旨在为涵盖拉丁、阿拉伯、西里尔、埃塞俄比亚等多种文字体系的数十种语言提供大规模文本语料。该数据集由研究社区在近年构建，其核心研究问题聚焦于解决低资源语言在分词任务中数据稀缺的困境，通过整合多语言平行或可比语料，为开发跨语言分词模型奠定数据基础。这一资源对于推动语言技术在全球范围内的普惠应用具有显著影响力，尤其有助于提升机器翻译、信息检索等任务在非主流语言上的性能。

当前挑战

该数据集致力于应对多语言分词模型开发中的核心挑战，即如何为形态丰富或书写系统复杂的语言设计高效的分词策略。例如，阿拉伯语和希伯来语的连字现象、藏文和埃塞俄比亚文的独特字符分割，均对分词算法提出了严峻考验。在构建过程中，挑战同样突出：原始语料的收集需克服低资源语言数据稀缺与分布不均的障碍；文本清洗与标准化须处理不同编码体系与噪音干扰；数据划分与子集生成则需确保语言覆盖的平衡性与代表性，避免因数据偏差导致模型泛化能力下降。

常用场景

经典使用场景

在自然语言处理领域，多语言文本数据的处理一直是构建跨语言模型的核心挑战。该数据集通过整合涵盖拉丁、阿拉伯、西里尔等多种文字体系的数十种语言文本，为双语或多语言分词器的训练提供了标准化语料。其经典使用场景在于为研究者提供大规模、多样化的语言样本，用以训练能够同时处理多种语言的分词器，从而优化模型在跨语言任务中的词汇表示能力。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在多语言分词算法的创新与评估框架的构建。例如，研究者利用该数据集训练了支持数百种语言的分词器，如基于BPE和Unigram的混合模型，这些模型在跨语言基准测试中表现出色。同时，该数据集也催生了针对低资源语言分词效率的优化研究，以及多语言词表压缩技术的探索，为后续大规模多语言预训练模型的开发奠定了基础。

数据集最近研究