community-datasets/setimes

Name: community-datasets/setimes
Creator: community-datasets
Published: 2024-06-26 06:37:03
License: 暂无描述

Hugging Face2024-06-26 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/community-datasets/setimes

下载链接

链接失效反馈

官方服务：

资源简介：

SETimes数据集是一个包含英语和东南欧语言（如保加利亚语、波斯尼亚语、希腊语、克罗地亚语、马其顿语、罗马尼亚语、阿尔巴尼亚语、塞尔维亚语和土耳其语）的平行语料库。该数据集是多语言的，包含超过10万条但少于100万条数据记录。数据集的主要任务是翻译任务，支持多种语言对的翻译。每个语言对的训练数据大小、下载大小和数据集大小在配置信息中详细列出。数据集的许可证为CC BY-SA 4.0。

提供机构：

community-datasets

原始信息汇总

数据集卡片 for SETimes – A Parallel Corpus of English and South-East European Languages

数据集描述

名称: SETimes – A Parallel Corpus of English and South-East European Languages
注释创建者: 发现
语言创建者: 发现
语言:
- bg (保加利亚语)
- bs (波斯尼亚语)
- el (希腊语)
- en (英语)
- hr (克罗地亚语)
- mk (马其顿语)
- ro (罗马尼亚语)
- sq (阿尔巴尼亚语)
- sr (塞尔维亚语)
- tr (土耳其语)
许可证: cc-by-sa-4.0
多语言性: 多语言
大小类别: 100K<n<1M
源数据集: 原始
任务类别: 翻译

数据集结构

数据实例

数据集包含多种语言对的翻译数据，每个配置包含以下字段：

id: 字符串类型
translation: 翻译字段，包含两个语言的翻译

数据字段

每个配置包含以下字段：

id: 字符串类型
translation: 翻译字段，包含两个语言的翻译

数据分割

每个配置包含一个训练集分割，包含以下信息：

name: train
num_bytes: 数据字节数
num_examples: 示例数量
download_size: 下载大小
dataset_size: 数据集大小

配置列表

bg-bs
- 训练集: 136009 个示例, 53816914 字节
- 下载大小: 15406039 字节
- 数据集大小: 53816914 字节
bg-el
- 训练集: 212437 个示例, 115127431 字节
- 下载大小: 28338218 字节
- 数据集大小: 115127431 字节
bs-el
- 训练集: 137602 个示例, 57102373 字节
- 下载大小: 16418250 字节
- 数据集大小: 57102373 字节
bg-en
- 训练集: 213160 个示例, 84421414 字节
- 下载大小: 23509552 字节
- 数据集大小: 84421414 字节
bs-en
- 训练集: 138387 个示例, 38167846 字节
- 下载大小: 13477699 字节
- 数据集大小: 38167846 字节
el-en
- 训练集: 227168 个示例, 95011154 字节
- 下载大小: 26637317 字节
- 数据集大小: 95011154 字节
bg-hr
- 训练集: 203465 个示例, 81774321 字节
- 下载大小: 23165617 字节
- 数据集大小: 81774321 字节
bs-hr
- 训练集: 138402 个示例, 38742816 字节
- 下载大小: 13887348 字节
- 数据集大小: 38742816 字节
el-hr
- 训练集: 205008 个示例, 86642323 字节
- 下载大小: 24662936 字节
- 数据集大小: 86642323 字节
en-hr
- 训练集: 205910 个示例, 57995502 字节
- 下载大小: 20238640 字节
- 数据集大小: 57995502 字节
bg-mk
- 训练集: 207169 个示例, 110119623 字节
- 下载大小: 26507432 字节
- 数据集大小: 110119623 字节
bs-mk
- 训练集: 132779 个示例, 53972847 字节
- 下载大小: 15267045 字节
- 数据集大小: 53972847 字节
el-mk
- 训练集: 207262 个示例, 115285053 字节
- 下载大小: 28103006 字节
- 数据集大小: 115285053 字节
en-mk
- 训练集: 207777 个示例, 84735835 字节
- 下载大小: 23316519 字节
- 数据集大小: 84735835 字节
hr-mk
- 训练集: 198876 个示例, 82230621 字节
- 下载大小: 23008021 字节
- 数据集大小: 82230621 字节
bg-ro
- 训练集: 210842 个示例, 88058251 字节
- 下载大小: 24592883 字节
- 数据集大小: 88058251 字节
bs-ro
- 训练集: 137365 个示例, 40894475 字节
- 下载大小: 14272958 字节
- 数据集大小: 40894475 字节
el-ro
- 训练集: 212359 个示例, 93167572 字节
- 下载大小: 26164582 字节
- 数据集大小: 93167572 字节
en-ro
- 训练集: 213047 个示例, 63354811 字节
- 下载大小: 21549096 字节
- 数据集大小: 63354811 字节
hr-ro
- 训练集: 203777 个示例, 61696975 字节
- 下载大小: 21276645 字节
- 数据集大小: 61696975 字节
mk-ro
- 训练集: 206168 个示例, 88449831 字节
- 下载大小: 24409734 字节
- 数据集大小: 88449831 字节
bg-sq
- 训练集: 211518 个示例, 87552911 字节
- 下载大小: 24385772 字节
- 数据集大小: 87552911 字节
bs-sq
- 训练集: 137953 个示例, 40407355 字节
- 下载大小: 14097831 字节
- 数据集大小: 40407355 字节
el-sq
- 训练集: 226577 个示例, 98779961 字节
- 下载大小: 27676986 字节
- 数据集大小: 98779961 字节
en-sq
- 训练集: 227516 个示例, 66898163 字节
- 下载大小: 22718906 字节
- 数据集大小: 66898163 字节
hr-sq
- 训练集: 205044 个示例, 61296829 字节
- 下载大小: 21160637 字节
- 数据集大小: 61296829 字节
mk-sq
- 训练集: 206601 个示例, 88053621 字节
- 下载大小: 24241420 字节
- 数据集大小: 88053621 字节
ro-sq
- 训练集: 212320 个示例, 66845652 字节
- 下载大小: 22515258 字节
- 数据集大小: 66845652 字节
bg-sr
- 训练集: 211172 个示例, 84698624 字节
- 下载大小: 24007151 字节
- 数据集大小: 84698624 字节
bs-sr
- 训练集: 135945 个示例, 38418660 字节
- 下载大小: 13804698 字节
- 数据集大小: 38418660 字节
el-sr
- 训练集: 224311 个示例, 95035416 字节
- 下载大小: 27108001 字节
- 数据集大小: 95035416 字节
en-sr
- 训练集: 225169 个示例, 63670296 字节
- 下载大小: 22279147 字节
- 数据集大小: 63670296 字节
hr-sr
- 训练集: 203989 个示例, 58560895 字节
- 下载大小: 20791317 字节
- 数据集大小: 58560895 字节
mk-sr
- 训练集: 207295 个示例, 85333924 字节
- 下载大小: 23878419 字节
- 数据集大小: 85333924 字节
ro-sr
- 训练集: 210612 个示例, 63899703 字节
- 下载大小: 22113558 字节
- 数据集大小: 63899703 字节
sq-sr
- 训练集: 224595 个示例, 67503584 字节
- 下载大小: 23330640 字节
- 数据集大小: 67503584 字节
bg-tr
- 训练集: 206071 个示例, 86915746 字节
- 下载大小: 23915651 字节
- 数据集大小: 86915746 字节
bs-tr
- 训练集: 133958 个示例, 40280655 字节
- 下载大小: 13819443 字节
- 数据集大小: 40280655 字节
el-tr
- 训练集: 207029 个示例, 91637159 字节
- 下载大小: 25396713 字节
- 数据集大小: 91637159 字节
en-tr
- 训练集: 207678 个示例, 62858968 字节
- 下载大小: 21049989 字节
- 数据集大小: 62858968 字节
hr-tr
- 训练集: 199260 个示例, 61188085 字节
- 下载大小: 20809412 字节
- 数据集大小: 61188085 字节
mk-tr
- 训练集: 203231 个示例, 87536870 字节
- 下载大小: 23781873 字节
- 数据集大小: 87536870 字节
ro-tr
- 训练集: 206104 个示例, 66726535 字节
- 下载大小: 22165394 字节
- 数据集大小: 66726535 字节
sq-tr
- 训练集: 207107 个示例, 66371734 字节
- 下载大小: 22014678 字节
- 数据集大小: 66371734 字节
sr-tr
- 训练集: 205993 个示例, 63371906 字节
- 下载大小: 21602038 字节
- 数据集大小: 63371906 字节

搜集汇总

数据集介绍

构建方式

在自然语言处理与机器翻译研究领域，平行语料库的构建是推动多语言技术发展的基石。SETimes数据集源自东南欧地区的新闻文本，通过系统性地收集保加利亚语、波斯尼亚语、希腊语、英语、克罗地亚语、马其顿语、罗马尼亚语、阿尔巴尼亚语、塞尔维亚语和土耳其语这十种语言的原文报道，并利用人工与自动校验相结合的方式，构建了涵盖45个语言对的平行语料。每个语对均以句子级别对齐，确保翻译的准确性与一致性，最终形成规模介于10万至100万句对之间的高质量训练集。

特点

该数据集的核心特色在于其多语言覆盖的广度与针对性，聚焦于英语与东南欧语言之间的翻译任务，填补了该区域低资源语言对的数据空白。每个语言对均提供独立的配置项，便于研究者按需加载。数据以统一的id和translation字段存储，结构简洁，且所有语料均采用CC-BY-SA-4.0许可协议，保证了学术与商业使用的合法性。此外，数据规模适中，既避免了过大数据带来的训练负担，又足以支撑有效的模型训练。

使用方法

使用者可通过HuggingFace的datasets库便捷加载该数据集，例如使用load_dataset函数并指定对应的config_name（如'bg-en'）来获取特定语言对的平行句对。每个配置仅包含训练集分裂，可直接用于机器翻译模型的训练与评估。数据以字典形式呈现，包含唯一的id标识及含源语言与目标语言文本的translation字段。研究者可基于此数据构建序列到序列模型，或将其作为多语言翻译系统的基准测试集。

背景与挑战

背景概述

SETimes平行语料库由克罗地亚萨格勒布大学人文学院自然语言处理实验室创建，旨在填补东南欧语言在机器翻译领域的数据空白。该语料库收录了保加利亚语、波斯尼亚语、希腊语、英语、克罗地亚语、马其顿语、罗马尼亚语、阿尔巴尼亚语、塞尔维亚语和土耳其语等十种语言的新闻文本，形成超过40个双语对齐子集，总计逾20万条平行句对。作为面向低资源语言翻译研究的重要基础设施，SETimes不仅为巴尔干地区多语言互译提供了标准化训练数据，更推动了神经机器翻译模型在该地域语言对上的性能突破，其影响力辐射至计算语言学、区域语言技术开发及文化遗产数字化保护等多个领域。

当前挑战

该数据集面临的核心挑战在于多语言对齐的精度与覆盖度之间的平衡。由于东南欧语言普遍存在形态丰富、语序灵活及方言变体复杂等特性，自动对齐算法在处理保加利亚语-马其顿语等高度相似语言对时易产生噪声，而阿尔巴尼亚语、土耳其语等非斯拉夫语系的加入更增加了跨语族对齐的难度。构建过程中，从网络新闻源抓取的原始文本需经分词、句子分割及双语映射等多步标准化处理，但部分语言缺乏成熟的自然语言处理工具链，导致人工校验成本高昂。此外，语料库仅包含单一新闻领域文本，限制了模型对口语、文学等非正式语体的泛化能力，且时间跨度集中于2000年代初期，未能反映当代网络用语演变。

常用场景

经典使用场景

SETimes语料库作为东南欧语言与英语之间的平行翻译资源，在机器翻译领域具有举足轻重的地位。该数据集涵盖了保加利亚语、波斯尼亚语、希腊语、英语、克罗地亚语、马其顿语、罗马尼亚语、阿尔巴尼亚语、塞尔维亚语和土耳其语等十种语言，提供了超过20万句对的双语对齐数据。其最经典的使用场景是训练和评估神经机器翻译模型，尤其适用于低资源语言对之间的翻译任务，例如保加利亚语-马其顿语或阿尔巴尼亚语-塞尔维亚语等组合。研究者常利用该语料库构建多语言翻译系统，探索跨语言迁移学习的有效性，并以此作为基准测试集来比较不同架构的翻译性能。

实际应用

在实际应用层面，SETimes数据集催生了面向巴尔干地区的多语言翻译服务，助力跨国新闻传播、旅游指南本地化和法律文件互译等场景。基于该语料库训练的翻译引擎，能够实现保加利亚语与希腊语、罗马尼亚语与土耳其语之间的自动转换，显著降低了人工翻译成本。在欧盟多语言政务系统中，该数据集被用于开发辅助翻译工具，支持东南欧成员国之间的信息互通。此外，它还被整合到开源翻译平台和移动应用中，为区域内的语言障碍消除提供了技术支撑，促进了文化多样性的交流与融合。

衍生相关工作

SETimes数据集衍生了一系列经典学术工作，成为低资源机器翻译领域的基石。研究者基于该语料库提出了多语言共享编码器-解码器架构，验证了跨语言参数共享的有效性。在无监督神经机器翻译方向，该数据集被用作评估跨语言词嵌入对齐和回译策略的黄金标准。此外，它启发了针对巴尔干语言的语言模型预训练任务，催生了如SETimes-BERT等专用预训练模型。该语料库还促进了多语言翻译质量评估指标的研究，为BLEU、chrF等自动评价方法在东南欧语言上的适配提供了关键测试平台。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集