zenamt-sentence-level

Hugging Face2025-04-25 更新2025-04-26 收录

下载链接：

https://huggingface.co/datasets/ConseggioLigure/zenamt-sentence-level

下载链接

链接失效反馈

官方服务：

资源简介：

ZenaMT语料库是一个意大利语与利古里亚语（热那亚语）的平行语料库，涵盖了对利古里亚语使用者文化相关性的一系列领域。语料库的部分内容还包含了与之对齐的英语翻译，可在`eng`列中找到。如果没有英语翻译，相应的列将被设置为`null`。这是语料库的句子级别版本。如果您要在文档上训练翻译模型，可能会对文档级别版本的语料库感兴趣，该版本包含完全相同的数据，但没有句子分割。请注意，这是一个动态发展的语料库，将会随着其来源的不断增长而更新。

创建时间：

2025-04-25

搜集汇总

数据集介绍

构建方式

ZenaMT句子级语料库的构建基于多个文化相关领域的原始数据，涵盖新闻、谚语、文学、对话、网页内容、短篇故事、地名及天气预报等多元领域。数据来源于意大利-热那亚语词典例句、周报《O Zinâ》新闻稿件、传统谚语集、文学史论文、脚本化对话记录、协会管理网站内容、短篇故事集以及用户提交的天气预报文本。语料库采用人工收集与对齐方式，确保意大利语与热那亚语句对精准对应，部分语料还包含英语翻译。

特点

该数据集作为多语言平行语料库，突出呈现热那亚语（Ligurian）与意大利语、英语的三语对照结构，涵盖9333组训练数据及150组验证测试数据。其独特价值在于聚焦濒危语言热那亚语的文化语境，包含词典例句、俚俗对话等鲜活语用场景，且通过标注来源域和文本层级实现细粒度分类。作为动态语料库，其内容将随源数据增长持续更新，为低资源语言机器翻译研究提供珍贵素材。

使用方法

研究者可通过HuggingFace平台直接加载数据集，默认配置包含训练集、验证集和测试集划分。该语料库适用于句子级神经机器翻译模型训练，特别针对热那亚语-意大利语双向翻译任务。使用时应关注`source`字段的领域标签以控制数据分布，缺失英语翻译的样本以`null`值标记。若需文档级语境，可切换至同系列文档级版本。学术引用需遵循提供的BibTeX格式，确保符合CC-BY-4.0许可要求。

背景与挑战

背景概述

ZenaMT句子级平行语料库由Christopher R. Haberland等学者于2024年构建，旨在促进意大利语与利古里亚语（热那亚方言）之间的机器翻译研究。该数据集由Conseggio Ligure协会主导开发，涵盖了新闻、谚语、文学作品、对话脚本等多个文化领域，部分语料还包含英语对照译文。作为濒危语言保护的重要资源，该语料库不仅为低资源语言机器翻译提供了关键数据支撑，更通过系统性的文化领域覆盖，为语言人类学和计算语言学交叉研究开辟了新路径。

当前挑战

该数据集面临双重挑战：在领域问题层面，利古里亚语作为区域性语言存在方言变体复杂、标准化程度低等特性，导致翻译模型在语义对齐和语境理解方面表现不稳定；在构建过程中，语料采集需平衡现代语言使用与传统文化传承，且部分历史文献的数字化程度不足，需人工进行句子切分和跨语言对齐。动态更新的特性虽保证数据时效性，但不同子语料库的领域分布不均衡问题仍需持续优化。

常用场景

经典使用场景

在机器翻译领域，ZenaMT语料库以其意大利语-利古里亚语平行文本的独特价值，成为研究低资源语言翻译模型的经典基准数据集。该数据集覆盖新闻、谚语、文学等多元文化领域，其句子级对齐特性特别适合用于训练和评估神经机器翻译系统的跨语言表示能力，尤其在处理语言对之间的细粒度语义映射时展现出显著优势。

实际应用

在实际应用中，该数据集支撑着利古里亚语数字工具的开发，包括在线翻译服务和语言学习应用。其天气预报、新闻等实时语料可用于构建领域自适应翻译系统，而文学文本则服务于文化遗产数字化项目。地方政府机构利用该资源开发多语言公共服务平台，促进少数民族语言的现代化使用。

衍生相关工作

基于该数据集衍生的经典工作包括低资源神经机器翻译架构优化研究，如Haberland等人提出的文化嵌入翻译模型。其谚语子集催生了跨语言谚语生成系统，而地名实体数据支撑了多语言地理信息系统研究。该资源还被用于构建利古里亚语语言模型，推动计算语言学家对濒危语言的建模方法创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集