zenamt-document-level

Hugging Face2025-04-25 更新2025-04-26 收录

下载链接：

https://huggingface.co/datasets/ConseggioLigure/zenamt-document-level

下载链接

链接失效反馈

官方服务：

资源简介：

ZenaMT语料库是一个意大利语与利古里亚语（热那亚语）的平行语料库，文档级别，包含多个对利古里亚语使用者文化相关性强的领域的文本，如词典示例句子、新闻、谚语、文学作品、对话、网站数据、短故事、命名实体和天气预报等。部分文本还提供了与英语的对齐翻译。

创建时间：

2025-04-25

搜集汇总

数据集介绍

构建方式

ZenaMT语料库（文档级版本）的构建基于多元文化领域的平行文本采集，涵盖利古里亚语（热那亚方言）与意大利语的双语对照材料，部分语料还包含英语的三重对齐。数据来源包括新闻网站、谚语集、文学评论、对话脚本等九个文化子领域，原始文档根据结构完整性被标注为文档级或句子级。语料采用动态更新机制，随着来源数据的增长持续扩充。

特点

该数据集的核心价值在于其文化语境完整性，完整保留文档级语言单位（如新闻报道、短篇故事）的原生结构，同时通过level字段明确区分文档级与句子级数据。数据集覆盖利古里亚语文化核心领域，包含9个子语料库的9333个训练样本，支持意大利语-利古里亚语双向翻译及部分英语辅助研究。多粒度标注体系为文档级机器翻译模型训练提供独特资源。

使用方法

研究者可通过HuggingFace平台直接加载数据集，默认配置包含训练集、验证集和测试集划分。文档级数据适用于篇章感知的神经机器翻译模型训练，若需纯句子级数据可转向同源句子级版本。使用时应关注source字段的子语料库标识，便于领域适应性研究。学术引用需遵循提供的BibTeX格式，注明原始论文作者对利古里亚语文化语境研究的贡献。

背景与挑战

背景概述

ZenaMT文档级平行语料库由Haberland等人于2024年构建，旨在促进意大利语与利古里亚语（热那亚方言）之间的机器翻译研究。该数据集由Conseggio Ligure协会主导开发，涵盖了新闻、谚语、文学、对话等多元文化领域，特别注重保留利古里亚语的文化语境特征。作为低资源语言技术的代表性成果，其创新性体现在文档级对齐架构上，为研究文化特异性文本的翻译建模提供了重要基准。数据集通过动态更新的机制持续扩展，相关成果已发表于SIGUL 2024会议，对濒危语言保护与数字复兴具有显著意义。

当前挑战

该数据集面临的核心挑战体现在两方面：领域问题上，低资源语言对缺乏充足训练数据，且文化专有项（如谚语、地名）的翻译需要深层语义理解；构建过程中，原始材料存在文档与句子混合形态，需设计分级标注体系（document/sentence）保持结构一致性，同时多源数据（词典、网站、用户生成内容）的格式异构性增加了清洗难度。此外，动态更新机制要求持续维护数据版本与质量平衡，这对长期研究可复现性提出了特殊要求。

常用场景

经典使用场景

在机器翻译领域，ZenaMT文档级语料库为研究者提供了意大利语与利古里亚语（热那亚方言）之间的平行文本资源。该数据集特别适用于文档级机器翻译模型的训练与评估，因其保留了原始文档的完整结构和上下文信息，能够捕捉语言转换中的篇章连贯性和文化特定表达。新闻、谚语、文学作品等多样化领域文本，为模型提供了丰富的语言变体和文化背景。

实际应用

在实际应用中，该数据集支撑了利古里亚语社区的数字化服务开发。基于该语料训练的翻译系统已应用于当地新闻网站O Zinâ的多语言内容生成，以及文化遗产数字化项目中的历史文献翻译。教育领域则利用其对话和故事子集开发语言学习工具，帮助非母语者掌握这一区域性语言的日常用法和文化内涵。

衍生相关工作

该语料库催生了多项关于低资源语言机器翻译的创新研究，如Haberland等人提出的文化敏感翻译框架（2024）。其文档级结构启发了后续关于上下文感知翻译模型的工作，部分成果已扩展至其他濒危语言保护项目。数据集中的谚语和文学子集更成为计算民俗学和数字人文研究的基准数据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集