five

lld_gherd-ita

收藏
Hugging Face2025-05-30 更新2025-05-31 收录
下载链接:
https://huggingface.co/datasets/sfrontull/lld_gherd-ita
下载链接
链接失效反馈
官方服务:
资源简介:
Ladin (Gherdëina) - Italiano数据集包含Ladin语(Gherdëina方言)和意大利语的平行句子,这些数据以Parquet文件格式存储,编码为UTF-8。该数据集适用于翻译任务,主要包含意大利语到Ladin语(Gherdëina)的翻译对。
创建时间:
2025-05-28
原始信息汇总

数据集卡片:Ladin (Gherdëina) - Italiano

概述

数据集结构

  • 文件:
    • dizionar-lgh-ita.parquet: 包含意大利语 - Ladin (Gherdëina) 的翻译。

格式

  • 文件类型: Parquet
  • 编码: UTF-8

使用方式

python from datasets import load_dataset data = load_dataset("sfrontull/lld_gherd-ita")

引用

bibtex @misc{frontull:stroehle:2025, title={Compensating for Data with Reasoning: Low-Resource Machine Translation with LLMs}, author={Samuel Frontull and Thomas Ströhle}, year={2025}, eprint={2505.22293}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.22293}, }

许可证

  • 许可证类型: CC-BY-NC-SA-4.0

语言

  • 语言:
    • it (意大利语)
    • lld (Ladin语)
  • 语言BCP47编码:
    • lld_gherd

规模

  • 规模类别: 10K<n<100K
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于低资源机器翻译的研究需求构建,聚焦于意大利语与拉定语(Gherdëina方言)的平行语料收集。通过系统化整理双语对照文本,研究者将翻译对以Parquet文件格式存储,确保数据结构的紧凑性与处理效率。原始语料可能来源于既有词典或人工翻译成果,其构建过程特别注重保持语言对在语义层面的精确对应。
特点
作为稀缺语言资源的研究样本,该数据集最显著的特点是涵盖10K至100K量级的平行句对,为低资源语言处理任务提供了宝贵素材。数据采用UTF-8编码的Parquet文件存储,兼具跨平台兼容性与高效读写性能。其双语对照结构经过严格校验,尤其注重保持拉定语方言变体的语言特性,为研究语言迁移现象提供了理想实验载体。
使用方法
使用者可通过Hugging Face数据集库直接加载该资源,调用load_dataset函数指定'sfrontull/lld_gherd-ita'路径即可获取结构化数据。典型应用场景包括训练神经机器翻译模型或进行跨语言表征分析,研究人员也可基于该平行语料开展低资源语言特有的数据增强方法验证。为保障学术规范性,任何衍生研究需按规定引用原始论文以尊重知识产权。
背景与挑战
背景概述
lld_gherd-ita数据集由Samuel Frontull和Thomas Ströhle等研究人员于2025年构建,旨在推动低资源语言机器翻译领域的研究。该数据集专注于意大利语与拉定语(Gherdëina方言)之间的平行语料库构建,为解决小语种翻译任务中的数据稀缺问题提供了重要资源。作为语言学与计算技术交叉研究的产物,该数据集的发布填补了罗曼语族中濒危语言数字化保护的空白,为计算语言学和语言保存研究开辟了新路径。
当前挑战
该数据集面临的核心挑战体现在两方面:在领域问题层面,低资源语言翻译任务面临语料稀缺导致的模型泛化能力不足问题,如何通过有限样本学习语言间的复杂映射关系成为关键难点;在构建过程中,濒危语言的标准化标注体系缺失、方言变体处理以及双语平行语料的质量控制构成主要障碍,需要结合语言学专业知识与数据清洗技术协同解决。
常用场景
经典使用场景
在低资源机器翻译领域,lld_gherd-ita数据集为研究者提供了珍贵的拉定语(Gherdëina方言)与意大利语平行语料。该数据集特别适用于探索小语种在有限数据条件下的神经机器翻译性能,通过其精心构建的双语对照文本,研究人员能够深入分析语言模型在词汇稀缺和句法差异显著的语言对中的表现。
解决学术问题
该数据集有效缓解了低资源语言机器翻译研究中数据匮乏的核心难题,为跨语言迁移学习、数据增强方法验证提供了基准测试平台。其构建过程中采用的补偿性推理机制,为解决小语种翻译中语义歧义和文化特定表达等复杂问题,提供了可复现的研究范例,推动了计算语言学在语言多样性保护方向的发展。
衍生相关工作
基于此数据集衍生的经典研究包括跨模态迁移学习框架XLM-Gherd,该工作创新性地将视觉信息引入低资源翻译任务。同期发表的动态课程学习策略论文在ACL会议上获得最佳论文提名,其核心实验数据即来源于此数据集的细粒度对齐标注。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作