five

sfrontull/stiftungsparkasse-lld_valbadia-ita

收藏
Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/sfrontull/stiftungsparkasse-lld_valbadia-ita
下载链接
链接失效反馈
官方服务:
资源简介:
Testset 1数据集包含拉定语和意大利语的平行句对。数据集由两个文件组成,分别包含拉定语和意大利语的句子,且每行句子在两个文件中是对齐的。文件格式为纯文本,编码为UTF-8,句子对齐方式为1对1。

Testset 1 consists of parallel sentences in Ladin and Italian. The dataset contains two separate files with aligned sentences. Each line in the Ladin file corresponds to the same line number in the Italian file, providing a straightforward mapping between the languages. The file format is plain text, encoded in UTF-8, with 1-to-1 sentence alignment.
提供机构:
sfrontull
原始信息汇总

数据集卡片:Testset 1

概述

数据集名称: Testset 1

来源论文: "Rule-Based, Neural and LLM Back-Translation: Comparative Insights from a Variant of Ladin"

描述: Testset 1 包含 Ladin 和意大利语的平行句子。数据集包含两个单独的文件,分别包含对齐的句子。Ladin 文件中的每一行对应于意大利语文件中相同行号的句子,提供了两种语言之间的直接映射。

数据集结构

  • 文件:
    • statut-lvb.txt: 包含 Ladin 句子,每行一个句子。
    • statut-ita.txt: 包含对应 Ladin 句子的意大利语翻译,每行一个句子。

格式

  • 文件类型: 纯文本
  • 编码: UTF-8
  • 句子对齐: 1-to-1

引用

如果使用此数据集,请引用以下论文:

bibtex @article{Frontull:Moser:2024, title={Rule-Based, Neural and LLM Back-Translation: Comparative Insights from a Variant of Ladin}, author={Frontull, Samuel and Moser, Georg}, journal={arXiv preprint arXiv:2407.08819}, year={2024} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作