sfrontull/stiftungsparkasse-lld_valbadia-ita
收藏Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/sfrontull/stiftungsparkasse-lld_valbadia-ita
下载链接
链接失效反馈官方服务:
资源简介:
Testset 1数据集包含拉定语和意大利语的平行句对。数据集由两个文件组成,分别包含拉定语和意大利语的句子,且每行句子在两个文件中是对齐的。文件格式为纯文本,编码为UTF-8,句子对齐方式为1对1。
Testset 1 consists of parallel sentences in Ladin and Italian. The dataset contains two separate files with aligned sentences. Each line in the Ladin file corresponds to the same line number in the Italian file, providing a straightforward mapping between the languages. The file format is plain text, encoded in UTF-8, with 1-to-1 sentence alignment.
提供机构:
sfrontull
原始信息汇总
数据集卡片:Testset 1
概述
数据集名称: Testset 1
来源论文: "Rule-Based, Neural and LLM Back-Translation: Comparative Insights from a Variant of Ladin"
描述: Testset 1 包含 Ladin 和意大利语的平行句子。数据集包含两个单独的文件,分别包含对齐的句子。Ladin 文件中的每一行对应于意大利语文件中相同行号的句子,提供了两种语言之间的直接映射。
数据集结构
- 文件:
statut-lvb.txt: 包含 Ladin 句子,每行一个句子。statut-ita.txt: 包含对应 Ladin 句子的意大利语翻译,每行一个句子。
格式
- 文件类型: 纯文本
- 编码: UTF-8
- 句子对齐: 1-to-1
引用
如果使用此数据集,请引用以下论文:
bibtex @article{Frontull:Moser:2024, title={Rule-Based, Neural and LLM Back-Translation: Comparative Insights from a Variant of Ladin}, author={Frontull, Samuel and Moser, Georg}, journal={arXiv preprint arXiv:2407.08819}, year={2024} }



