sfrontull/autonomia-lld_valbadia-ita
收藏Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/sfrontull/autonomia-lld_valbadia-ita
下载链接
链接失效反馈官方服务:
资源简介:
Testset 2数据集包含拉定语和意大利语的平行句子。数据集由两个文件组成,分别包含拉定语和意大利语的句子,且句子之间是一一对应的关系。文件格式为纯文本,编码为UTF-8。
Testset 1 consists of parallel sentences in Ladin and Italian. The dataset contains two separate files with aligned sentences. Each line in the Ladin file corresponds to the same line number in the Italian file, providing a straightforward mapping between the languages.
提供机构:
sfrontull
原始信息汇总
数据集卡片:Testset 2
概述
数据集名称: Testset 2
来源论文: "Rule-Based, Neural and LLM Back-Translation: Comparative Insights from a Variant of Ladin"
描述: Testset 2 包含 Ladin 和意大利语的平行句子。数据集包含两个单独的文件,每个文件中的句子按行对齐。Ladin 文件中的每一行对应于意大利语文件中相同行号的句子,提供了两种语言之间的直接映射。
数据集结构
- 文件:
autonomia-lvb.txt: 包含 Ladin 句子,每行一个。autonomia-ita.txt: 包含相应 Ladin 句子的意大利语翻译,每行一个。
格式
- 文件类型: 纯文本
- 编码: UTF-8
- 句子对齐: 1-to-1
引用
如果您使用此数据集,请引用以下论文:
bibtex @article{Frontull:Moser:2024, title={Rule-Based, Neural and LLM Back-Translation: Comparative Insights from a Variant of Ladin}, author={Frontull, Samuel and Moser, Georg}, journal={arXiv preprint arXiv:2407.08819}, year={2024} }



