Mavkif/Roman-Urdu-Parl-split
收藏Hugging Face2024-11-10 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/Mavkif/Roman-Urdu-Parl-split
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Roman-Urdu-Parl数据集的一个版本,专门用于机器翻译任务中的公平评估。数据集包含乌尔都语和罗马化乌尔都语的平行句子,解决了由于罗马化乌尔都语缺乏标准拼写而导致的数据泄露问题。数据集通过结构化分割确保训练、验证和测试集之间没有重叠,从而促进模型的泛化能力。原始数据集包含6,365,808行平行句子,其中乌尔都语句子有1,087,220个,罗马化乌尔都语句子有3,999,102个。数据集的分割策略包括选择唯一的句子用于验证和测试集,以及包含多个变体的句子用于训练集。此外,数据集还提供了用于快速测试的较小子集,并确保数据完整性。
The Roman-Urdu Parallel Dataset is a dataset containing 6,365,808 rows of parallel sentences in Urdu and Roman-Urdu. The split version of this dataset aims to address the issue of data leakage that may occur with random splitting between training, validation, and test sets. The splitting strategy ensures no overlap between the training, validation, and test sets, thereby promoting generalization in transliteration tasks.
提供机构:
Mavkif



