Govardhan-06/flores_eng_mal
收藏数据集概述
数据集描述
该数据集是FLORES-101数据集的一个自定义子集,专门用于英语到马拉雅拉姆语的翻译任务。它包含英语和马拉雅拉姆语的平行句子。
支持的任务
该数据集主要支持以下任务:
- 机器翻译:将文本从英语翻译成马拉雅拉姆语。
语言
数据集包含以下语言的平行语料:
- 英语 (eng_Latn)
- 马拉雅拉姆语 (mal_Mlym)
数据结构
数据实例
每个实例是英语和马拉雅拉姆语的一对句子。示例如下: json { "sentence_eng_Latn": "This is an example sentence.", "sentence_mal_Mlym": "ഇത് ഒരു ഉദാഹരണ വാചകമാണ്." }
数据字段
sentence_eng_Latn:英语源句子。sentence_mal_Mlym:马拉雅拉姆语目标句子。
数据分割
数据集分为以下部分:
train:训练集,包含1,808个实例。test:测试集,包含201个实例。
数据集创建
数据来源
源数据来自Facebook AI提供的FLORES-101数据集。
标注
标注包括英语和马拉雅拉姆语句子之间的平行翻译。
使用数据的注意事项
社会影响
该数据集可用于改进机器翻译系统,从而提高马拉雅拉姆语使用者的沟通和可访问性。
伦理考虑
确保翻译尊重两种语言的文化和语境细微差别。用户应注意机器翻译模型中可能存在的偏见。
致谢
该数据集是使用Facebook AI的FLORES-101数据集资源整理的。
引用
如果使用此数据集,请引用以下内容: bibtex @misc{goyal2021flores, title={The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation}, author={Naman Goyal and Angela Fan and Mike Lewis and Xian Li and Marjan Ghazvininejad and Team Chau and Vishrav Chaudhary and MarcAurelio Ranzato}, year={2021}, eprint={2106.03193}, archivePrefix={arXiv}, primaryClass={cs.CL} }
bibtex @misc{your-dataset, title={Your Dataset Title}, author={Your Name}, year={2024}, url={https://huggingface.co/datasets/your-dataset-repo} }



