five

Govardhan-06/flores_eng_mal

收藏
Hugging Face2024-07-04 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/Govardhan-06/flores_eng_mal
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从FLORES-101数据集中定制的子集,专门用于英语到马拉雅拉姆语的翻译任务。它包含英语和马拉雅拉姆语的平行句子。数据集支持的主要任务是机器翻译,特别是从英语翻译到马拉雅拉姆语。数据集结构包括训练集和测试集,分别包含1808和201个实例。每个实例由一对句子组成,分别是英语句子和对应的马拉雅拉姆语翻译。数据集的创建目的是为英语-马拉雅拉姆语对的机器翻译模型提供高质量的训练和评估资源。

This dataset is a custom subset of the FLORES-101 dataset tailored for English to Malayalam translation tasks. It contains parallel sentences in both English and Malayalam. The primary task supported by this dataset is machine translation, specifically translating text from English to Malayalam. The dataset is divided into training and test sets, containing 1,808 and 201 instances respectively. Each instance consists of a pair of sentences: one in English and the corresponding translation in Malayalam. The dataset was created to provide a high-quality resource for training and evaluating machine translation models for the English-Malayalam language pair.
提供机构:
Govardhan-06
原始信息汇总

数据集概述

数据集描述

该数据集是FLORES-101数据集的一个自定义子集,专门用于英语到马拉雅拉姆语的翻译任务。它包含英语和马拉雅拉姆语的平行句子。

支持的任务

该数据集主要支持以下任务:

  • 机器翻译:将文本从英语翻译成马拉雅拉姆语。

语言

数据集包含以下语言的平行语料:

  • 英语 (eng_Latn)
  • 马拉雅拉姆语 (mal_Mlym)

数据结构

数据实例

每个实例是英语和马拉雅拉姆语的一对句子。示例如下: json { "sentence_eng_Latn": "This is an example sentence.", "sentence_mal_Mlym": "ഇത് ഒരു ഉദാഹരണ വാചകമാണ്." }

数据字段

  • sentence_eng_Latn:英语源句子。
  • sentence_mal_Mlym:马拉雅拉姆语目标句子。

数据分割

数据集分为以下部分:

  • train:训练集,包含1,808个实例。
  • test:测试集,包含201个实例。

数据集创建

数据来源

源数据来自Facebook AI提供的FLORES-101数据集。

标注

标注包括英语和马拉雅拉姆语句子之间的平行翻译。

使用数据的注意事项

社会影响

该数据集可用于改进机器翻译系统,从而提高马拉雅拉姆语使用者的沟通和可访问性。

伦理考虑

确保翻译尊重两种语言的文化和语境细微差别。用户应注意机器翻译模型中可能存在的偏见。

致谢

该数据集是使用Facebook AI的FLORES-101数据集资源整理的。

引用

如果使用此数据集,请引用以下内容: bibtex @misc{goyal2021flores, title={The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation}, author={Naman Goyal and Angela Fan and Mike Lewis and Xian Li and Marjan Ghazvininejad and Team Chau and Vishrav Chaudhary and MarcAurelio Ranzato}, year={2021}, eprint={2106.03193}, archivePrefix={arXiv}, primaryClass={cs.CL} }

bibtex @misc{your-dataset, title={Your Dataset Title}, author={Your Name}, year={2024}, url={https://huggingface.co/datasets/your-dataset-repo} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作