five

ashokpoudel/English-Nepali-Translation-Instruction-Dataset

收藏
Hugging Face2023-10-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ashokpoudel/English-Nepali-Translation-Instruction-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由英语-尼泊尔语平行句子转换为指令格式的条目组成。每个条目提示模型将给定句子从英语翻译成尼泊尔语或反之。数据集支持英语到尼泊尔语和尼泊尔语到英语的翻译。
提供机构:
ashokpoudel
原始信息汇总

数据集卡片:基于指令的英-尼翻译数据集

数据集描述

该数据集包含英-尼并行句子的基于指令的格式转换。每个条目提示模型将给定的句子从英语翻译成尼泊尔语或反之。

数据来源

原始数据集:英-尼并行句子
论文NepBERTa: 在大规模语料库中训练的尼泊尔语语言模型
作者:Milan Gautam, Sulav Timilsina, Binod Bhattarai
会议:亚太计算语言学协会第2届会议暨第12届自然语言处理国际联合会议(短论文卷2)

数据集格式

数据集中的每个条目具有以下格式:

[INST] 请将 "源语言中的句子" 翻译成目标语言 [/INST] 目标语言中的翻译

该数据集支持英语到尼泊尔语和尼泊尔语到英语的翻译。

预期用途

该数据集旨在用于基于指令的翻译任务的模型微调,特别适用于Llama Instruct等模型。它可以用于开发能够使用基于指令的提示进行英-尼翻译的模型。

数据收集

数据源自NepBERTa论文中提出的英-尼并行语料库。然后将这些句子转换为基于指令的格式,以便与基于指令的模型进行训练。

局限性

  • 数据集的性能和实用性受限于原始英-尼语料库的质量。
  • 基于指令的格式可能引入一些冗余,可能不适用于所有NLP任务或模型。

许可

确保您有权分享数据并了解任何许可影响。在此提及数据集的许可条款。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作