el2e10/aya-paraphrase-gujarati

Name: el2e10/aya-paraphrase-gujarati
Creator: el2e10
Published: 2024-01-26 14:14:05
License: 暂无描述

Hugging Face2024-01-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/el2e10/aya-paraphrase-gujarati

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集源自AI4Bharat已有的数据集，特别是使用了IndicXParaphrase数据集的马拉雅拉姆语部分来创建这个指令风格的数据集。IndicXParaphrase是一个多语言的、n路并行的数据集，用于10种印度语言的释义检测。原始数据集（IndicXParaphrase）是在cc-0许可下提供的。该数据集是作为Cohere For AI的Aya Open Science Initiative的一部分创建的。

提供机构：

el2e10

原始信息汇总

数据集概述

基本信息

语言: 古吉拉特语 (gu)
许可证: cc
数据集大小分类: n<1K
任务类别: 文本生成
数据集名称: Aya Paraphrase Gujarati

数据集结构

特征

inputs: 字符串类型
targets: 字符串类型
template_lang: 字符串类型
template_id: 整数类型 (int64)

数据分割

训练集 (train)
- 字节数: 623061
- 样本数: 1001

文件信息

下载大小: 226705
数据集大小: 623061

配置

配置名称: default
- 数据文件:
  - 分割: train
  - 路径: data/train-*

数据集描述

该数据集源自AI4Bharat已有的数据集，使用IndicXParaphrase数据集创建。该数据集是多语言的n-way并行数据集，用于10种印度语言的释义检测。

模板

以下模板用于转换原始数据集：

模板1

prompt: નીચેના વાક્યને અલગ શબ્દોનો ઉપયોગ કરીને લખો: "{original_sentence}"

completion: {paraphrased_sentence}

模板2

prompt: નીચેના વાક્યને અલગ રીતે ફરીથી લખો: "{original_sentence}"

completion: {paraphrased_sentence}

模板3

prompt: નીચેના વાક્યને બીજા સ્વરૂપમાં ફરીથી લખો: "{original_sentence}"

completion: {paraphrased_sentence}

致谢

感谢Jay Patel在准备此数据集时提供的古吉拉特语翻译帮助。

5,000+

优质数据集

54 个

任务类型

进入经典数据集