five

ConseggioLigure/seed-instruct-lij-eng

收藏
Hugging Face2024-01-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ConseggioLigure/seed-instruct-lij-eng
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个利古里亚语到英语的句子级翻译数据集。原始数据来源于OLDI Seed数据集,并已转换为指令格式。数据集中包含多个提示模板,用于指导模型将利古里亚语文本翻译为英语。每个数据条目都包含一个`template_id`,用于引用特定的提示模板。数据集分为训练集、开发集和测试集,分别包含5802、189和202个样本。

这是一个利古里亚语到英语的句子级翻译数据集。原始数据来源于OLDI Seed数据集,并已转换为指令格式。数据集中包含多个提示模板,用于指导模型将利古里亚语文本翻译为英语。每个数据条目都包含一个`template_id`,用于引用特定的提示模板。数据集分为训练集、开发集和测试集,分别包含5802、189和202个样本。
提供机构:
ConseggioLigure
原始信息汇总

数据集概述

数据集名称

OLDI Seed lij-eng translation dataset (instruction-style)

许可协议

cc-by-sa-4.0

任务类别

  • 对话
  • 翻译

数据集信息

特征

  • inputs: 字符串类型
  • targets: 字符串类型
  • template_id: 64位整数类型
  • template_lang: 字符串序列类型

数据分割

  • train: 2381132字节,5802个样本
  • dev: 79921字节,189个样本
  • test: 87507字节,202个样本

数据大小

  • 下载大小: 1292161字节
  • 数据集大小: 2548560字节

配置

  • config_name: default
    • data_files:
      • train: data/train-*
      • dev: data/dev-*
      • test: data/test-*

数据集描述

该数据集是一个利古里亚语到英语的句子级翻译数据集。原始数据来自OLDI Seed数据集,并已转换为指令格式。提示语以利古里亚语编写,要求模型将文本翻译成英语。有多个提示模板变体,每个句子随机抽取。

提示模板示例

Traduxi in ingleise: <sentence> Traduxi da-o zeneise à l’ingleise: <sentence> Traduxi da-o ligure à l’ingleise: <sentence> Traduxi sto testo in ingleise: <sentence> Traduxi in lengua ingleise: <sentence> Traduxi sto testo da-o zeneise à l’ingleise: <sentence> Traduxi sto testo da-o ligure à l’ingleise: <sentence> Comm’à l’é a traduçion ingleise de sto testo? <sentence> Quæ a l’é a traduçion ingleise de sto testo? <sentence> Ti peu tradue sto testo in ingleise? <sentence>

模板ID与提示模板对应关系

[ (1, "Traduxi in ingleise: ", ""A traduçion in ingleise do testo a l’é: "), (2, "Traduxi da-o zeneise à l’ingleise: ", ""A traduçion in ingleise do testo a l’é: "), (3, "Traduxi da-o ligure à l’ingleise: ", ""A traduçion in ingleise do testo a l’é: "), (4, "Traduxi sto testo in ingleise: ", ""A traduçion in ingleise do testo a l’é: "), (5, "Traduxi in lengua ingleise: ", ""A traduçion in ingleise do testo a l’é: "), (6, "Traduxi sto testo da-o zeneise à l’ingleise: ", ""A traduçion in ingleise do testo a l’é: "), (7, "Traduxi sto testo da-o ligure à l’ingleise: ", ""A traduçion in ingleise do testo a l’é: "), (8, "Comm’à l’é a traduçion ingleise de sto testo? ", ""A traduçion in ingleise do testo a l’é: "), (9, "Quæ a l’é a traduçion ingleise de sto testo? ", ""A traduçion in ingleise do testo a l’é: "), (10, "Ti peu tradue sto testo in ingleise? ", ""A traduçion in ingleise do testo a l’é: "), ]

数据集样本数量

  • 训练样本: 5802
  • 验证样本: 190
  • 测试样本: 201
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作