five

ConseggioLigure/lijnews-instruct-ita-lij

收藏
Hugging Face2024-01-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ConseggioLigure/lijnews-instruct-ita-lij
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个意大利语到利古里亚语的文档级翻译数据集。数据来源于LigurianNews语料库,并已转换为指令格式。提示语以意大利语书写,要求模型将文本翻译成利古里亚语。提示语有多种变体,每种变体随机分配给每个句子。数据集包含153个训练样本、27个验证样本和36个测试样本。

这是一个意大利语到利古里亚语的文档级翻译数据集。数据来源于LigurianNews语料库,并已转换为指令格式。提示语以意大利语书写,要求模型将文本翻译成利古里亚语。提示语有多种变体,每种变体随机分配给每个句子。数据集包含153个训练样本、27个验证样本和36个测试样本。
提供机构:
ConseggioLigure
原始信息汇总

数据集概述

数据集名称

LigurianNews ita-lij translation dataset (instruction-style)

许可

cc-by-4.0

任务类别

  • 对话
  • 翻译

数据集特征

  • inputs: 输入文本,数据类型为字符串
  • targets: 目标文本,数据类型为字符串
  • template_id: 模板ID,数据类型为整数
  • template_lang: 模板语言,数据类型为字符串序列

数据集分割

  • train: 训练集,包含287435字节,153个样本
  • dev: 验证集,包含47392字节,27个样本
  • test: 测试集,包含67206字节,36个样本

数据集大小

  • 下载大小: 294010字节
  • 数据集大小: 402033字节

配置

  • config_name: default
    • data_files:
      • train: data/train-*
      • dev: data/dev-*
      • test: data/test-*

数据集描述

这是一个意大利语到利古里亚语的文档级翻译数据集。原始数据来自LigurianNews corpus,并已转换为指令格式。

提示模板

提示以意大利语编写,要求模型“将以下文本翻译成利古里亚语”。有多个提示变体,每个句子随机抽样使用。提示中将语言称为_ligure_(“利古里亚语”)和_genovese_(“热那亚语”——本数据集中使用的特定利古里亚语方言):

Traduci in genovese: <sentence> Traduci in ligure: <sentence> Traduci dall’italiano al genovese: <sentence> Traduci dall’italiano al ligure: <sentence> Traduci dall’italiano al ligure (genovese): <sentence> Traduci questo testo in genovese: <sentence> Traduci in lingua genovese: <sentence> Qual è la traduzione genovese di questo testo? <sentence> Puoi tradurre questo testo in genovese? <sentence>

每个数据集条目使用的提示模板在template_id列中引用,ID范围从1到9,按上述顺序排列。目标文本始终以字符串_"La traduzione in genovese del testo è: <sentence>"_(“文本的热那亚语翻译是:”)为前缀。

模板对应关系

[ (1, "Traduci in genovese: ", "La traduzione in genovese del testo è: "), (2, "Traduci in ligure: ", "La traduzione in genovese del testo è: "), (3, "Traduci dall’italiano al genovese: ", "La traduzione in genovese del testo è: "), (4, "Traduci dall’italiano al ligure: ", "La traduzione in genovese del testo è: "), (5, "Traduci dall’italiano al ligure (genovese): ", "La traduzione in genovese del testo è: "), (6, "Traduci questo testo in genovese: ", "La traduzione in genovese del testo è: "), (7, "Traduci in lingua genovese: ", "La traduzione in genovese del testo è: "), (8, "Qual è la traduzione genovese di questo testo? ", "La traduzione in genovese del testo è: "), (9, "Puoi tradurre questo testo in genovese? ", "La traduzione in genovese del testo è: "), ]

样本数量

  • 训练样本: 153
  • 验证样本: 27
  • 测试样本: 36
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作