ConseggioLigure/lijnews-instruct-ita-lij
收藏数据集概述
数据集名称
LigurianNews ita-lij translation dataset (instruction-style)
许可
cc-by-4.0
任务类别
- 对话
- 翻译
数据集特征
- inputs: 输入文本,数据类型为字符串
- targets: 目标文本,数据类型为字符串
- template_id: 模板ID,数据类型为整数
- template_lang: 模板语言,数据类型为字符串序列
数据集分割
- train: 训练集,包含287435字节,153个样本
- dev: 验证集,包含47392字节,27个样本
- test: 测试集,包含67206字节,36个样本
数据集大小
- 下载大小: 294010字节
- 数据集大小: 402033字节
配置
- config_name: default
- data_files:
- train: data/train-*
- dev: data/dev-*
- test: data/test-*
- data_files:
数据集描述
这是一个意大利语到利古里亚语的文档级翻译数据集。原始数据来自LigurianNews corpus,并已转换为指令格式。
提示模板
提示以意大利语编写,要求模型“将以下文本翻译成利古里亚语”。有多个提示变体,每个句子随机抽样使用。提示中将语言称为_ligure_(“利古里亚语”)和_genovese_(“热那亚语”——本数据集中使用的特定利古里亚语方言):
Traduci in genovese: <sentence> Traduci in ligure: <sentence> Traduci dall’italiano al genovese: <sentence> Traduci dall’italiano al ligure: <sentence> Traduci dall’italiano al ligure (genovese): <sentence> Traduci questo testo in genovese: <sentence> Traduci in lingua genovese: <sentence> Qual è la traduzione genovese di questo testo? <sentence> Puoi tradurre questo testo in genovese? <sentence>
每个数据集条目使用的提示模板在template_id列中引用,ID范围从1到9,按上述顺序排列。目标文本始终以字符串_"La traduzione in genovese del testo è: <sentence>"_(“文本的热那亚语翻译是:”)为前缀。
模板对应关系
[ (1, "Traduci in genovese: ", "La traduzione in genovese del testo è: "), (2, "Traduci in ligure: ", "La traduzione in genovese del testo è: "), (3, "Traduci dall’italiano al genovese: ", "La traduzione in genovese del testo è: "), (4, "Traduci dall’italiano al ligure: ", "La traduzione in genovese del testo è: "), (5, "Traduci dall’italiano al ligure (genovese): ", "La traduzione in genovese del testo è: "), (6, "Traduci questo testo in genovese: ", "La traduzione in genovese del testo è: "), (7, "Traduci in lingua genovese: ", "La traduzione in genovese del testo è: "), (8, "Qual è la traduzione genovese di questo testo? ", "La traduzione in genovese del testo è: "), (9, "Puoi tradurre questo testo in genovese? ", "La traduzione in genovese del testo è: "), ]
样本数量
- 训练样本: 153
- 验证样本: 27
- 测试样本: 36



