ConseggioLigure/seed-instruct-lij-eng
收藏数据集概述
数据集名称
OLDI Seed lij-eng translation dataset (instruction-style)
许可协议
cc-by-sa-4.0
任务类别
- 对话
- 翻译
数据集信息
特征
- inputs: 字符串类型
- targets: 字符串类型
- template_id: 64位整数类型
- template_lang: 字符串序列类型
数据分割
- train: 2381132字节,5802个样本
- dev: 79921字节,189个样本
- test: 87507字节,202个样本
数据大小
- 下载大小: 1292161字节
- 数据集大小: 2548560字节
配置
- config_name: default
- data_files:
- train: data/train-*
- dev: data/dev-*
- test: data/test-*
- data_files:
数据集描述
该数据集是一个利古里亚语到英语的句子级翻译数据集。原始数据来自OLDI Seed数据集,并已转换为指令格式。提示语以利古里亚语编写,要求模型将文本翻译成英语。有多个提示模板变体,每个句子随机抽取。
提示模板示例
Traduxi in ingleise: <sentence> Traduxi da-o zeneise à l’ingleise: <sentence> Traduxi da-o ligure à l’ingleise: <sentence> Traduxi sto testo in ingleise: <sentence> Traduxi in lengua ingleise: <sentence> Traduxi sto testo da-o zeneise à l’ingleise: <sentence> Traduxi sto testo da-o ligure à l’ingleise: <sentence> Comm’à l’é a traduçion ingleise de sto testo? <sentence> Quæ a l’é a traduçion ingleise de sto testo? <sentence> Ti peu tradue sto testo in ingleise? <sentence>
模板ID与提示模板对应关系
[ (1, "Traduxi in ingleise: ", ""A traduçion in ingleise do testo a l’é: "), (2, "Traduxi da-o zeneise à l’ingleise: ", ""A traduçion in ingleise do testo a l’é: "), (3, "Traduxi da-o ligure à l’ingleise: ", ""A traduçion in ingleise do testo a l’é: "), (4, "Traduxi sto testo in ingleise: ", ""A traduçion in ingleise do testo a l’é: "), (5, "Traduxi in lengua ingleise: ", ""A traduçion in ingleise do testo a l’é: "), (6, "Traduxi sto testo da-o zeneise à l’ingleise: ", ""A traduçion in ingleise do testo a l’é: "), (7, "Traduxi sto testo da-o ligure à l’ingleise: ", ""A traduçion in ingleise do testo a l’é: "), (8, "Comm’à l’é a traduçion ingleise de sto testo? ", ""A traduçion in ingleise do testo a l’é: "), (9, "Quæ a l’é a traduçion ingleise de sto testo? ", ""A traduçion in ingleise do testo a l’é: "), (10, "Ti peu tradue sto testo in ingleise? ", ""A traduçion in ingleise do testo a l’é: "), ]
数据集样本数量
- 训练样本: 5802
- 验证样本: 190
- 测试样本: 201



