haoranxu/ALMA-R-Preference
收藏Hugging Face2024-06-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/haoranxu/ALMA-R-Preference
下载链接
链接失效反馈官方服务:
资源简介:
ALMA-R-Preference数据集是一个用于支持10种翻译方向的三重偏好数据集,基于FLORES-200的开发集和测试集构建。每个翻译方向包含源句子和三个翻译版本:一个来自GPT-4,一个来自ALMA-13B-LoRA,以及一个参考翻译。数据集还包含了各种评分,如kiwi、xcomet和kiwi_xcomet的评分,以及Delta值用于指示GPT-4和ALMA翻译的优劣。此外,数据集中还包含了语言对和所需翻译方向的信息。
ALMA-R-Preference数据集是一个用于支持10种翻译方向的三重偏好数据集,基于FLORES-200的开发集和测试集构建。每个翻译方向包含源句子和三个翻译版本:一个来自GPT-4,一个来自ALMA-13B-LoRA,以及一个参考翻译。数据集还包含了各种评分,如kiwi、xcomet和kiwi_xcomet的评分,以及Delta值用于指示GPT-4和ALMA翻译的优劣。此外,数据集中还包含了语言对和所需翻译方向的信息。
提供机构:
haoranxu
原始信息汇总
数据集概述
数据集名称
- 名称: ALMA-R-Preference
数据集配置
- 配置名称: cs-en, de-en, is-en, ru-en, zh-en
- 特征:
- 名称: translation
- 结构:
- Delta: float64
- 源语言和目标语言的翻译文本: string
- 翻译评分: float64
- 评分来源: kiwi, xcomet, kiwi_xcomet
- Delta: 评分差异,正值表示alma_de优于gpt4_de,反之亦然
- required_directions: 指定翻译方向,空字段表示双向可用
数据集大小
- 下载大小: 不同配置不同,范围从1385693到1782879字节
- 数据集大小: 不同配置不同,范围从1973638到2743275字节
数据集分割
- 分割名称: train
- 大小:
- cs-en: 1973638字节, 2009个示例
- de-en: 2743275字节, 3065个示例
- is-en: 1990606字节, 2009个示例
- ru-en: 2666563字节, 2009个示例
- zh-en: 2462110字节, 3065个示例
数据集文件
- 路径: 每个配置下的train-*文件
许可证
- 许可证: MIT
任务类别
- 类别: translation
支持语言
- 语言: ru, cs, zh, is, de



