five

haoranxu/ALMA-R-Preference

收藏
Hugging Face2024-06-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/haoranxu/ALMA-R-Preference
下载链接
链接失效反馈
官方服务:
资源简介:
ALMA-R-Preference数据集是一个用于支持10种翻译方向的三重偏好数据集,基于FLORES-200的开发集和测试集构建。每个翻译方向包含源句子和三个翻译版本:一个来自GPT-4,一个来自ALMA-13B-LoRA,以及一个参考翻译。数据集还包含了各种评分,如kiwi、xcomet和kiwi_xcomet的评分,以及Delta值用于指示GPT-4和ALMA翻译的优劣。此外,数据集中还包含了语言对和所需翻译方向的信息。

ALMA-R-Preference数据集是一个用于支持10种翻译方向的三重偏好数据集,基于FLORES-200的开发集和测试集构建。每个翻译方向包含源句子和三个翻译版本:一个来自GPT-4,一个来自ALMA-13B-LoRA,以及一个参考翻译。数据集还包含了各种评分,如kiwi、xcomet和kiwi_xcomet的评分,以及Delta值用于指示GPT-4和ALMA翻译的优劣。此外,数据集中还包含了语言对和所需翻译方向的信息。
提供机构:
haoranxu
原始信息汇总

数据集概述

数据集名称

  • 名称: ALMA-R-Preference

数据集配置

  • 配置名称: cs-en, de-en, is-en, ru-en, zh-en
  • 特征:
    • 名称: translation
    • 结构:
      • Delta: float64
      • 源语言和目标语言的翻译文本: string
      • 翻译评分: float64
      • 评分来源: kiwi, xcomet, kiwi_xcomet
      • Delta: 评分差异,正值表示alma_de优于gpt4_de,反之亦然
      • required_directions: 指定翻译方向,空字段表示双向可用

数据集大小

  • 下载大小: 不同配置不同,范围从1385693到1782879字节
  • 数据集大小: 不同配置不同,范围从1973638到2743275字节

数据集分割

  • 分割名称: train
  • 大小:
    • cs-en: 1973638字节, 2009个示例
    • de-en: 2743275字节, 3065个示例
    • is-en: 1990606字节, 2009个示例
    • ru-en: 2666563字节, 2009个示例
    • zh-en: 2462110字节, 3065个示例

数据集文件

  • 路径: 每个配置下的train-*文件

许可证

  • 许可证: MIT

任务类别

  • 类别: translation

支持语言

  • 语言: ru, cs, zh, is, de
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作