five

qwopqwop/ALMA-R-ko-en

收藏
Hugging Face2024-03-10 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/qwopqwop/ALMA-R-ko-en
下载链接
链接失效反馈
官方服务:
资源简介:
数据集ALMA-R-ko-en-Preference是一个用于翻译任务的数据集,支持韩语和英语之间的双向翻译。该数据集基于FLORES-200的开发集和测试集构建,每个翻译方向提供了一个源句子和三个翻译版本:一个来自GPT-4,一个来自EEVE-ALMA-LoRA,以及一个参考翻译。数据集还包含了每个翻译的评分,评分来自kiwi和xcomet模型,以及它们的平均分。此外,数据集还包含了一个Delta值,用于指示ALMA翻译是否优于GPT-4翻译,以及一个required_directions字段,用于指定数据点是否专门用于某个翻译方向。
提供机构:
qwopqwop
原始信息汇总

数据集概述

语言

  • 韩语 (ko)
  • 英语 (en)

许可

  • CC-BY-SA-4.0

数据集大小

  • 1K < n < 10K

任务类别

  • 翻译

数据集信息

  • 配置名称: ko-en
  • 特征:
    • translation:
      • Delta: int64
      • alma_en: string
      • alma_en_kiwi: float64
      • alma_en_kiwi_xcomet: float64
      • alma_en_xcomet: float64
      • alma_ko: string
      • alma_ko_kiwi: float64
      • alma_ko_kiwi_xcomet: float64
      • alma_ko_xcomet: float64
      • en: string
      • gpt4_en: string
      • gpt4_en_kiwi: float64
      • gpt4_en_kiwi_xcomet: float64
      • gpt4_en_xcomet: float64
      • gpt4_ko: string
      • gpt4_ko_kiwi: float64
      • gpt4_ko_kiwi_xcomet: float64
      • gpt4_ko_xcomet: float64
      • ko: string
      • language_pair: string
      • ref_en_kiwi: float64
      • ref_en_kiwi_xcomet: float64
      • ref_en_xcomet: float64
      • ref_ko_kiwi: float64
      • ref_ko_kiwi_xcomet: float64
      • ref_ko_xcomet: float64
      • required_directions: string

数据分割

  • 训练集:
    • 字节数: 2066513
    • 样本数: 2009

下载和数据集大小

  • 下载大小: 1399967
  • 数据集大小: 2066513

配置

  • 配置名称: ko-en
    • 数据文件:
      • 分割: train
      • 路径: ko-en/train-*

数据结构

  • 句子:

    • ko: 原始韩语句子
    • en: 原始英语句子
    • alma_ko: 由ALMA从英语翻译的韩语句子
    • gpt4_ko: 由GPT-4从英语翻译的韩语句子
    • alma_en: 由ALMA从韩语翻译的英语句子
    • gpt4_en: 由GPT-4从韩语翻译的英语句子
  • 分数:

    • alma_en_${Score}: ALMA翻译的英语句子的分数
    • gpt4_en_${Score}: GPT-4翻译的英语句子的分数
    • ref_en_${Score}: 参考英语句子的分数
    • alma_ko_${Score}: ALMA翻译的韩语句子的分数
    • gpt4_ko_${Score}: GPT-4翻译的韩语句子的分数
    • ref_ko_${Score}: 参考韩语句子的分数
  • 其他:

    • Delta: 0表示非人工标注数据或平局评估,正数表示alma_ko优于gpt4_ko,反之亦然
    • required_directions: 空字段表示该数据点可用于两种翻译方向,指定en-ko表示该数据点仅用于英语到韩语翻译
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作