qwopqwop/ALMA-R-ko-en
收藏Hugging Face2024-03-10 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/qwopqwop/ALMA-R-ko-en
下载链接
链接失效反馈官方服务:
资源简介:
数据集ALMA-R-ko-en-Preference是一个用于翻译任务的数据集,支持韩语和英语之间的双向翻译。该数据集基于FLORES-200的开发集和测试集构建,每个翻译方向提供了一个源句子和三个翻译版本:一个来自GPT-4,一个来自EEVE-ALMA-LoRA,以及一个参考翻译。数据集还包含了每个翻译的评分,评分来自kiwi和xcomet模型,以及它们的平均分。此外,数据集还包含了一个Delta值,用于指示ALMA翻译是否优于GPT-4翻译,以及一个required_directions字段,用于指定数据点是否专门用于某个翻译方向。
提供机构:
qwopqwop
原始信息汇总
数据集概述
语言
- 韩语 (ko)
- 英语 (en)
许可
- CC-BY-SA-4.0
数据集大小
- 1K < n < 10K
任务类别
- 翻译
数据集信息
- 配置名称: ko-en
- 特征:
- translation:
- Delta: int64
- alma_en: string
- alma_en_kiwi: float64
- alma_en_kiwi_xcomet: float64
- alma_en_xcomet: float64
- alma_ko: string
- alma_ko_kiwi: float64
- alma_ko_kiwi_xcomet: float64
- alma_ko_xcomet: float64
- en: string
- gpt4_en: string
- gpt4_en_kiwi: float64
- gpt4_en_kiwi_xcomet: float64
- gpt4_en_xcomet: float64
- gpt4_ko: string
- gpt4_ko_kiwi: float64
- gpt4_ko_kiwi_xcomet: float64
- gpt4_ko_xcomet: float64
- ko: string
- language_pair: string
- ref_en_kiwi: float64
- ref_en_kiwi_xcomet: float64
- ref_en_xcomet: float64
- ref_ko_kiwi: float64
- ref_ko_kiwi_xcomet: float64
- ref_ko_xcomet: float64
- required_directions: string
- translation:
数据分割
- 训练集:
- 字节数: 2066513
- 样本数: 2009
下载和数据集大小
- 下载大小: 1399967
- 数据集大小: 2066513
配置
- 配置名称: ko-en
- 数据文件:
- 分割: train
- 路径: ko-en/train-*
- 数据文件:
数据结构
-
句子:
- ko: 原始韩语句子
- en: 原始英语句子
- alma_ko: 由ALMA从英语翻译的韩语句子
- gpt4_ko: 由GPT-4从英语翻译的韩语句子
- alma_en: 由ALMA从韩语翻译的英语句子
- gpt4_en: 由GPT-4从韩语翻译的英语句子
-
分数:
- alma_en_${Score}: ALMA翻译的英语句子的分数
- gpt4_en_${Score}: GPT-4翻译的英语句子的分数
- ref_en_${Score}: 参考英语句子的分数
- alma_ko_${Score}: ALMA翻译的韩语句子的分数
- gpt4_ko_${Score}: GPT-4翻译的韩语句子的分数
- ref_ko_${Score}: 参考韩语句子的分数
-
其他:
- Delta: 0表示非人工标注数据或平局评估,正数表示alma_ko优于gpt4_ko,反之亦然
- required_directions: 空字段表示该数据点可用于两种翻译方向,指定en-ko表示该数据点仅用于英语到韩语翻译



