hgissbkh/ALMA-Preference-Mono-System-XCOMET-Choose-Low-Reject-Mid
收藏Hugging Face2024-06-26 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/hgissbkh/ALMA-Preference-Mono-System-XCOMET-Choose-Low-Reject-Mid
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要用于机器翻译或文本生成任务,包含源语言、目标语言、源文本、参考文本、被拒绝的文本、选择的文本等特征。此外,还包含CHRF、BLEU、XCOMET和KIWI等评估指标,用于衡量不同文本的质量。数据集仅包含一个训练集,包含20,575个样本。
该数据集主要用于机器翻译或文本生成任务,包含源语言、目标语言、源文本、参考文本、被拒绝的文本、选择的文本等特征。此外,还包含CHRF、BLEU、XCOMET和KIWI等评估指标,用于衡量不同文本的质量。数据集仅包含一个训练集,包含20,575个样本。
提供机构:
hgissbkh
原始信息汇总
数据集概述
数据集特征
- lp: 字符串类型
- src_lang: 字符串类型
- tgt_lang: 字符串类型
- src: 字符串类型
- ref: 字符串类型
- rejected: 字符串类型
- chosen: 字符串类型
- base: 字符串类型
- rejected_chrf: 浮点数类型
- chosen_chrf: 浮点数类型
- base_chrf: 浮点数类型
- rejected_bleu: 浮点数类型
- chosen_bleu: 浮点数类型
- base_bleu: 浮点数类型
- rejected_xcomet: 浮点数类型
- chosen_xcomet: 浮点数类型
- base_xcomet: 浮点数类型
- rejected_kiwi: 浮点数类型
- chosen_kiwi: 浮点数类型
- base_kiwi: 浮点数类型
数据集分割
- train:
- 字节数: 17285307
- 样本数: 20575
数据集大小
- 下载大小: 11752803 字节
- 数据集大小: 17285307 字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



