hgissbkh/ALMA-Preference-Multi-System-BLEU
收藏Hugging Face2024-06-24 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/hgissbkh/ALMA-Preference-Multi-System-BLEU
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征字段,如语言对、源语言、目标语言、源文本、参考翻译、被拒绝的翻译、被选中的翻译等。此外,还包含多个评估指标,如chrf、bleu、xcomet和kiwi,分别用于评估被拒绝、被选中和基础翻译的质量。数据集只有一个训练集,包含20575个样本,文件大小为17758269字节。
The dataset contains multiple feature fields such as language pair, source language, target language, source text, reference translation, rejected translation, chosen translation, etc. Additionally, it includes multiple evaluation metrics such as chrf, bleu, xcomet, and kiwi, which are used to assess the quality of rejected, chosen, and base translations. The dataset has only one training set, containing 20575 samples, with a file size of 17758269 bytes.
提供机构:
hgissbkh
原始信息汇总
数据集概述
特征信息
- lp: 数据类型为字符串。
- src_lang: 数据类型为字符串。
- tgt_lang: 数据类型为字符串。
- src: 数据类型为字符串。
- ref: 数据类型为字符串。
- rejected: 数据类型为字符串。
- chosen: 数据类型为字符串。
- base: 数据类型为字符串。
- rejected_system: 数据类型为字符串。
- chosen_system: 数据类型为字符串。
- rejected_chrf: 数据类型为浮点数。
- chosen_chrf: 数据类型为浮点数。
- base_chrf: 数据类型为浮点数。
- rejected_bleu: 数据类型为浮点数。
- chosen_bleu: 数据类型为浮点数。
- base_bleu: 数据类型为浮点数。
- rejected_xcomet: 数据类型为浮点数。
- chosen_xcomet: 数据类型为浮点数。
- base_xcomet: 数据类型为浮点数。
- rejected_kiwi: 数据类型为浮点数。
- chosen_kiwi: 数据类型为浮点数。
- base_kiwi: 数据类型为浮点数。
数据分割
- train: 包含20575个样本,占用17758269字节。
数据集大小
- 下载大小: 11514225字节。
- 数据集大小: 17758269字节。
配置信息
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



