hgissbkh/ALMA-Preference-Mono-xCOMET-QE-Choose-High-Reject-Low
收藏Hugging Face2024-07-21 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/hgissbkh/ALMA-Preference-Mono-xCOMET-QE-Choose-High-Reject-Low
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个与翻译相关的特征字段,如语言对、源语言、目标语言、源文本、参考翻译、被拒绝的翻译、被选中的翻译和基础翻译。此外,数据集还包含多个评分字段,这些字段可能是通过不同的评估工具(如XCOMET、KIWI、CHRF)对翻译质量进行评分的结果。数据集包含一个训练集,共有20575个样本,文件大小为16869449字节。
The dataset contains multiple feature fields related to translation, such as language pair, source language, target language, source text, reference translation, rejected translation, chosen translation, and base translation. Additionally, the dataset includes multiple scoring fields, which may be the results of evaluating translation quality using different assessment tools (e.g., XCOMET, KIWI, CHRF). The dataset contains a training set with 20,575 samples and a file size of 16,869,449 bytes.
提供机构:
hgissbkh
原始信息汇总
数据集概述
数据集信息
特征
- lp: 类型为字符串
- src_lang: 类型为字符串
- tgt_lang: 类型为字符串
- src: 类型为字符串
- ref: 类型为字符串
- rejected: 类型为字符串
- chosen: 类型为字符串
- base: 类型为字符串
- rejected_xcomet: 类型为浮点数
- chosen_xcomet: 类型为浮点数
- base_xcomet: 类型为浮点数
- rejected_kiwi: 类型为浮点数
- chosen_kiwi: 类型为浮点数
- base_kiwi: 类型为浮点数
- rejected_chrf: 类型为浮点数
- chosen_chrf: 类型为浮点数
- base_chrf: 类型为浮点数
数据分割
- train: 包含20575个样本,占用16869449字节
数据集大小
- 下载大小: 11186968字节
- 数据集大小: 16869449字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



