hgissbkh/ALMA-Preference-Mono-xCOMET-QE-Choose-High-Reject-Low

Name: hgissbkh/ALMA-Preference-Mono-xCOMET-QE-Choose-High-Reject-Low
Creator: hgissbkh
Published: 2024-07-21 14:13:36
License: 暂无描述

Hugging Face2024-07-21 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/hgissbkh/ALMA-Preference-Mono-xCOMET-QE-Choose-High-Reject-Low

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个与翻译相关的特征字段，如语言对、源语言、目标语言、源文本、参考翻译、被拒绝的翻译、被选中的翻译和基础翻译。此外，数据集还包含多个评分字段，这些字段可能是通过不同的评估工具（如XCOMET、KIWI、CHRF）对翻译质量进行评分的结果。数据集包含一个训练集，共有20575个样本，文件大小为16869449字节。

The dataset contains multiple feature fields related to translation, such as language pair, source language, target language, source text, reference translation, rejected translation, chosen translation, and base translation. Additionally, the dataset includes multiple scoring fields, which may be the results of evaluating translation quality using different assessment tools (e.g., XCOMET, KIWI, CHRF). The dataset contains a training set with 20,575 samples and a file size of 16,869,449 bytes.

提供机构：

hgissbkh

原始信息汇总

数据集概述

数据集信息

特征

lp: 类型为字符串
src_lang: 类型为字符串
tgt_lang: 类型为字符串
src: 类型为字符串
ref: 类型为字符串
rejected: 类型为字符串
chosen: 类型为字符串
base: 类型为字符串
rejected_xcomet: 类型为浮点数
chosen_xcomet: 类型为浮点数
base_xcomet: 类型为浮点数
rejected_kiwi: 类型为浮点数
chosen_kiwi: 类型为浮点数
base_kiwi: 类型为浮点数
rejected_chrf: 类型为浮点数
chosen_chrf: 类型为浮点数
base_chrf: 类型为浮点数

数据分割

train: 包含20575个样本，占用16869449字节

数据集大小

下载大小: 11186968字节
数据集大小: 16869449字节

配置

config_name: default
- data_files:
  - split: train
  - path: data/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集