hgissbkh/ALMA-Preference-Multi-chrF
收藏Hugging Face2024-07-21 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/hgissbkh/ALMA-Preference-Multi-chrF
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多语言翻译相关的数据,字段包括源语言(src_lang)、目标语言(tgt_lang)、源文本(src)、参考翻译(ref)、被拒绝的翻译(rejected)、选择的翻译(chosen)等。此外,还包含多个翻译系统的评分(如xcomet、kiwi、chrf)以及基础翻译(base)的评分。数据集主要用于翻译质量评估和翻译系统比较。
This dataset contains data related to multilingual translation, including fields such as source language (src_lang), target language (tgt_lang), source text (src), reference translation (ref), rejected translation (rejected), chosen translation (chosen), and more. Additionally, it includes scores from multiple translation systems (e.g., xcomet, kiwi, chrf) as well as scores for baseline translations (base). The dataset is primarily used for translation quality evaluation and comparison of translation systems.
提供机构:
hgissbkh
原始信息汇总
数据集概述
数据集信息
特征
- lp: 类型为字符串
- src_lang: 类型为字符串
- tgt_lang: 类型为字符串
- src: 类型为字符串
- ref: 类型为字符串
- rejected: 类型为字符串
- chosen: 类型为字符串
- base: 类型为字符串
- rejected_system: 类型为字符串
- chosen_system: 类型为字符串
- rejected_xcomet: 类型为浮点数
- chosen_xcomet: 类型为浮点数
- base_xcomet: 类型为浮点数
- rejected_kiwi: 类型为浮点数
- chosen_kiwi: 类型为浮点数
- base_kiwi: 类型为浮点数
- rejected_chrf: 类型为浮点数
- chosen_chrf: 类型为浮点数
- base_chrf: 类型为浮点数
数据分割
- train: 包含20575个样本,占用17247060字节
数据集大小
- 下载大小: 11252192字节
- 数据集大小: 17247060字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



