five

hgissbkh/ALMA-Preference-Multi-chrF

收藏
Hugging Face2024-07-21 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/hgissbkh/ALMA-Preference-Multi-chrF
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多语言翻译相关的数据,字段包括源语言(src_lang)、目标语言(tgt_lang)、源文本(src)、参考翻译(ref)、被拒绝的翻译(rejected)、选择的翻译(chosen)等。此外,还包含多个翻译系统的评分(如xcomet、kiwi、chrf)以及基础翻译(base)的评分。数据集主要用于翻译质量评估和翻译系统比较。

This dataset contains data related to multilingual translation, including fields such as source language (src_lang), target language (tgt_lang), source text (src), reference translation (ref), rejected translation (rejected), chosen translation (chosen), and more. Additionally, it includes scores from multiple translation systems (e.g., xcomet, kiwi, chrf) as well as scores for baseline translations (base). The dataset is primarily used for translation quality evaluation and comparison of translation systems.
提供机构:
hgissbkh
原始信息汇总

数据集概述

数据集信息

特征

  • lp: 类型为字符串
  • src_lang: 类型为字符串
  • tgt_lang: 类型为字符串
  • src: 类型为字符串
  • ref: 类型为字符串
  • rejected: 类型为字符串
  • chosen: 类型为字符串
  • base: 类型为字符串
  • rejected_system: 类型为字符串
  • chosen_system: 类型为字符串
  • rejected_xcomet: 类型为浮点数
  • chosen_xcomet: 类型为浮点数
  • base_xcomet: 类型为浮点数
  • rejected_kiwi: 类型为浮点数
  • chosen_kiwi: 类型为浮点数
  • base_kiwi: 类型为浮点数
  • rejected_chrf: 类型为浮点数
  • chosen_chrf: 类型为浮点数
  • base_chrf: 类型为浮点数

数据分割

  • train: 包含20575个样本,占用17247060字节

数据集大小

  • 下载大小: 11252192字节
  • 数据集大小: 17247060字节

配置

  • config_name: default
    • data_files:
      • split: train
      • path: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作