five

hgissbkh/ALMA-R-Preference-No-Ext-v2

收藏
Hugging Face2024-06-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hgissbkh/ALMA-R-Preference-No-Ext-v2
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: cs-en features: - name: translation struct: - name: chosen_cs dtype: string - name: chosen_cs_kiwi_xcomet dtype: float64 - name: chosen_en dtype: string - name: chosen_en_kiwi_xcomet dtype: float64 - name: cs dtype: string - name: en dtype: string - name: language_pair dtype: string - name: rejected_cs dtype: string - name: rejected_cs_kiwi_xcomet dtype: float64 - name: rejected_en dtype: string - name: rejected_en_kiwi_xcomet dtype: float64 - name: required_directions dtype: string splits: - name: train num_bytes: 1715121 num_examples: 2009 download_size: 1165385 dataset_size: 1715121 - config_name: de-en features: - name: translation struct: - name: chosen_de dtype: string - name: chosen_de_kiwi_xcomet dtype: float64 - name: chosen_en dtype: string - name: chosen_en_kiwi_xcomet dtype: float64 - name: de dtype: string - name: en dtype: string - name: language_pair dtype: string - name: rejected_de dtype: string - name: rejected_de_kiwi_xcomet dtype: float64 - name: rejected_en dtype: string - name: rejected_en_kiwi_xcomet dtype: float64 - name: required_directions dtype: string splits: - name: train num_bytes: 2546558 num_examples: 3065 download_size: 1656560 dataset_size: 2546558 - config_name: is-en features: - name: translation struct: - name: chosen_en dtype: string - name: chosen_en_kiwi_xcomet dtype: float64 - name: chosen_is dtype: string - name: chosen_is_kiwi_xcomet dtype: float64 - name: en dtype: string - name: is dtype: string - name: language_pair dtype: string - name: rejected_en dtype: string - name: rejected_en_kiwi_xcomet dtype: float64 - name: rejected_is dtype: string - name: rejected_is_kiwi_xcomet dtype: float64 - name: required_directions dtype: string splits: - name: train num_bytes: 1730100 num_examples: 2009 download_size: 1145004 dataset_size: 1730100 - config_name: ru-en features: - name: translation struct: - name: chosen_en dtype: string - name: chosen_en_kiwi_xcomet dtype: float64 - name: chosen_ru dtype: string - name: chosen_ru_kiwi_xcomet dtype: float64 - name: en dtype: string - name: language_pair dtype: string - name: rejected_en dtype: string - name: rejected_en_kiwi_xcomet dtype: float64 - name: rejected_ru dtype: string - name: rejected_ru_kiwi_xcomet dtype: float64 - name: required_directions dtype: string - name: ru dtype: string splits: - name: train num_bytes: 2398229 num_examples: 2009 download_size: 1381329 dataset_size: 2398229 - config_name: zh-en features: - name: translation struct: - name: chosen_en dtype: string - name: chosen_en_kiwi_xcomet dtype: float64 - name: chosen_zh dtype: string - name: chosen_zh_kiwi_xcomet dtype: float64 - name: en dtype: string - name: language_pair dtype: string - name: rejected_en dtype: string - name: rejected_en_kiwi_xcomet dtype: float64 - name: rejected_zh dtype: string - name: rejected_zh_kiwi_xcomet dtype: float64 - name: required_directions dtype: string - name: zh dtype: string splits: - name: train num_bytes: 2271138 num_examples: 3065 download_size: 1563566 dataset_size: 2271138 configs: - config_name: cs-en data_files: - split: train path: cs-en/train-* - config_name: de-en data_files: - split: train path: de-en/train-* - config_name: is-en data_files: - split: train path: is-en/train-* - config_name: ru-en data_files: - split: train path: ru-en/train-* - config_name: zh-en data_files: - split: train path: zh-en/train-* ---

数据集信息: - 配置名称:cs-en(捷克语-英语) 特征字段: - 字段名:translation,结构体包含以下子字段: - 字段名:chosen_cs,数据类型:字符串类型,对应选中的捷克语文本 - 字段名:chosen_cs_kiwi_xcomet,数据类型:float64浮点型,对应选中捷克语的kiwi_xcomet评分 - 字段名:chosen_en,数据类型:字符串类型,对应选中的英语文本 - 字段名:chosen_en_kiwi_xcomet,数据类型:float64浮点型,对应选中英语的kiwi_xcomet评分 - 字段名:cs,数据类型:字符串类型,对应原始捷克语文本 - 字段名:en,数据类型:字符串类型,对应原始英语文本 - 字段名:language_pair,数据类型:字符串类型,对应语言对 - 字段名:rejected_cs,数据类型:字符串类型,对应被拒绝的捷克语文本 - 字段名:rejected_cs_kiwi_xcomet,数据类型:float64浮点型,对应被拒绝捷克语的kiwi_xcomet评分 - 字段名:rejected_en,数据类型:字符串类型,对应被拒绝的英语文本 - 字段名:rejected_en_kiwi_xcomet,数据类型:float64浮点型,对应被拒绝英语的kiwi_xcomet评分 - 字段名:required_directions,数据类型:字符串类型,对应要求的翻译方向 划分集: - 划分集名称:train(训练集),字节数:1715121,样本数量:2009 下载大小:1165385,数据集总字节数:1715121 - 配置名称:de-en(德语-英语) 特征字段: - 字段名:translation,结构体包含以下子字段: - 字段名:chosen_de,数据类型:字符串类型,对应选中的德语文本 - 字段名:chosen_de_kiwi_xcomet,数据类型:float64浮点型,对应选中德语的kiwi_xcomet评分 - 字段名:chosen_en,数据类型:字符串类型,对应选中的英语文本 - 字段名:chosen_en_kiwi_xcomet,数据类型:float64浮点型,对应选中英语的kiwi_xcomet评分 - 字段名:de,数据类型:字符串类型,对应原始德语文本 - 字段名:en,数据类型:字符串类型,对应原始英语文本 - 字段名:language_pair,数据类型:字符串类型,对应语言对 - 字段名:rejected_de,数据类型:字符串类型,对应被拒绝的德语文本 - 字段名:rejected_de_kiwi_xcomet,数据类型:float64浮点型,对应被拒绝德语的kiwi_xcomet评分 - 字段名:rejected_en,数据类型:字符串类型,对应被拒绝的英语文本 - 字段名:rejected_en_kiwi_xcomet,数据类型:float64浮点型,对应被拒绝英语的kiwi_xcomet评分 - 字段名:required_directions,数据类型:字符串类型,对应要求的翻译方向 划分集: - 划分集名称:train(训练集),字节数:2546558,样本数量:3065 下载大小:1656560,数据集总字节数:2546558 - 配置名称:is-en(冰岛语-英语) 特征字段: - 字段名:translation,结构体包含以下子字段: - 字段名:chosen_en,数据类型:字符串类型,对应选中的英语文本 - 字段名:chosen_en_kiwi_xcomet,数据类型:float64浮点型,对应选中英语的kiwi_xcomet评分 - 字段名:chosen_is,数据类型:字符串类型,对应选中的冰岛语文本 - 字段名:chosen_is_kiwi_xcomet,数据类型:float64浮点型,对应选中冰岛语的kiwi_xcomet评分 - 字段名:en,数据类型:字符串类型,对应原始英语文本 - 字段名:is,数据类型:字符串类型,对应原始冰岛语文本 - 字段名:language_pair,数据类型:字符串类型,对应语言对 - 字段名:rejected_en,数据类型:字符串类型,对应被拒绝的英语文本 - 字段名:rejected_en_kiwi_xcomet,数据类型:float64浮点型,对应被拒绝英语的kiwi_xcomet评分 - 字段名:rejected_is,数据类型:字符串类型,对应被拒绝的冰岛语文本 - 字段名:rejected_is_kiwi_xcomet,数据类型:float64浮点型,对应被拒绝冰岛语的kiwi_xcomet评分 - 字段名:required_directions,数据类型:字符串类型,对应要求的翻译方向 划分集: - 划分集名称:train(训练集),字节数:1730100,样本数量:2009 下载大小:1145004,数据集总字节数:1730100 - 配置名称:ru-en(俄语-英语) 特征字段: - 字段名:translation,结构体包含以下子字段: - 字段名:chosen_en,数据类型:字符串类型,对应选中的英语文本 - 字段名:chosen_en_kiwi_xcomet,数据类型:float64浮点型,对应选中英语的kiwi_xcomet评分 - 字段名:chosen_ru,数据类型:字符串类型,对应选中的俄罗斯语文本 - 字段名:chosen_ru_kiwi_xcomet,数据类型:float64浮点型,对应选中俄语的kiwi_xcomet评分 - 字段名:en,数据类型:字符串类型,对应原始英语文本 - 字段名:language_pair,数据类型:字符串类型,对应语言对 - 字段名:rejected_en,数据类型:字符串类型,对应被拒绝的英语文本 - 字段名:rejected_en_kiwi_xcomet,数据类型:float64浮点型,对应被拒绝英语的kiwi_xcomet评分 - 字段名:rejected_ru,数据类型:字符串类型,对应被拒绝的俄罗斯语文本 - 字段名:rejected_ru_kiwi_xcomet,数据类型:float64浮点型,对应被拒绝俄语的kiwi_xcomet评分 - 字段名:required_directions,数据类型:字符串类型,对应要求的翻译方向 - 字段名:ru,数据类型:字符串类型,对应原始俄罗斯语文本 划分集: - 划分集名称:train(训练集),字节数:2398229,样本数量:2009 下载大小:1381329,数据集总字节数:2398229 - 配置名称:zh-en(中文-英语) 特征字段: - 字段名:translation,结构体包含以下子字段: - 字段名:chosen_en,数据类型:字符串类型,对应选中的英语文本 - 字段名:chosen_en_kiwi_xcomet,数据类型:float64浮点型,对应选中英语的kiwi_xcomet评分 - 字段名:chosen_zh,数据类型:字符串类型,对应选中的中文文本 - 字段名:chosen_zh_kiwi_xcomet,数据类型:float64浮点型,对应选中中文的kiwi_xcomet评分 - 字段名:en,数据类型:字符串类型,对应原始英语文本 - 字段名:language_pair,数据类型:字符串类型,对应语言对 - 字段名:rejected_en,数据类型:字符串类型,对应被拒绝的英语文本 - 字段名:rejected_en_kiwi_xcomet,数据类型:float64浮点型,对应被拒绝英语的kiwi_xcomet评分 - 字段名:rejected_zh,数据类型:字符串类型,对应被拒绝的中文文本 - 字段名:rejected_zh_kiwi_xcomet,数据类型:float64浮点型,对应被拒绝中文的kiwi_xcomet评分 - 字段名:required_directions,数据类型:字符串类型,对应要求的翻译方向 - 字段名:zh,数据类型:字符串类型,对应原始中文文本 划分集: - 划分集名称:train(训练集),字节数:2271138,样本数量:3065 下载大小:1563566,数据集总字节数:2271138 配置项: - 配置名称:cs-en,数据文件: - 划分集:train(训练集),路径:cs-en/train-* - 配置名称:de-en,数据文件: - 划分集:train(训练集),路径:de-en/train-* - 配置名称:is-en,数据文件: - 划分集:train(训练集),路径:is-en/train-* - 配置名称:ru-en,数据文件: - 划分集:train(训练集),路径:ru-en/train-* - 配置名称:zh-en,数据文件: - 划分集:train(训练集),路径:zh-en/train-*
提供机构:
hgissbkh
原始信息汇总

数据集概述

数据集配置

  1. cs-en

    • 特征:
      • translation
        • chosen_cs: string
        • chosen_cs_kiwi_xcomet: float64
        • chosen_en: string
        • chosen_en_kiwi_xcomet: float64
        • cs: string
        • en: string
        • language_pair: string
        • rejected_cs: string
        • rejected_cs_kiwi_xcomet: float64
        • rejected_en: string
        • rejected_en_kiwi_xcomet: float64
        • required_directions: string
    • 分割:
      • train
        • num_bytes: 1715121
        • num_examples: 2009
    • 下载大小: 1165385
    • 数据集大小: 1715121
  2. de-en

    • 特征:
      • translation
        • chosen_de: string
        • chosen_de_kiwi_xcomet: float64
        • chosen_en: string
        • chosen_en_kiwi_xcomet: float64
        • de: string
        • en: string
        • language_pair: string
        • rejected_de: string
        • rejected_de_kiwi_xcomet: float64
        • rejected_en: string
        • rejected_en_kiwi_xcomet: float64
        • required_directions: string
    • 分割:
      • train
        • num_bytes: 2546558
        • num_examples: 3065
    • 下载大小: 1656560
    • 数据集大小: 2546558
  3. is-en

    • 特征:
      • translation
        • chosen_en: string
        • chosen_en_kiwi_xcomet: float64
        • chosen_is: string
        • chosen_is_kiwi_xcomet: float64
        • en: string
        • is: string
        • language_pair: string
        • rejected_en: string
        • rejected_en_kiwi_xcomet: float64
        • rejected_is: string
        • rejected_is_kiwi_xcomet: float64
        • required_directions: string
    • 分割:
      • train
        • num_bytes: 1730100
        • num_examples: 2009
    • 下载大小: 1145004
    • 数据集大小: 1730100
  4. ru-en

    • 特征:
      • translation
        • chosen_en: string
        • chosen_en_kiwi_xcomet: float64
        • chosen_ru: string
        • chosen_ru_kiwi_xcomet: float64
        • en: string
        • language_pair: string
        • rejected_en: string
        • rejected_en_kiwi_xcomet: float64
        • rejected_ru: string
        • rejected_ru_kiwi_xcomet: float64
        • required_directions: string
        • ru: string
    • 分割:
      • train
        • num_bytes: 2398229
        • num_examples: 2009
    • 下载大小: 1381329
    • 数据集大小: 2398229
  5. zh-en

    • 特征:
      • translation
        • chosen_en: string
        • chosen_en_kiwi_xcomet: float64
        • chosen_zh: string
        • chosen_zh_kiwi_xcomet: float64
        • en: string
        • language_pair: string
        • rejected_en: string
        • rejected_en_kiwi_xcomet: float64
        • rejected_zh: string
        • rejected_zh_kiwi_xcomet: float64
        • required_directions: string
        • zh: string
    • 分割:
      • train
        • num_bytes: 2271138
        • num_examples: 3065
    • 下载大小: 1563566
    • 数据集大小: 2271138

数据文件

  • cs-en
    • train: cs-en/train-*
  • de-en
    • train: de-en/train-*
  • is-en
    • train: is-en/train-*
  • ru-en
    • train: ru-en/train-*
  • zh-en
    • train: zh-en/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作