hgissbkh/ALMA-R-Preference-No-Ext-v2
收藏Hugging Face2024-06-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hgissbkh/ALMA-R-Preference-No-Ext-v2
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: cs-en
features:
- name: translation
struct:
- name: chosen_cs
dtype: string
- name: chosen_cs_kiwi_xcomet
dtype: float64
- name: chosen_en
dtype: string
- name: chosen_en_kiwi_xcomet
dtype: float64
- name: cs
dtype: string
- name: en
dtype: string
- name: language_pair
dtype: string
- name: rejected_cs
dtype: string
- name: rejected_cs_kiwi_xcomet
dtype: float64
- name: rejected_en
dtype: string
- name: rejected_en_kiwi_xcomet
dtype: float64
- name: required_directions
dtype: string
splits:
- name: train
num_bytes: 1715121
num_examples: 2009
download_size: 1165385
dataset_size: 1715121
- config_name: de-en
features:
- name: translation
struct:
- name: chosen_de
dtype: string
- name: chosen_de_kiwi_xcomet
dtype: float64
- name: chosen_en
dtype: string
- name: chosen_en_kiwi_xcomet
dtype: float64
- name: de
dtype: string
- name: en
dtype: string
- name: language_pair
dtype: string
- name: rejected_de
dtype: string
- name: rejected_de_kiwi_xcomet
dtype: float64
- name: rejected_en
dtype: string
- name: rejected_en_kiwi_xcomet
dtype: float64
- name: required_directions
dtype: string
splits:
- name: train
num_bytes: 2546558
num_examples: 3065
download_size: 1656560
dataset_size: 2546558
- config_name: is-en
features:
- name: translation
struct:
- name: chosen_en
dtype: string
- name: chosen_en_kiwi_xcomet
dtype: float64
- name: chosen_is
dtype: string
- name: chosen_is_kiwi_xcomet
dtype: float64
- name: en
dtype: string
- name: is
dtype: string
- name: language_pair
dtype: string
- name: rejected_en
dtype: string
- name: rejected_en_kiwi_xcomet
dtype: float64
- name: rejected_is
dtype: string
- name: rejected_is_kiwi_xcomet
dtype: float64
- name: required_directions
dtype: string
splits:
- name: train
num_bytes: 1730100
num_examples: 2009
download_size: 1145004
dataset_size: 1730100
- config_name: ru-en
features:
- name: translation
struct:
- name: chosen_en
dtype: string
- name: chosen_en_kiwi_xcomet
dtype: float64
- name: chosen_ru
dtype: string
- name: chosen_ru_kiwi_xcomet
dtype: float64
- name: en
dtype: string
- name: language_pair
dtype: string
- name: rejected_en
dtype: string
- name: rejected_en_kiwi_xcomet
dtype: float64
- name: rejected_ru
dtype: string
- name: rejected_ru_kiwi_xcomet
dtype: float64
- name: required_directions
dtype: string
- name: ru
dtype: string
splits:
- name: train
num_bytes: 2398229
num_examples: 2009
download_size: 1381329
dataset_size: 2398229
- config_name: zh-en
features:
- name: translation
struct:
- name: chosen_en
dtype: string
- name: chosen_en_kiwi_xcomet
dtype: float64
- name: chosen_zh
dtype: string
- name: chosen_zh_kiwi_xcomet
dtype: float64
- name: en
dtype: string
- name: language_pair
dtype: string
- name: rejected_en
dtype: string
- name: rejected_en_kiwi_xcomet
dtype: float64
- name: rejected_zh
dtype: string
- name: rejected_zh_kiwi_xcomet
dtype: float64
- name: required_directions
dtype: string
- name: zh
dtype: string
splits:
- name: train
num_bytes: 2271138
num_examples: 3065
download_size: 1563566
dataset_size: 2271138
configs:
- config_name: cs-en
data_files:
- split: train
path: cs-en/train-*
- config_name: de-en
data_files:
- split: train
path: de-en/train-*
- config_name: is-en
data_files:
- split: train
path: is-en/train-*
- config_name: ru-en
data_files:
- split: train
path: ru-en/train-*
- config_name: zh-en
data_files:
- split: train
path: zh-en/train-*
---
数据集信息:
- 配置名称:cs-en(捷克语-英语)
特征字段:
- 字段名:translation,结构体包含以下子字段:
- 字段名:chosen_cs,数据类型:字符串类型,对应选中的捷克语文本
- 字段名:chosen_cs_kiwi_xcomet,数据类型:float64浮点型,对应选中捷克语的kiwi_xcomet评分
- 字段名:chosen_en,数据类型:字符串类型,对应选中的英语文本
- 字段名:chosen_en_kiwi_xcomet,数据类型:float64浮点型,对应选中英语的kiwi_xcomet评分
- 字段名:cs,数据类型:字符串类型,对应原始捷克语文本
- 字段名:en,数据类型:字符串类型,对应原始英语文本
- 字段名:language_pair,数据类型:字符串类型,对应语言对
- 字段名:rejected_cs,数据类型:字符串类型,对应被拒绝的捷克语文本
- 字段名:rejected_cs_kiwi_xcomet,数据类型:float64浮点型,对应被拒绝捷克语的kiwi_xcomet评分
- 字段名:rejected_en,数据类型:字符串类型,对应被拒绝的英语文本
- 字段名:rejected_en_kiwi_xcomet,数据类型:float64浮点型,对应被拒绝英语的kiwi_xcomet评分
- 字段名:required_directions,数据类型:字符串类型,对应要求的翻译方向
划分集:
- 划分集名称:train(训练集),字节数:1715121,样本数量:2009
下载大小:1165385,数据集总字节数:1715121
- 配置名称:de-en(德语-英语)
特征字段:
- 字段名:translation,结构体包含以下子字段:
- 字段名:chosen_de,数据类型:字符串类型,对应选中的德语文本
- 字段名:chosen_de_kiwi_xcomet,数据类型:float64浮点型,对应选中德语的kiwi_xcomet评分
- 字段名:chosen_en,数据类型:字符串类型,对应选中的英语文本
- 字段名:chosen_en_kiwi_xcomet,数据类型:float64浮点型,对应选中英语的kiwi_xcomet评分
- 字段名:de,数据类型:字符串类型,对应原始德语文本
- 字段名:en,数据类型:字符串类型,对应原始英语文本
- 字段名:language_pair,数据类型:字符串类型,对应语言对
- 字段名:rejected_de,数据类型:字符串类型,对应被拒绝的德语文本
- 字段名:rejected_de_kiwi_xcomet,数据类型:float64浮点型,对应被拒绝德语的kiwi_xcomet评分
- 字段名:rejected_en,数据类型:字符串类型,对应被拒绝的英语文本
- 字段名:rejected_en_kiwi_xcomet,数据类型:float64浮点型,对应被拒绝英语的kiwi_xcomet评分
- 字段名:required_directions,数据类型:字符串类型,对应要求的翻译方向
划分集:
- 划分集名称:train(训练集),字节数:2546558,样本数量:3065
下载大小:1656560,数据集总字节数:2546558
- 配置名称:is-en(冰岛语-英语)
特征字段:
- 字段名:translation,结构体包含以下子字段:
- 字段名:chosen_en,数据类型:字符串类型,对应选中的英语文本
- 字段名:chosen_en_kiwi_xcomet,数据类型:float64浮点型,对应选中英语的kiwi_xcomet评分
- 字段名:chosen_is,数据类型:字符串类型,对应选中的冰岛语文本
- 字段名:chosen_is_kiwi_xcomet,数据类型:float64浮点型,对应选中冰岛语的kiwi_xcomet评分
- 字段名:en,数据类型:字符串类型,对应原始英语文本
- 字段名:is,数据类型:字符串类型,对应原始冰岛语文本
- 字段名:language_pair,数据类型:字符串类型,对应语言对
- 字段名:rejected_en,数据类型:字符串类型,对应被拒绝的英语文本
- 字段名:rejected_en_kiwi_xcomet,数据类型:float64浮点型,对应被拒绝英语的kiwi_xcomet评分
- 字段名:rejected_is,数据类型:字符串类型,对应被拒绝的冰岛语文本
- 字段名:rejected_is_kiwi_xcomet,数据类型:float64浮点型,对应被拒绝冰岛语的kiwi_xcomet评分
- 字段名:required_directions,数据类型:字符串类型,对应要求的翻译方向
划分集:
- 划分集名称:train(训练集),字节数:1730100,样本数量:2009
下载大小:1145004,数据集总字节数:1730100
- 配置名称:ru-en(俄语-英语)
特征字段:
- 字段名:translation,结构体包含以下子字段:
- 字段名:chosen_en,数据类型:字符串类型,对应选中的英语文本
- 字段名:chosen_en_kiwi_xcomet,数据类型:float64浮点型,对应选中英语的kiwi_xcomet评分
- 字段名:chosen_ru,数据类型:字符串类型,对应选中的俄罗斯语文本
- 字段名:chosen_ru_kiwi_xcomet,数据类型:float64浮点型,对应选中俄语的kiwi_xcomet评分
- 字段名:en,数据类型:字符串类型,对应原始英语文本
- 字段名:language_pair,数据类型:字符串类型,对应语言对
- 字段名:rejected_en,数据类型:字符串类型,对应被拒绝的英语文本
- 字段名:rejected_en_kiwi_xcomet,数据类型:float64浮点型,对应被拒绝英语的kiwi_xcomet评分
- 字段名:rejected_ru,数据类型:字符串类型,对应被拒绝的俄罗斯语文本
- 字段名:rejected_ru_kiwi_xcomet,数据类型:float64浮点型,对应被拒绝俄语的kiwi_xcomet评分
- 字段名:required_directions,数据类型:字符串类型,对应要求的翻译方向
- 字段名:ru,数据类型:字符串类型,对应原始俄罗斯语文本
划分集:
- 划分集名称:train(训练集),字节数:2398229,样本数量:2009
下载大小:1381329,数据集总字节数:2398229
- 配置名称:zh-en(中文-英语)
特征字段:
- 字段名:translation,结构体包含以下子字段:
- 字段名:chosen_en,数据类型:字符串类型,对应选中的英语文本
- 字段名:chosen_en_kiwi_xcomet,数据类型:float64浮点型,对应选中英语的kiwi_xcomet评分
- 字段名:chosen_zh,数据类型:字符串类型,对应选中的中文文本
- 字段名:chosen_zh_kiwi_xcomet,数据类型:float64浮点型,对应选中中文的kiwi_xcomet评分
- 字段名:en,数据类型:字符串类型,对应原始英语文本
- 字段名:language_pair,数据类型:字符串类型,对应语言对
- 字段名:rejected_en,数据类型:字符串类型,对应被拒绝的英语文本
- 字段名:rejected_en_kiwi_xcomet,数据类型:float64浮点型,对应被拒绝英语的kiwi_xcomet评分
- 字段名:rejected_zh,数据类型:字符串类型,对应被拒绝的中文文本
- 字段名:rejected_zh_kiwi_xcomet,数据类型:float64浮点型,对应被拒绝中文的kiwi_xcomet评分
- 字段名:required_directions,数据类型:字符串类型,对应要求的翻译方向
- 字段名:zh,数据类型:字符串类型,对应原始中文文本
划分集:
- 划分集名称:train(训练集),字节数:2271138,样本数量:3065
下载大小:1563566,数据集总字节数:2271138
配置项:
- 配置名称:cs-en,数据文件:
- 划分集:train(训练集),路径:cs-en/train-*
- 配置名称:de-en,数据文件:
- 划分集:train(训练集),路径:de-en/train-*
- 配置名称:is-en,数据文件:
- 划分集:train(训练集),路径:is-en/train-*
- 配置名称:ru-en,数据文件:
- 划分集:train(训练集),路径:ru-en/train-*
- 配置名称:zh-en,数据文件:
- 划分集:train(训练集),路径:zh-en/train-*
提供机构:
hgissbkh
原始信息汇总
数据集概述
数据集配置
-
cs-en
- 特征:
translationchosen_cs: stringchosen_cs_kiwi_xcomet: float64chosen_en: stringchosen_en_kiwi_xcomet: float64cs: stringen: stringlanguage_pair: stringrejected_cs: stringrejected_cs_kiwi_xcomet: float64rejected_en: stringrejected_en_kiwi_xcomet: float64required_directions: string
- 分割:
trainnum_bytes: 1715121num_examples: 2009
- 下载大小: 1165385
- 数据集大小: 1715121
- 特征:
-
de-en
- 特征:
translationchosen_de: stringchosen_de_kiwi_xcomet: float64chosen_en: stringchosen_en_kiwi_xcomet: float64de: stringen: stringlanguage_pair: stringrejected_de: stringrejected_de_kiwi_xcomet: float64rejected_en: stringrejected_en_kiwi_xcomet: float64required_directions: string
- 分割:
trainnum_bytes: 2546558num_examples: 3065
- 下载大小: 1656560
- 数据集大小: 2546558
- 特征:
-
is-en
- 特征:
translationchosen_en: stringchosen_en_kiwi_xcomet: float64chosen_is: stringchosen_is_kiwi_xcomet: float64en: stringis: stringlanguage_pair: stringrejected_en: stringrejected_en_kiwi_xcomet: float64rejected_is: stringrejected_is_kiwi_xcomet: float64required_directions: string
- 分割:
trainnum_bytes: 1730100num_examples: 2009
- 下载大小: 1145004
- 数据集大小: 1730100
- 特征:
-
ru-en
- 特征:
translationchosen_en: stringchosen_en_kiwi_xcomet: float64chosen_ru: stringchosen_ru_kiwi_xcomet: float64en: stringlanguage_pair: stringrejected_en: stringrejected_en_kiwi_xcomet: float64rejected_ru: stringrejected_ru_kiwi_xcomet: float64required_directions: stringru: string
- 分割:
trainnum_bytes: 2398229num_examples: 2009
- 下载大小: 1381329
- 数据集大小: 2398229
- 特征:
-
zh-en
- 特征:
translationchosen_en: stringchosen_en_kiwi_xcomet: float64chosen_zh: stringchosen_zh_kiwi_xcomet: float64en: stringlanguage_pair: stringrejected_en: stringrejected_en_kiwi_xcomet: float64rejected_zh: stringrejected_zh_kiwi_xcomet: float64required_directions: stringzh: string
- 分割:
trainnum_bytes: 2271138num_examples: 3065
- 下载大小: 1563566
- 数据集大小: 2271138
- 特征:
数据文件
- cs-en
train:cs-en/train-*
- de-en
train:de-en/train-*
- is-en
train:is-en/train-*
- ru-en
train:ru-en/train-*
- zh-en
train:zh-en/train-*



