haoranxu/ALMA-Human-Parallel
收藏Hugging Face2024-01-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/haoranxu/ALMA-Human-Parallel
下载链接
链接失效反馈官方服务:
资源简介:
ALMA-Human-Parallel数据集是一个由人工撰写的平行语料库,用于ALMA翻译模型的研究。该数据集包含多个语言对的翻译数据,如捷克语-英语(cs-en)、德语-英语(de-en)、冰岛语-英语(is-en)、俄语-英语(ru-en)和中文-英语(zh-en)。每个语言对的配置都包含翻译特征,其中包含两种语言的字符串类型数据。数据集分为训练集和验证集,部分配置仅包含训练集。
ALMA-Human-Parallel数据集是一个由人工撰写的平行语料库,用于ALMA翻译模型的研究。该数据集包含多个语言对的翻译数据,如捷克语-英语(cs-en)、德语-英语(de-en)、冰岛语-英语(is-en)、俄语-英语(ru-en)和中文-英语(zh-en)。每个语言对的配置都包含翻译特征,其中包含两种语言的字符串类型数据。数据集分为训练集和验证集,部分配置仅包含训练集。
提供机构:
haoranxu
原始信息汇总
数据集概述
配置名称:cs-en
- 特征:
- 名称: translation
- 结构:
- 名称: cs dtype: string
- 名称: en dtype: string
- 分割:
- 名称: train
- 字节数: 3432181
- 样本数: 12076
- 名称: validation
- 字节数: 318813
- 样本数: 1002
- 名称: train
- 下载大小: 0
- 数据集大小: 3750994
配置名称:de-en
- 特征:
- 名称: translation
- 结构:
- 名称: de dtype: string
- 名称: en dtype: string
- 分割:
- 名称: train
- 字节数: 4108729
- 样本数: 14211
- 名称: validation
- 字节数: 329855
- 样本数: 1002
- 名称: train
- 下载大小: 0
- 数据集大小: 4438584
配置名称:is-en
- 特征:
- 名称: translation
- 结构:
- 名称: is dtype: string
- 名称: en dtype: string
- 分割:
- 名称: train
- 字节数: 554190
- 样本数: 2009
- 名称: train
- 下载大小: 0
- 数据集大小: 554190
配置名称:ru-en
- 特征:
- 名称: translation
- 结构:
- 名称: ru dtype: string
- 名称: en dtype: string
- 分割:
- 名称: train
- 字节数: 5427552
- 样本数: 15000
- 名称: validation
- 字节数: 442271
- 样本数: 1002
- 名称: train
- 下载大小: 0
- 数据集大小: 5869823
配置名称:zh-en
- 特征:
- 名称: translation
- 结构:
- 名称: zh dtype: string
- 名称: en dtype: string
- 分割:
- 名称: train
- 字节数: 4700299
- 样本数: 15406
- 名称: validation
- 字节数: 285969
- 样本数: 1002
- 名称: train
- 下载大小: 0
- 数据集大小: 4986268
数据文件
- 配置名称:cs-en
- 分割: train
- 路径: cs-en/train-*
- 分割: validation
- 路径: cs-en/validation-*
- 分割: train
- 配置名称:de-en
- 分割: train
- 路径: de-en/train-*
- 分割: validation
- 路径: de-en/validation-*
- 分割: train
- 配置名称:is-en
- 分割: train
- 路径: is-en/train-*
- 分割: train
- 配置名称:ru-en
- 分割: train
- 路径: ru-en/train-*
- 分割: validation
- 路径: ru-en/validation-*
- 分割: train
- 配置名称:zh-en
- 分割: train
- 路径: zh-en/train-*
- 分割: validation
- 路径: zh-en/validation-*
- 分割: train



