lpq29743/bar_para
收藏Hugging Face2024-07-11 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/lpq29743/bar_para
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两个配置:bar-de和bar-en,每个配置包含源文本(src)、机器翻译文本(mt)、源语言识别分数(src_lid)、目标语言识别分数(trg_lid)、相似度分数(sim)和COMET分数(comet)。数据集分为完整数据集(full)和清洗后的数据集(all_clean),适用于机器翻译质量评估和语言识别研究。
The dataset includes two configurations: bar-de and bar-en, each containing source text (src), machine-translated text (mt), source language identification scores (src_lid), target language identification scores (trg_lid), similarity scores (sim), and COMET scores (comet). The dataset is divided into a full dataset and a cleaned dataset (all_clean), suitable for machine translation quality assessment and language identification research.
提供机构:
lpq29743
原始信息汇总
数据集概述
数据集配置
配置1: bar-de
- 特征:
src: 字符串类型mt: 字符串类型src_lid: 浮点数类型 (float64)trg_lid: 浮点数类型 (float64)sim: 浮点数类型 (float32)comet: 浮点数类型 (float64)
- 分割:
full:- 字节数: 9851363
- 样本数: 41991
all_clean:- 字节数: 273551.21949941653
- 样本数: 1166
- 下载大小: 51642117 字节
- 数据集大小: 10124914.219499417 字节
配置2: bar-en
- 特征:
src: 字符串类型mt: 字符串类型src_lid: 浮点数类型 (float64)trg_lid: 浮点数类型 (float64)sim: 浮点数类型 (float32)comet: 浮点数类型 (float64)
- 分割:
full:- 字节数: 2690567
- 样本数: 16991
all_clean:- 字节数: 22961.109705138013
- 样本数: 145
- 下载大小: 13209413 字节
- 数据集大小: 2713528.109705138 字节
数据文件路径
配置1: bar-de
full: bar-de/full-*all_clean: bar-de/all_clean-*
配置2: bar-en
full: bar-en/full-*all_clean: bar-en/all_clean-*



