five

lpq29743/bar_para

收藏
Hugging Face2024-07-11 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/lpq29743/bar_para
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两个配置:bar-de和bar-en,每个配置包含源文本(src)、机器翻译文本(mt)、源语言识别分数(src_lid)、目标语言识别分数(trg_lid)、相似度分数(sim)和COMET分数(comet)。数据集分为完整数据集(full)和清洗后的数据集(all_clean),适用于机器翻译质量评估和语言识别研究。

The dataset includes two configurations: bar-de and bar-en, each containing source text (src), machine-translated text (mt), source language identification scores (src_lid), target language identification scores (trg_lid), similarity scores (sim), and COMET scores (comet). The dataset is divided into a full dataset and a cleaned dataset (all_clean), suitable for machine translation quality assessment and language identification research.
提供机构:
lpq29743
原始信息汇总

数据集概述

数据集配置

配置1: bar-de

  • 特征:
    • src: 字符串类型
    • mt: 字符串类型
    • src_lid: 浮点数类型 (float64)
    • trg_lid: 浮点数类型 (float64)
    • sim: 浮点数类型 (float32)
    • comet: 浮点数类型 (float64)
  • 分割:
    • full:
      • 字节数: 9851363
      • 样本数: 41991
    • all_clean:
      • 字节数: 273551.21949941653
      • 样本数: 1166
  • 下载大小: 51642117 字节
  • 数据集大小: 10124914.219499417 字节

配置2: bar-en

  • 特征:
    • src: 字符串类型
    • mt: 字符串类型
    • src_lid: 浮点数类型 (float64)
    • trg_lid: 浮点数类型 (float64)
    • sim: 浮点数类型 (float32)
    • comet: 浮点数类型 (float64)
  • 分割:
    • full:
      • 字节数: 2690567
      • 样本数: 16991
    • all_clean:
      • 字节数: 22961.109705138013
      • 样本数: 145
  • 下载大小: 13209413 字节
  • 数据集大小: 2713528.109705138 字节

数据文件路径

配置1: bar-de

  • full: bar-de/full-*
  • all_clean: bar-de/all_clean-*

配置2: bar-en

  • full: bar-en/full-*
  • all_clean: bar-en/all_clean-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作