five

Helsinki-NLP/euconst

收藏
Hugging Face2024-02-27 更新2024-04-20 收录
下载链接:
https://hf-mirror.com/datasets/Helsinki-NLP/euconst
下载链接
链接失效反馈
官方服务:
资源简介:
OPUS EUconst数据集是一个多语言翻译数据集,包含多种语言对的翻译任务,如cs-da、cs-de、cs-el等。每个配置详细说明了涉及的语言、字节数、示例数和下载大小。数据集被归类为多语言,且规模在10K到100K示例之间。
提供机构:
Helsinki-NLP
原始信息汇总

数据集概述

基本信息

  • 名称: OPUS EUconst
  • 语言: 多语言,包括cs, da, de, el, en, es, et, fi, fr, ga, hu, it, lt, lv, mt, nl, pl, pt, sk, sl, sv
  • 许可证: 未知
  • 多语言性: 多语言
  • 大小类别: 10K<n<100K
  • 源数据集: 原始
  • 任务类别: 翻译

详细配置

  • 配置名称: 多种语言对,如cs-da, cs-de, cs-el等
  • 特征: 每个配置包含一个名为"translation"的特征,该特征包含两种语言
  • 分割: 每个配置包含一个名为"train"的分割,详细信息如下:
    • 训练集大小: 每个语言对的训练集大小不同,范围从8586到10970个例子
    • 训练集字节数: 每个语言对的训练集字节数不同,范围从1679327到2908134字节
    • 下载大小: 每个语言对的下载大小不同,范围从801282到1194894字节
    • 数据集大小: 每个语言对的数据集大小不同,范围从1679327到2908134字节
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个从欧洲宪法收集的平行语料库,专门用于机器翻译任务。它包含21种欧洲语言,形成210个双语文本对,总数据量约2百万行,覆盖多种语言组合,支持跨语言研究和模型训练。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作