five

Helsinki-NLP/news_commentary

收藏
Hugging Face2024-02-29 更新2024-04-20 收录
下载链接:
https://hf-mirror.com/datasets/Helsinki-NLP/news_commentary
下载链接
链接失效反馈
官方服务:
资源简介:
News-Commentary数据集是一个多语言数据集,主要用于翻译任务。该数据集包含多种语言对,如阿拉伯语到捷克语、阿拉伯语到德语、阿拉伯语到英语等。每个语言对都有其特定的配置,包括特征、分割和大小。该数据集被归类为多语言,并且属于10K到100K示例的规模类别。注释和语言创建者标记为found,数据集的来源是原始的。许可证未知。
提供机构:
Helsinki-NLP
原始信息汇总

数据集概述

基本信息

  • 名称: News-Commentary
  • 语言: 多语言,包括阿拉伯语(ar)、捷克语(cs)、德语(de)、英语(en)、西班牙语(es)、法语(fr)、意大利语(it)、日语(ja)、荷兰语(nl)、葡萄牙语(pt)、俄语(ru)、中文(zh)
  • 许可证: 未知
  • 多语言性: 多语言
  • 大小类别: 10K<n<100K
  • 源数据集: 原始
  • 任务类别: 翻译

数据集结构

  • 特征:
    • id: 字符串类型
    • translation: 字符串类型,包含多种语言对

数据集拆分

  • 拆分: 训练集(train)
  • 示例:
    • ar-cs: 训练集包含52128个例子,数据大小为51546388字节
    • ar-de: 训练集包含68916个例子,数据大小为69681335字节
    • ar-en: 训练集包含83187个例子,数据大小为80655165字节
    • ar-es: 训练集包含78074个例子,数据大小为79255889字节
    • ar-fr: 训练集包含69157个例子,数据大小为71034977字节
    • ar-it: 训练集包含17227个例子,数据大小为17413426字节
    • ar-ja: 训练集包含569个例子,数据大小为661980字节
    • ar-nl: 训练集包含9047个例子,数据大小为9054122字节
    • ar-pt: 训练集包含11433个例子,数据大小为11340050字节
    • ar-ru: 训练集包含84455个例子,数据大小为105804195字节
    • ar-zh: 训练集包含66021个例子,数据大小为65483120字节
    • cs-de: 训练集包含172706个例子,数据大小为57470583字节
    • cs-en: 训练集包含177278个例子,数据大小为54487658字节
    • cs-es: 训练集包含170489个例子,数据大小为56794609字节
    • cs-fr: 训练集包含148578个例子,数据大小为50364657字节
    • cs-it: 训练集包含30547个例子,数据大小为10441797字节
    • cs-ja: 训练集包含622个例子,数据大小为487890字节
    • cs-nl: 训练集包含17358个例子,数据大小为5860952字节
    • cs-pt: 训练集包含18356个例子,数据大小为6183701字节
    • cs-ru: 训练集包含161133个例子,数据大小为71185491字节
    • cs-zh: 训练集包含45424个例子,数据大小为29971132字节
    • de-en: 训练集包含223153个例子,数据大小为73085175字节
    • de-es: 训练集包含209839个例子,数据大小为74708488字节
    • de-fr: 训练集包含185442个例子,数据大小为67083671字节
    • de-it: 训练集包含38961个例子,数据大小为13993406字节
    • de-ja: 训练集包含582个例子,数据大小为465563字节
    • de-nl: 训练集包含21439个例子,数据大小为7645529字节
    • de-pt: 训练集包含21884个例子,数据大小为7699047字节
    • de-ru: 训练集包含175905个例子,数据大小为81811798字节
    • de-zh: 训练集包含59020个例子,数据大小为39044632字节
    • en-es: 训练集包含238872个例子,数据大小为78600501字节
    • en-fr: 训练集包含209479个例子,数据大小为70339762字节
    • en-it: 训练集包含40009个例子,数据大小为14213912字节
    • en-ja: 训练集包含637个例子,数据大小为485472字节
    • en-nl: 训练集包含19399个例子,数据大小为7316575字节
    • en-pt: 训练集包含25929个例子,数据大小为9238783字节
    • en-ru: 训练集包含190104个例子,数据大小为83282240字节
    • en-zh: 训练集包含69206个例子,数据大小为44596003字节
    • es-fr: 训练集包含195241个例子,数据大小为71025693字节
    • es-it: 训练集包含41497个例子,数据大小为15139576字节
    • es-ja: 训练集包含602个例子,数据大小为484451字节
    • es-nl: 训练集包含21012个例子,数据大小为7560087字节
    • es-pt: 训练集包含25551个例子,数据大小为9195649字节
    • es-ru: 训练集包含180217个例子,数据大小为84345622字节
    • es-zh: 训练集包含65424个例子,数据大小为43939929字节
    • fr-it: 训练集包含38485个例子,数据大小为14216031字节
    • fr-ja: 训练集包含519个例子,数据大小为418176字节
    • fr-nl: 训练集包含20898个例子,数据大小为7603467字节
    • fr-pt: 训练集包含25642个例子,数据大小为9261133字节
    • fr-ru: 训练集包含160740个例子,数据大小为75967049字节
    • fr-zh: 训练集包含59060个例子,数据大小为40143999字节
    • it-nl: 训练集包含15428个例子,数据大小为5380888字节
    • it-pt: 训练集包含11407个例子,数据大小为3988546字节
    • it-ru: 训练集包含27267个例子,数据大小为12915037字节
    • it-zh: 训练集包含14652个例子,数据大小为9676732字节
    • ja-ru: 训练集包含586个例子,数据大小为596154字节
    • ja-zh: 训练集包含570个例子,数据大小为462673字节
    • nl-pt: 训练集包含10598个例子,数据大小为3612315字节
    • nl-ru: 训练集包含19112个例子,数据大小为8933781字节
    • nl-zh: 训练集包含8433个例子,数据大小为5509058字节
    • pt-ru: 训练集包含18458个例子,数据大小为8645451字节
    • pt-zh: 训练集包含10873个例子,数据大小为7152750字节
    • ru-zh: 训练集包含47687个例子,数据大小为43112764字节

数据文件配置

  • 配置: 每个语言对都有对应的配置,如ar-cs、ar-de等,每个配置下包含训练集数据文件,路径格式为<语言对>/train-*
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作