Helsinki-NLP/news_commentary
收藏Hugging Face2024-02-29 更新2024-04-20 收录
下载链接:
https://hf-mirror.com/datasets/Helsinki-NLP/news_commentary
下载链接
链接失效反馈官方服务:
资源简介:
News-Commentary数据集是一个多语言数据集,主要用于翻译任务。该数据集包含多种语言对,如阿拉伯语到捷克语、阿拉伯语到德语、阿拉伯语到英语等。每个语言对都有其特定的配置,包括特征、分割和大小。该数据集被归类为多语言,并且属于10K到100K示例的规模类别。注释和语言创建者标记为found,数据集的来源是原始的。许可证未知。
提供机构:
Helsinki-NLP
原始信息汇总
数据集概述
基本信息
- 名称: News-Commentary
- 语言: 多语言,包括阿拉伯语(ar)、捷克语(cs)、德语(de)、英语(en)、西班牙语(es)、法语(fr)、意大利语(it)、日语(ja)、荷兰语(nl)、葡萄牙语(pt)、俄语(ru)、中文(zh)
- 许可证: 未知
- 多语言性: 多语言
- 大小类别: 10K<n<100K
- 源数据集: 原始
- 任务类别: 翻译
数据集结构
- 特征:
- id: 字符串类型
- translation: 字符串类型,包含多种语言对
数据集拆分
- 拆分: 训练集(train)
- 示例:
- ar-cs: 训练集包含52128个例子,数据大小为51546388字节
- ar-de: 训练集包含68916个例子,数据大小为69681335字节
- ar-en: 训练集包含83187个例子,数据大小为80655165字节
- ar-es: 训练集包含78074个例子,数据大小为79255889字节
- ar-fr: 训练集包含69157个例子,数据大小为71034977字节
- ar-it: 训练集包含17227个例子,数据大小为17413426字节
- ar-ja: 训练集包含569个例子,数据大小为661980字节
- ar-nl: 训练集包含9047个例子,数据大小为9054122字节
- ar-pt: 训练集包含11433个例子,数据大小为11340050字节
- ar-ru: 训练集包含84455个例子,数据大小为105804195字节
- ar-zh: 训练集包含66021个例子,数据大小为65483120字节
- cs-de: 训练集包含172706个例子,数据大小为57470583字节
- cs-en: 训练集包含177278个例子,数据大小为54487658字节
- cs-es: 训练集包含170489个例子,数据大小为56794609字节
- cs-fr: 训练集包含148578个例子,数据大小为50364657字节
- cs-it: 训练集包含30547个例子,数据大小为10441797字节
- cs-ja: 训练集包含622个例子,数据大小为487890字节
- cs-nl: 训练集包含17358个例子,数据大小为5860952字节
- cs-pt: 训练集包含18356个例子,数据大小为6183701字节
- cs-ru: 训练集包含161133个例子,数据大小为71185491字节
- cs-zh: 训练集包含45424个例子,数据大小为29971132字节
- de-en: 训练集包含223153个例子,数据大小为73085175字节
- de-es: 训练集包含209839个例子,数据大小为74708488字节
- de-fr: 训练集包含185442个例子,数据大小为67083671字节
- de-it: 训练集包含38961个例子,数据大小为13993406字节
- de-ja: 训练集包含582个例子,数据大小为465563字节
- de-nl: 训练集包含21439个例子,数据大小为7645529字节
- de-pt: 训练集包含21884个例子,数据大小为7699047字节
- de-ru: 训练集包含175905个例子,数据大小为81811798字节
- de-zh: 训练集包含59020个例子,数据大小为39044632字节
- en-es: 训练集包含238872个例子,数据大小为78600501字节
- en-fr: 训练集包含209479个例子,数据大小为70339762字节
- en-it: 训练集包含40009个例子,数据大小为14213912字节
- en-ja: 训练集包含637个例子,数据大小为485472字节
- en-nl: 训练集包含19399个例子,数据大小为7316575字节
- en-pt: 训练集包含25929个例子,数据大小为9238783字节
- en-ru: 训练集包含190104个例子,数据大小为83282240字节
- en-zh: 训练集包含69206个例子,数据大小为44596003字节
- es-fr: 训练集包含195241个例子,数据大小为71025693字节
- es-it: 训练集包含41497个例子,数据大小为15139576字节
- es-ja: 训练集包含602个例子,数据大小为484451字节
- es-nl: 训练集包含21012个例子,数据大小为7560087字节
- es-pt: 训练集包含25551个例子,数据大小为9195649字节
- es-ru: 训练集包含180217个例子,数据大小为84345622字节
- es-zh: 训练集包含65424个例子,数据大小为43939929字节
- fr-it: 训练集包含38485个例子,数据大小为14216031字节
- fr-ja: 训练集包含519个例子,数据大小为418176字节
- fr-nl: 训练集包含20898个例子,数据大小为7603467字节
- fr-pt: 训练集包含25642个例子,数据大小为9261133字节
- fr-ru: 训练集包含160740个例子,数据大小为75967049字节
- fr-zh: 训练集包含59060个例子,数据大小为40143999字节
- it-nl: 训练集包含15428个例子,数据大小为5380888字节
- it-pt: 训练集包含11407个例子,数据大小为3988546字节
- it-ru: 训练集包含27267个例子,数据大小为12915037字节
- it-zh: 训练集包含14652个例子,数据大小为9676732字节
- ja-ru: 训练集包含586个例子,数据大小为596154字节
- ja-zh: 训练集包含570个例子,数据大小为462673字节
- nl-pt: 训练集包含10598个例子,数据大小为3612315字节
- nl-ru: 训练集包含19112个例子,数据大小为8933781字节
- nl-zh: 训练集包含8433个例子,数据大小为5509058字节
- pt-ru: 训练集包含18458个例子,数据大小为8645451字节
- pt-zh: 训练集包含10873个例子,数据大小为7152750字节
- ru-zh: 训练集包含47687个例子,数据大小为43112764字节
数据文件配置
- 配置: 每个语言对都有对应的配置,如ar-cs、ar-de等,每个配置下包含训练集数据文件,路径格式为
<语言对>/train-*
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



