five

Nicolas-BZRD/Parallel_Global_Voices_English_French

收藏
Hugging Face2023-09-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nicolas-BZRD/Parallel_Global_Voices_English_French
下载链接
链接失效反馈
官方服务:
资源简介:
Parallel Global Voices EN-FR 是一个从Global Voices多语言网站群生成的平行语料库,该网站群由志愿者发布并翻译超过40种语言的新闻故事。该数据集的内容由作者和出版商根据Creative Commons Attribution许可证提供。内容由语言和语音处理研究所的NLP小组的研究人员在2015年7月至8月期间爬取。通过链接信息将相互翻译的文档配对,并自动提取段对齐。文档和段级别的自动对齐结果根据Creative Commons Attribution许可证分发。

Parallel Global Voices EN-FR is a parallel corpus generated from the multilingual website network of Global Voices, where volunteer contributors publish and translate news stories in over 40 languages. The content of this dataset is provided by authors and publishers under the Creative Commons Attribution license. Researchers from the NLP group of the Institute of Language and Speech Processing crawled the content between July and August 2015. Mutually translated documents were paired using link information, and segment-level alignments were automatically extracted. The automatic alignment results at both document and segment levels are distributed under the Creative Commons Attribution license.
提供机构:
Nicolas-BZRD
原始信息汇总

数据集概述

基本信息

  • 许可证: CC-BY-3.0
  • 任务类别: 翻译
  • 语言: 英语 (en), 法语 (fr)
  • 标签: 并行数据
  • 大小类别: 100K<n<1M

数据集详情

  • 特征:
    • en: 字符串类型
    • fr: 字符串类型
  • 分割:
    • train: 包含 342060 个样本,占用 89720129 字节
  • 下载大小: 57746668 字节
  • 数据集大小: 89720129 字节

配置

  • 默认配置:
    • 数据文件路径: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作