five

coggpt/ParaPat

收藏
Hugging Face2024-02-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/coggpt/ParaPat
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从开放的Google Patents数据集中开发的74种语言对的平行语料库,涵盖超过6800万个句子和8亿个词元。对于最大的22种语言对,句子使用Hunalign算法自动对齐,其他语言对则是段落对齐。此外,展示了通过训练神经机器翻译(NMT)模型来利用这个语料库的能力,主要针对9种语言对,共训练了18个模型。语料库以TSV格式免费提供。

许可证:MIT许可证 本仓库包含基于开源谷歌专利数据集构建的平行语料库,涵盖74种语言对,总句数超6800万,Token总数达8亿。针对规模最大的22种语言对,我们采用Hunalign算法实现句子级自动对齐;其余语言对则采用摘要级(即段落级)对齐方式。我们针对核心9种语言对训练了共计18个神经机器翻译(Neural Machine Translation,NMT)模型,以此验证本语料库的性能表现。本平行语料库以TSV格式免费开放获取。 https://figshare.com/articles/dataset/ParaPat_The_Multi-Million_Sentences_Parallel_Corpus_of_Patents_Abstracts/12627632
提供机构:
coggpt
原始信息汇总

数据集概述

数据集内容

  • 类型: 平行语料库
  • 来源: Google Patents 数据集
  • 语言对数量: 74 对
  • 句子数量: 超过 6800 万句
  • 词汇数量: 超过 8 亿个

数据处理

  • 对齐方式:
    • 最大的 22 种语言对使用 Hunalign 算法自动对齐
    • 其他语言对进行段落对齐

应用示例

  • 训练模型: 神经机器翻译 (NMT) 模型
  • 语言对数量: 9 对
  • 模型数量: 18 个

数据格式

  • 格式: TSV 格式
  • 可用性: 免费提供
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作