coggpt/ParaPat
收藏Hugging Face2024-02-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/coggpt/ParaPat
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从开放的Google Patents数据集中开发的74种语言对的平行语料库,涵盖超过6800万个句子和8亿个词元。对于最大的22种语言对,句子使用Hunalign算法自动对齐,其他语言对则是段落对齐。此外,展示了通过训练神经机器翻译(NMT)模型来利用这个语料库的能力,主要针对9种语言对,共训练了18个模型。语料库以TSV格式免费提供。
许可证:MIT许可证
本仓库包含基于开源谷歌专利数据集构建的平行语料库,涵盖74种语言对,总句数超6800万,Token总数达8亿。针对规模最大的22种语言对,我们采用Hunalign算法实现句子级自动对齐;其余语言对则采用摘要级(即段落级)对齐方式。我们针对核心9种语言对训练了共计18个神经机器翻译(Neural Machine Translation,NMT)模型,以此验证本语料库的性能表现。本平行语料库以TSV格式免费开放获取。
https://figshare.com/articles/dataset/ParaPat_The_Multi-Million_Sentences_Parallel_Corpus_of_Patents_Abstracts/12627632
提供机构:
coggpt
原始信息汇总
数据集概述
数据集内容
- 类型: 平行语料库
- 来源: Google Patents 数据集
- 语言对数量: 74 对
- 句子数量: 超过 6800 万句
- 词汇数量: 超过 8 亿个
数据处理
- 对齐方式:
- 最大的 22 种语言对使用 Hunalign 算法自动对齐
- 其他语言对进行段落对齐
应用示例
- 训练模型: 神经机器翻译 (NMT) 模型
- 语言对数量: 9 对
- 模型数量: 18 个
数据格式
- 格式: TSV 格式
- 可用性: 免费提供



