coggpt/ParaPat

Name: coggpt/ParaPat
Creator: coggpt
Published: 2024-02-27 04:49:10
License: 暂无描述

Hugging Face2024-02-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/coggpt/ParaPat

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从开放的Google Patents数据集中开发的74种语言对的平行语料库，涵盖超过6800万个句子和8亿个词元。对于最大的22种语言对，句子使用Hunalign算法自动对齐，其他语言对则是段落对齐。此外，展示了通过训练神经机器翻译（NMT）模型来利用这个语料库的能力，主要针对9种语言对，共训练了18个模型。语料库以TSV格式免费提供。

许可证：MIT许可证本仓库包含基于开源谷歌专利数据集构建的平行语料库，涵盖74种语言对，总句数超6800万，Token总数达8亿。针对规模最大的22种语言对，我们采用Hunalign算法实现句子级自动对齐；其余语言对则采用摘要级（即段落级）对齐方式。我们针对核心9种语言对训练了共计18个神经机器翻译（Neural Machine Translation，NMT）模型，以此验证本语料库的性能表现。本平行语料库以TSV格式免费开放获取。 https://figshare.com/articles/dataset/ParaPat_The_Multi-Million_Sentences_Parallel_Corpus_of_Patents_Abstracts/12627632

提供机构：

coggpt

原始信息汇总

数据集概述

数据集内容

类型: 平行语料库
来源: Google Patents 数据集
语言对数量: 74 对
句子数量: 超过 6800 万句
词汇数量: 超过 8 亿个

数据处理

对齐方式:
- 最大的 22 种语言对使用 Hunalign 算法自动对齐
- 其他语言对进行段落对齐

应用示例

训练模型: 神经机器翻译 (NMT) 模型
语言对数量: 9 对
模型数量: 18 个

数据格式

格式: TSV 格式
可用性: 免费提供

5,000+

优质数据集

54 个

任务类型

进入经典数据集