gshbao/DocNMT

Name: gshbao/DocNMT
Creator: gshbao
Published: 2023-05-12 07:52:30
License: 暂无描述

Hugging Face2023-05-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/gshbao/DocNMT

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: afl-3.0 task_categories: - translation language: - en - de pretty_name: Doc-Level NMT size_categories: - 100K<n<1M --- # Dataset Card for Dataset Name ### Dataset Summary The benchmark datasets for document-level machine translation. ### Supported Tasks Document-level Machine Translation Tasks. ### Languages English-German ## Dataset Structure ### Data Instances TED: iwslt17, News: nc2016, Europarl: europarl7 ### Data Fields Pure text that each line represents a sentence and multiple lines separated by '\<d\>' line form a document. ### Data Splits train, dev, test ### Data Usage This dataset is created for the convenience of usage by https://github.com/baoguangsheng/g-transformer

提供机构：

gshbao

原始信息汇总

数据集概述

数据集名称

Doc-Level NMT

数据集总结

本数据集为文档级机器翻译的基准数据集。

支持的任务

文档级机器翻译任务。

语言

英语-德语

数据集结构

数据实例

TED: iwslt17
新闻: nc2016
Europarl: europarl7

数据字段

纯文本，每行代表一个句子，多行通过<d>行分隔形成一个文档。

数据分割

训练集（train）、验证集（dev）、测试集（test）

数据集使用

该数据集为方便使用而创建，主要用于https://github.com/baoguangsheng/g-transformer项目。

5,000+

优质数据集

54 个

任务类型

进入经典数据集