gshbao/DocNMT
收藏Hugging Face2023-05-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gshbao/DocNMT
下载链接
链接失效反馈官方服务:
资源简介:
---
license: afl-3.0
task_categories:
- translation
language:
- en
- de
pretty_name: Doc-Level NMT
size_categories:
- 100K<n<1M
---
# Dataset Card for Dataset Name
### Dataset Summary
The benchmark datasets for document-level machine translation.
### Supported Tasks
Document-level Machine Translation Tasks.
### Languages
English-German
## Dataset Structure
### Data Instances
TED: iwslt17, News: nc2016, Europarl: europarl7
### Data Fields
Pure text that each line represents a sentence and multiple lines separated by '\<d\>' line form a document.
### Data Splits
train, dev, test
### Data Usage
This dataset is created for the convenience of usage by https://github.com/baoguangsheng/g-transformer
提供机构:
gshbao
原始信息汇总
数据集概述
数据集名称
Doc-Level NMT
数据集总结
本数据集为文档级机器翻译的基准数据集。
支持的任务
文档级机器翻译任务。
语言
英语-德语
数据集结构
数据实例
- TED: iwslt17
- 新闻: nc2016
- Europarl: europarl7
数据字段
纯文本,每行代表一个句子,多行通过<d>行分隔形成一个文档。
数据分割
训练集(train)、验证集(dev)、测试集(test)
数据集使用
该数据集为方便使用而创建,主要用于https://github.com/baoguangsheng/g-transformer项目。



