csebuetnlp/BanglaNMT

Name: csebuetnlp/BanglaNMT
Creator: csebuetnlp
Published: 2023-02-24 14:46:55
License: 暂无描述

Hugging Face2023-02-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/csebuetnlp/BanglaNMT

下载链接

链接失效反馈

官方服务：

资源简介：

BanglaNMT数据集是当前最大的孟加拉语-英语机器翻译数据集，采用新颖的句子对齐方法整理而成。该数据集提供了一个过滤版本，专门用于神经机器翻译（NMT）训练。数据集包含训练、验证和测试三个部分，分别包含2379749、597和1000个实例。每个实例包括一个孟加拉语句子和其对应的英语翻译。数据集的使用仅限于非商业研究目的，遵循CC BY-NC-SA 4.0许可。

提供机构：

csebuetnlp

原始信息汇总

数据集概述

数据集名称

名称: BanglaNMT

数据集摘要

摘要: 这是最大的Bengali-English机器翻译（MT）数据集，使用新颖的句子对齐方法进行筛选。这是作者用于NMT训练的原始数据集的过滤版本。

支持的任务和排行榜

信息: 需要更多信息。

语言

语言: Bengali, English

使用示例

python from datasets import load_dataset dataset = load_dataset("csebuetnlp/BanglaNMT")

数据集结构

数据实例

示例: json { bn: বিমানবন্দরে যুক্তরাজ্যে নিযুক্ত বাংলাদেশ হাইকমিশনার সাঈদা মুনা তাসনীম ও লন্ডনে বাংলাদেশ মিশনের জ্যেষ্ঠ কর্মকর্তারা তাকে বিদায় জানান।, en: Bangladesh High Commissioner to the United Kingdom Saida Muna Tasneen and senior officials of Bangladesh Mission in London saw him off at the airport. }

数据字段

字段:
- bn: 表示Bengali句子的字符串特征。
- en: 表示英文翻译的字符串特征。

数据分割

分割	计数
`train`	2379749
`validation`	597
`test`	1000

数据集创建

许可证信息

许可证: 本仓库内容仅限于非商业研究目的，根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0)。数据集内容的版权属于原始版权持有者。

引用信息

引用:

@inproceedings{hasan-etal-2020-low, title = "Not Low-Resource Anymore: Aligner Ensembling, Batch Filtering, and New Datasets for {B}engali-{E}nglish Machine Translation", author = "Hasan, Tahmid and Bhattacharjee, Abhik and Samin, Kazi and Hasan, Masum and Basak, Madhusudan and Rahman, M. Sohel and Shahriyar, Rifat", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.emnlp-main.207", doi = "10.18653/v1/2020.emnlp-main.207", pages = "2612--2623", abstract = "...", }

贡献者

贡献者: @abhik1505040, @Tahmid04

5,000+

优质数据集

54 个

任务类型

进入经典数据集