Vashantor

github2024-02-05 更新2024-05-31 收录

下载链接：

https://github.com/Mukaffi28/Vashantor-A-Large-scale-Multilingual-Benchmark-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

A Large-scale Multilingual Benchmark Dataset for Automated Translation of Bangla Regional Dialects to Bangla Language

大规模多语言基准数据集（Large-scale Multilingual Benchmark Dataset），用于将孟加拉语（Bangla）区域方言自动翻译为孟加拉语（Bangla）

创建时间：

2024-01-30

原始信息汇总

数据集概述

数据集名称

名称: Vashantor
全称: A Large-scale Multilingual Benchmark Dataset for Automated Translation of Bangla Regional Dialects to Bangla Language

数据集内容

描述: 包含32,500句，涵盖Bangla、Banglish和English，代表五个地区的Bangla方言。
目的: 将这些地区方言翻译成标准Bangla，并准确检测地区。

数据集使用模型

翻译模型: mT5和BanglaT5
地区检测模型: mBERT和Bangla-bert-base

数据集性能

翻译模型性能:
- 最高BLEU分数: 69.06（Mymensingh地区）
- 最低BLEU分数: 36.75（Chittagong地区）
- 最低平均词错误率: 0.1548（Mymensingh地区）
- 最高平均词错误率: 0.3385（Chittagong地区）
地区检测模型性能:
- 最高准确率: 85.86%（Bangla-bert-base）
- 最低准确率: 84.36%（mBERT）

数据集格式

格式: CSV和JSON

数据集可用性

链接: Vashantor Dataset

联系方式

联系人: Fatema Tuj Johora Faria, Mukaffi Bin Moin, Tashreef Muhammad
邮箱:
- Fatema Tuj Johora Faria: fatema.faria142@gmail.com
- Mukaffi Bin Moin: mukaffi28@gmail.com
- Tashreef Muhammad: tashreef.muhammad@seu.edu.bd

引用信息

引用格式: bibtex @misc{faria2023vashantor, title={Vashantor: A Large-scale Multilingual Benchmark Dataset for Automated Translation of Bangla Regional Dialects to Bangla Language}, author={Fatema Tuj Johora Faria and Mukaffi Bin Moin and Ahmed Al Wase and Mehidi Ahmmed and Md. Rabius Sani and Tashreef Muhammad}, year={2023}, eprint={2311.11142}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

Vashantor数据集的构建旨在填补孟加拉语区域方言翻译至标准孟加拉语的空白。研究者收集了32,500个句子，涵盖孟加拉语、孟加拉式英语及英语，代表五种孟加拉区域方言。通过mT5和BanglaT5模型进行方言至标准孟加拉语的翻译，并利用mBERT和Bangla-bert-base模型进行方言来源区域的检测。实验结果表明，Mymensingh方言的翻译效果最佳，BLEU得分高达69.06，而Chittagong方言的翻译效果相对较低，BLEU得分为36.75。区域检测的准确率也达到了85.86%。

特点

Vashantor数据集的特点在于其大规模和多语言性，涵盖了五种孟加拉区域方言的翻译任务。数据集不仅提供了方言至标准孟加拉语的翻译，还包括了方言来源区域的检测任务。通过多种评估指标（如CER、WER、BLEU、METEOR等），研究者展示了不同模型在翻译和区域检测任务中的表现。该数据集为低资源语言条件下的机器翻译研究提供了宝贵的资源。

使用方法

Vashantor数据集以CSV和JSON格式公开，用户可通过指定链接进行下载和探索。数据集适用于多种研究和分析场景，特别是在孟加拉语区域方言翻译和区域检测领域。用户可以利用该数据集进行模型训练、性能评估以及相关语言技术的研究。对于任何问题或进一步的合作机会，用户可通过提供的联系信息与研究者取得联系。

背景与挑战

背景概述

Vashantor数据集是2023年由Fatema Tuj Johora Faria、Mukaffi Bin Moin等研究人员创建的一个大规模多语言基准数据集，旨在解决孟加拉语区域方言到标准孟加拉语的自动翻译问题。该数据集包含32,500个句子，涵盖了五种孟加拉语区域方言、孟加拉英语混合语（Banglish）以及英语。研究团队提出了mT5和BanglaT5模型用于方言翻译，并采用mBERT和Bangla-bert-base模型进行方言区域检测。实验结果显示，Mymensingh方言的翻译效果最佳，BLEU得分达到69.06，而Chittagong方言的翻译效果相对较差，BLEU得分为36.75。区域检测的准确率最高达到85.86%。该数据集填补了孟加拉语区域方言翻译研究的空白，为低资源语言条件下的机器翻译提供了重要参考。

当前挑战

Vashantor数据集在构建和应用过程中面临多重挑战。首先，孟加拉语区域方言的多样性和复杂性使得翻译任务极具挑战性，尤其是方言与标准孟加拉语之间的语义和语法差异显著。其次，数据集的构建需要大量高质量的方言语料，而方言数据的收集和标注在低资源语言环境中尤为困难。此外，方言区域检测的准确性受到方言间相似性和数据不平衡的影响，部分方言的检测效果较差。在模型训练方面，尽管mT5和BanglaT5模型在部分方言上表现优异，但整体翻译质量仍有提升空间，尤其是在BLEU得分较低的方言上。这些挑战为未来的研究提供了方向，包括改进翻译模型、优化数据收集方法以及提升区域检测的鲁棒性。

常用场景

经典使用场景

Vashantor数据集在自然语言处理领域中的经典使用场景主要集中于孟加拉语区域方言到标准孟加拉语的自动翻译。该数据集通过提供32,500个包含孟加拉语、孟加拉式英语和英语的句子，覆盖了五种孟加拉语区域方言，为研究人员提供了丰富的语料资源。通过使用mT5和BanglaT5等模型，研究人员能够有效地进行方言到标准语的翻译，并准确识别方言来源地区。这一数据集的应用不仅推动了孟加拉语方言翻译的研究，还为低资源语言条件下的类似问题提供了解决方案。

衍生相关工作

Vashantor数据集衍生了一系列相关经典工作。基于该数据集，研究人员开发了mT5和BanglaT5等翻译模型，这些模型在孟加拉语方言翻译中表现出色。此外，mBERT和Bangla-bert-base等模型在方言来源地区的识别中也取得了显著的成果。这些工作不仅推动了孟加拉语方言翻译的研究，还为其他低资源语言的机器翻译提供了借鉴。Vashantor数据集的应用和衍生工作为自然语言处理领域的发展做出了重要贡献。

数据集最近研究