five

Vashantor

收藏
github2024-02-05 更新2024-05-31 收录
下载链接:
https://github.com/Mukaffi28/Vashantor-A-Large-scale-Multilingual-Benchmark-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
A Large-scale Multilingual Benchmark Dataset for Automated Translation of Bangla Regional Dialects to Bangla Language

大规模多语言基准数据集(Large-scale Multilingual Benchmark Dataset),用于将孟加拉语(Bangla)区域方言自动翻译为孟加拉语(Bangla)
创建时间:
2024-01-30
原始信息汇总

数据集概述

数据集名称

  • 名称: Vashantor
  • 全称: A Large-scale Multilingual Benchmark Dataset for Automated Translation of Bangla Regional Dialects to Bangla Language

数据集内容

  • 描述: 包含32,500句,涵盖Bangla、Banglish和English,代表五个地区的Bangla方言。
  • 目的: 将这些地区方言翻译成标准Bangla,并准确检测地区。

数据集使用模型

  • 翻译模型: mT5和BanglaT5
  • 地区检测模型: mBERT和Bangla-bert-base

数据集性能

  • 翻译模型性能:
    • 最高BLEU分数: 69.06(Mymensingh地区)
    • 最低BLEU分数: 36.75(Chittagong地区)
    • 最低平均词错误率: 0.1548(Mymensingh地区)
    • 最高平均词错误率: 0.3385(Chittagong地区)
  • 地区检测模型性能:
    • 最高准确率: 85.86%(Bangla-bert-base)
    • 最低准确率: 84.36%(mBERT)

数据集格式

  • 格式: CSV和JSON

数据集可用性

联系方式

引用信息

  • 引用格式: bibtex @misc{faria2023vashantor, title={Vashantor: A Large-scale Multilingual Benchmark Dataset for Automated Translation of Bangla Regional Dialects to Bangla Language}, author={Fatema Tuj Johora Faria and Mukaffi Bin Moin and Ahmed Al Wase and Mehidi Ahmmed and Md. Rabius Sani and Tashreef Muhammad}, year={2023}, eprint={2311.11142}, archivePrefix={arXiv}, primaryClass={cs.CL} }
搜集汇总
数据集介绍
main_image_url
构建方式
Vashantor数据集的构建旨在填补孟加拉语区域方言翻译至标准孟加拉语的空白。研究者收集了32,500个句子,涵盖孟加拉语、孟加拉式英语及英语,代表五种孟加拉区域方言。通过mT5和BanglaT5模型进行方言至标准孟加拉语的翻译,并利用mBERT和Bangla-bert-base模型进行方言来源区域的检测。实验结果表明,Mymensingh方言的翻译效果最佳,BLEU得分高达69.06,而Chittagong方言的翻译效果相对较低,BLEU得分为36.75。区域检测的准确率也达到了85.86%。
特点
Vashantor数据集的特点在于其大规模和多语言性,涵盖了五种孟加拉区域方言的翻译任务。数据集不仅提供了方言至标准孟加拉语的翻译,还包括了方言来源区域的检测任务。通过多种评估指标(如CER、WER、BLEU、METEOR等),研究者展示了不同模型在翻译和区域检测任务中的表现。该数据集为低资源语言条件下的机器翻译研究提供了宝贵的资源。
使用方法
Vashantor数据集以CSV和JSON格式公开,用户可通过指定链接进行下载和探索。数据集适用于多种研究和分析场景,特别是在孟加拉语区域方言翻译和区域检测领域。用户可以利用该数据集进行模型训练、性能评估以及相关语言技术的研究。对于任何问题或进一步的合作机会,用户可通过提供的联系信息与研究者取得联系。
背景与挑战
背景概述
Vashantor数据集是2023年由Fatema Tuj Johora Faria、Mukaffi Bin Moin等研究人员创建的一个大规模多语言基准数据集,旨在解决孟加拉语区域方言到标准孟加拉语的自动翻译问题。该数据集包含32,500个句子,涵盖了五种孟加拉语区域方言、孟加拉英语混合语(Banglish)以及英语。研究团队提出了mT5和BanglaT5模型用于方言翻译,并采用mBERT和Bangla-bert-base模型进行方言区域检测。实验结果显示,Mymensingh方言的翻译效果最佳,BLEU得分达到69.06,而Chittagong方言的翻译效果相对较差,BLEU得分为36.75。区域检测的准确率最高达到85.86%。该数据集填补了孟加拉语区域方言翻译研究的空白,为低资源语言条件下的机器翻译提供了重要参考。
当前挑战
Vashantor数据集在构建和应用过程中面临多重挑战。首先,孟加拉语区域方言的多样性和复杂性使得翻译任务极具挑战性,尤其是方言与标准孟加拉语之间的语义和语法差异显著。其次,数据集的构建需要大量高质量的方言语料,而方言数据的收集和标注在低资源语言环境中尤为困难。此外,方言区域检测的准确性受到方言间相似性和数据不平衡的影响,部分方言的检测效果较差。在模型训练方面,尽管mT5和BanglaT5模型在部分方言上表现优异,但整体翻译质量仍有提升空间,尤其是在BLEU得分较低的方言上。这些挑战为未来的研究提供了方向,包括改进翻译模型、优化数据收集方法以及提升区域检测的鲁棒性。
常用场景
经典使用场景
Vashantor数据集在自然语言处理领域中的经典使用场景主要集中于孟加拉语区域方言到标准孟加拉语的自动翻译。该数据集通过提供32,500个包含孟加拉语、孟加拉式英语和英语的句子,覆盖了五种孟加拉语区域方言,为研究人员提供了丰富的语料资源。通过使用mT5和BanglaT5等模型,研究人员能够有效地进行方言到标准语的翻译,并准确识别方言来源地区。这一数据集的应用不仅推动了孟加拉语方言翻译的研究,还为低资源语言条件下的类似问题提供了解决方案。
衍生相关工作
Vashantor数据集衍生了一系列相关经典工作。基于该数据集,研究人员开发了mT5和BanglaT5等翻译模型,这些模型在孟加拉语方言翻译中表现出色。此外,mBERT和Bangla-bert-base等模型在方言来源地区的识别中也取得了显著的成果。这些工作不仅推动了孟加拉语方言翻译的研究,还为其他低资源语言的机器翻译提供了借鉴。Vashantor数据集的应用和衍生工作为自然语言处理领域的发展做出了重要贡献。
数据集最近研究
最新研究方向
在自然语言处理领域,Vashantor数据集为孟加拉语区域方言到标准孟加拉语的自动翻译提供了重要的研究基础。该数据集涵盖了32,500个句子,涉及五种孟加拉语区域方言,为低资源语言条件下的机器翻译研究开辟了新路径。最新的研究方向聚焦于提升翻译模型的性能,特别是通过mT5和BanglaT5模型实现方言到标准语的精准转换。实验结果显示,Mymensingh方言的翻译效果最佳,BLEU得分达到69.06,而Chittagong方言的翻译效果相对较低,BLEU得分为36.75。此外,区域检测模型Bangla-bert-base在识别方言来源区域时表现出色,准确率达到85.86%。这些研究成果不仅为孟加拉语方言翻译提供了技术支撑,也为其他低资源语言的机器翻译研究提供了借鉴。Vashantor数据集的发布,标志着孟加拉语方言翻译研究进入了一个新的阶段,具有重要的学术价值和实际应用意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作