BanglaNMT

github2024-04-24 更新2024-05-31 收录

下载链接：

https://github.com/Jak57/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

包含多种语言处理相关的数据集，如词性标注、句子标注、词汇表等，用于深度学习和机器学习任务。

This dataset encompasses a variety of language processing-related data, such as part-of-speech tagging, sentence annotation, and vocabulary lists, designed for deep learning and machine learning tasks.

创建时间：

2023-05-25

原始信息汇总

数据集概述

主要数据集列表

neural_lemmatizer.csv - 印度作者的数据集（针对孟加拉语的上下文敏感神经词形还原器）
word_pos_final.csv - 人工标注的词性标签（词-->词性）
word_pos_lemma_gold2.csv - 来自上述数据集的（词，词性，词形）（未清洗）
sentences_gold_2914.csv - 来自POS gold的句子
buet_nmt
- rising_news_test_1000.csv - （句子，词形）清洗过但未校正

BanglaNMT数据集总结

所有未清洗句子 - 2664142
所有清洗句子 - 2664142
所有词汇（未清洗） - 2671
纯孟加拉语词汇 - 72
所有词及其频率 - 649042
vocab_bangla_108_nltk - 初始选定的清洗字符
Jakir Arnob 18000+
句子级词形还原数据集 11k

BaNeL数据集

banel数据集作为txt文件 - 仅包含唯一单词用于分词
bpe分词器用于banel - 30k

BDSL数据集

所有书中的标志名称 - 3915
BDSL_dataset_3951.csv - 从BDSL书中提取的所有词
filenames_from_seniors_4787.csv - 来自资深人士标注的所有词

DataTemp数据集

common_19328.csv - 同时出现在测试集和训练集中的词
uncommon_28725.csv - 仅出现在测试集中的词
previous dataset - word-ipa映射 - 37807
updated_dictionary_training_set38522.csv - 更新后的训练集词典
updated_dictionary_test_set_48053.csv - 测试集词典
模型对测试集的预测 - 提交2
模型对测试集的预测 - 提交3
测试数据中的数字 - 2603
previous dataset - 训练测试分割
updated dataset train test split
清洗后的测试数据 - 数字已规范化 - 27k
字符集 - 训练，测试和演示提交
数据集中清洗后的数字及其频率计数 - 870
模型对测试集的预测 - 提交4
更新后的训练数据集词典
dataset-char-level-预训练模型mt5, mbart
previous dataset word ipa映射

搜集汇总

数据集介绍

构建方式

BanglaNMT数据集的构建基于对孟加拉语自然语言处理任务的深入研究，涵盖了从原始语料的收集、清洗到标注的完整流程。数据集包括未清洗和清洗后的句子，分别存储在不同的文件中，确保了数据的多层次可用性。此外，数据集还包含了词汇表、词频统计以及特定领域的词汇集，如BDSL数据集，这些资源为孟加拉语的词汇分析和语言模型训练提供了坚实的基础。

特点

BanglaNMT数据集的显著特点在于其多样性和细致的分类。数据集不仅包含了大量的句子样本，还提供了详细的词汇信息，包括词频、词性标注和词形变化等。此外，数据集还特别关注了孟加拉语的特殊字符和语法结构，确保了数据在语言学和机器学习应用中的广泛适用性。

使用方法

使用BanglaNMT数据集时，用户可以根据需求选择不同类型的数据文件，如未清洗的句子、清洗后的句子或特定词汇集。数据集支持多种自然语言处理任务，包括但不限于文本分类、机器翻译和词性标注。用户可以通过加载相应的CSV文件或使用提供的词汇表进行数据预处理，进而训练和评估模型。

背景与挑战

背景概述

BanglaNMT数据集是由Jakir Arnob等研究人员创建的，旨在推动孟加拉语自然语言处理（NLP）领域的发展。该数据集包含了大量的孟加拉语句子及其对应的词性标注、词形还原等信息，主要用于训练和评估神经机器翻译（NMT）模型。BanglaNMT的构建不仅填补了孟加拉语在NLP领域的数据空白，还为相关研究提供了丰富的资源，推动了孟加拉语在机器翻译、文本分析等领域的应用。

当前挑战

BanglaNMT数据集在构建过程中面临了多重挑战。首先，孟加拉语作为一种资源相对匮乏的语言，其语法结构和词汇特征的复杂性增加了数据标注和清洗的难度。其次，数据集的规模庞大，如何高效地进行数据清洗和预处理成为了一个技术难题。此外，孟加拉语的独特书写系统和语音特性也使得词汇的分割和词形还原任务变得尤为复杂。这些挑战不仅影响了数据集的质量，也对后续的模型训练和性能评估提出了更高的要求。

常用场景

经典使用场景

BanglaNMT数据集在自然语言处理领域中，主要用于构建和训练孟加拉语的自然语言处理模型，尤其是神经机器翻译（NMT）系统。该数据集包含了大量的孟加拉语句子及其对应的词性标注、词形还原信息，为研究人员提供了丰富的语料资源，使得构建高质量的孟加拉语翻译模型成为可能。

解决学术问题

BanglaNMT数据集解决了孟加拉语自然语言处理领域中缺乏大规模标注数据的问题。通过提供高质量的标注数据，该数据集为研究人员提供了构建和评估孟加拉语NMT模型的基础，推动了孟加拉语在机器翻译、文本生成等任务中的应用研究，具有重要的学术价值。

衍生相关工作

基于BanglaNMT数据集，研究人员开发了多种孟加拉语的自然语言处理模型，如基于Transformer的翻译模型和词性标注模型。此外，该数据集还启发了对低资源语言处理的研究，推动了多语言机器翻译和跨语言学习方法的发展，成为相关领域的重要参考资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集