Bangla Corpus

github2024-04-08 更新2024-05-31 收录

下载链接：

https://github.com/sagorbrur/bangla-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

一个精选的Bangla NLP数据集列表，包含机器翻译、文字转写、命名实体识别、词性标注、问答、文本分类、文本摘要、释义、代码混合、基准数据集和原始数据集等多个领域的数据集。

A curated list of Bangla NLP datasets encompassing various domains such as machine translation, text transcription, named entity recognition, part-of-speech tagging, question answering, text classification, text summarization, paraphrasing, code-mixing, benchmark datasets, and raw datasets.

创建时间：

2021-01-15

原始信息汇总

Bangla Corpus 数据集概述

机器翻译

Bangla NMT Corpus
- 链接: Bangla NMT Corpus
- 大小: 2.75M
Bengali-English Bilingual Corpus
- 链接: Bengali-English Bilingual Corpus
- 大小: 4332
samanantar
- 链接: samanantar
opus corpus
- 链接: opus corpus
ALT
- 链接: ALT

音译

Dakshina Datasets
- 链接: Dakshina Datasets
Bangla NLP Transliteration Datasets
- 链接: Bangla NLP Transliteration Datasets
IndicTrans
- 链接: IndicTrans

命名实体识别

Banner
- 链接: Banner
Wikiann
- 链接: Wikiann

词性标注

Bangla POS Tagger
- 链接: Bangla POS Tagger

问答系统

TiDy QA
- 链接: TiDy QA
squad_bn by csebuetnlp-translated
- 链接: squad_bn by csebuetnlp-translated

文本分类

Bangla Hate Speech Dataset by Rezaul Karim
- 链接: Bangla Hate Speech Dataset by Rezaul Karim
Sentiment Analysis by Rezaul Karim
- 链接: Sentiment Analysis by Rezaul Karim
- 大小: 7.5k
Fake News
- 链接: Fake News
Bangla Emotion Classification
- 链接: Bangla Emotion Classification
Bangla News Classificaiton
- 链接: Bangla News Classificaiton
Socian Sentiment Datasets
- 链接: Socian Sentiment Datasets
- 大小: 4k
xnli_bn by csebuetnlp
- 链接: xnli_bn by csebuetnlp

文本摘要

xlsum by csebuetnlp
- 链接: xlsum by csebuetnlp

释义

Bangla Paraphrase by csebuetnlp
- 链接: Bangla Paraphrase by csebuetnlp
indic paraphrase
- 链接: indic paraphrase

混合代码数据集

Bangla Code Mixing by Amitavadas
- 链接: Bangla Code Mixing by Amitavadas

基准数据集

XTREME
- 链接: XTREME

原始数据集

OSCAR
- 链接: OSCAR
Wiki Dump
- 链接: Wiki Dump
Indic Corpus
- 链接: Indic Corpus
Common Crawl
- 链接: Common Crawl
cc-100
- 链接: cc-100
Sangraha
- 链接: Sangraha
Culturax
- 链接: Culturax

嵌入

fasttext
- 链接: fasttext
word2vec
- 链接: word2vec
BPEmb
- 链接: BPEmb

搜集汇总

数据集介绍

构建方式

Bangla Corpus数据集的构建方式体现了对孟加拉语自然语言处理（NLP）资源的系统性整合。该数据集通过汇集多个领域的孟加拉语文本数据，包括机器翻译、语音转写、命名实体识别、词性标注、问答系统、文本分类、文本摘要、复述生成以及代码混合数据等，形成了多层次、多任务的语料库。这些数据来源于多个公开资源，如Google、AI4Bharat、NICT等机构，确保了数据的质量和多样性。此外，数据集还包含了原始文本数据和预训练嵌入模型，进一步丰富了其应用场景。

特点

Bangla Corpus数据集的显著特点在于其广泛的任务覆盖和多样的数据来源。该数据集不仅涵盖了孟加拉语的多种NLP任务，如机器翻译、文本分类、命名实体识别等，还包含了大量的原始文本数据和预训练嵌入模型，为研究者和开发者提供了丰富的资源。此外，数据集中的部分子集经过精细标注，如情感分析和假新闻检测，这些高质量的标注数据为特定任务的模型训练提供了有力支持。

使用方法

Bangla Corpus数据集的使用方法灵活多样，适用于多种NLP任务的研究和开发。用户可以根据具体需求选择不同的子集进行训练和评估，例如，对于机器翻译任务，可以选择Bengali-English Bilingual Corpus或Bangla NMT Corpus；对于文本分类任务，可以选择Bangla Hate Speech Dataset或Sentiment Analysis数据集。此外，数据集中的预训练嵌入模型如fasttext和word2vec，可以直接用于特征提取或作为模型的初始化参数，从而加速模型的训练过程。

背景与挑战

背景概述

Bangla Corpus 是一个精心策划的孟加拉语自然语言处理（NLP）语料库集合，旨在推动孟加拉语在机器翻译、文本分类、命名实体识别等多个NLP任务中的应用。该数据集由多个研究机构和研究人员共同开发，包括CSE BUET、AI4Bharat等，涵盖了从基础的文本分类到复杂的机器翻译和文本摘要等多种任务。其创建时间可追溯至近年来，随着孟加拉语NLP研究的兴起，该数据集的发布为相关领域的研究提供了丰富的资源和基准。

当前挑战

Bangla Corpus 的构建面临多重挑战。首先，孟加拉语作为一种资源相对匮乏的语言，其语料库的收集和标注工作极具挑战性。其次，数据集的多样性和质量控制也是一个重要问题，尤其是在处理多语言翻译和情感分析等任务时，确保数据的准确性和一致性至关重要。此外，如何有效地整合和利用这些数据集，以推动孟加拉语NLP技术的发展，也是当前研究中的一个关键挑战。

常用场景

经典使用场景

Bangla Corpus数据集在孟加拉语自然语言处理（NLP）领域中具有广泛的应用。其经典使用场景之一是用于机器翻译任务，尤其是孟加拉语与其他语言（如英语）之间的翻译。通过该数据集，研究人员可以构建和训练高效的翻译模型，如神经机器翻译（NMT）系统，从而提升跨语言交流的准确性和流畅性。此外，该数据集还广泛应用于文本分类、情感分析、命名实体识别（NER）等任务，为孟加拉语的语义理解和信息提取提供了丰富的资源。

衍生相关工作

Bangla Corpus数据集的发布催生了许多相关研究和工作。在机器翻译领域，基于该数据集的研究成果包括构建高效的孟加拉语-英语翻译模型，如基于Transformer的NMT系统。在情感分析和文本分类方面，研究人员开发了多种深度学习模型，如卷积神经网络（CNN）和长短期记忆网络（LSTM），以提升分类准确性。此外，该数据集还为孟加拉语的命名实体识别和词性标注任务提供了基准，推动了相关算法的发展和优化。

数据集最近研究