Awesome Bangla Datasets

github2024-04-04 更新2024-05-31 收录

下载链接：

https://github.com/VirusProton/Awesome_Bangla_Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库收集了多种用于Bangla语言深度学习的数据集，涵盖NLP、ASR、TTS、OCR等多个领域，旨在解决Bangla语言应用在人工智能和深度学习中数据集不足的问题。

This repository aggregates a variety of datasets for deep learning in the Bangla language, encompassing fields such as NLP (Natural Language Processing), ASR (Automatic Speech Recognition), TTS (Text-to-Speech), and OCR (Optical Character Recognition). It aims to address the scarcity of datasets for Bangla language applications in artificial intelligence and deep learning.

创建时间：

2024-02-15

原始信息汇总

Awesome Bangla Datasets

Bangla-NLP-Datasets

Task Agnostic NLP Datasets
- Bangla Word List
- Bangla Stop Words
- CC-100
- Googles C4 dataset
- Wikipidia Dump Dataset
- OSCAR
- News Paper Scraped Datasets
- Samanantar
- IndicCorp
- Bangla Poetry Dataset
- Bangla Medical Dataset
- BanglaLM
Bangla Text Classification Task Datasets
- Multilebel Text Classification
- News Headline Classification
- Sentiment/Emotion Analysis
- Complain Classification
- Sarcasm Detection(BanglaSarc)
- Book Genre Classification
- Movie Genre Classification
- Scientific Topic Classification
- Song Lyrics Classification
- Fake News Detection
- Spam SMS Detection
Bangla NER Task Datasets
- Bangla Pos Tagging
- B-NER: Largest Bangla Bangla Named Entity Recognition Dataset
- Bangla Complex Named Entity Recognition Dataset
- Math Entity Recognition Dataset
- Bangla Person Name Extraction Dataset
- Amazon Massive Dataset
Bangla Translation Task Datasets
- Bangla Open Subtitle Parallel Corpus
- EN - BN
Bangla Dialogue Dataset
- Daily Dialogue
Bangla Text Summarization Datasets
- BenSum
- BUSUM-BNLP Dataset (Multi-Document Bangla Summary)
- Bangla News Summarization
Bangla Question Answering Dataset
- Bangla Q/A (SQuAD 2.0 Translation)
- Bangla Short Question Answer Dataset
- Long Question Answer Dataset
- BanglaRQA: Bangla Reading Comprehension-based Question Answering Dataset
Bangla Lemmatization Dataset
- Dataset
Bangla Identity Bias Evaluation Dataset
- Dataset

Bangla ASR Datasets

Open SLR
Bangla Speech Recognition OOD Dataset
Shrutilipi
Kathbath
Kathbath Hard
FLEURS
IndicTTS
ULCA
MADASR

Bangla TTS Datasets

Open SLR Dataset

Bangla OCR Datasets

Ekush: Bangla Handwritten Characters
Bongabdo: Bangla Handwritten script Dataset
PDF Text Detection
Bangla Handwritten Grapheme Classification
BN-HTRd: Benchmark Dataset for Document Level Offline Bangla Handwritten Text Recognition
Bangla synthetic license plates

搜集汇总

数据集介绍

构建方式

在人工智能和深度学习领域，孟加拉语的应用发展相对滞后，主要原因之一是缺乏高质量的数据集。Awesome Bangla Datasets通过整合多个来源的数据，构建了一个涵盖自然语言处理、语音识别、文本到语音转换以及光学字符识别等多个领域的孟加拉语数据集。这些数据集主要来自公开的Kaggle竞赛、学术论文、开源项目以及新闻媒体等，确保了数据的多样性和时效性。

特点

该数据集的特点在于其广泛的覆盖范围和高质量的数据来源。它不仅包含了基础的文本分类、情感分析、命名实体识别等任务的数据，还涵盖了翻译、对话、文本摘要、问答系统等复杂任务的数据。此外，数据集还特别关注了孟加拉语的语音识别和文本到语音转换任务，提供了丰富的语音数据。这些数据集经过精心筛选和整理，确保了数据的准确性和适用性，为孟加拉语的自然语言处理研究提供了坚实的基础。

使用方法

使用Awesome Bangla Datasets时，研究人员和开发者可以根据具体任务选择相应的数据集。例如，进行情感分析时，可以选择BanglaBook或SentiGOLD数据集；进行命名实体识别时，可以使用B-NER数据集。数据集通常以CSV或JSON格式提供，便于直接加载到机器学习框架中进行训练和测试。此外，数据集的使用文档详细说明了数据的结构和字段含义，帮助用户快速上手。通过引用原始数据集和该资源库，用户可以确保研究的透明性和可重复性。

背景与挑战

背景概述

在人工智能与深度学习迅速发展的背景下，孟加拉语的应用研究相对滞后，主要原因在于相关数据集的稀缺与陈旧。Awesome Bangla Datasets应运而生，旨在填补这一空白，为孟加拉语深度学习研究提供更新的数据集资源。该数据集由Sabbir Hossain Ujjal等人于2024年创建，涵盖了自然语言处理、语音识别、文本到语音转换及光学字符识别等多个领域，极大地推动了孟加拉语在人工智能领域的研究与应用。

当前挑战

Awesome Bangla Datasets面临的挑战主要体现在两个方面：首先，孟加拉语的自然语言处理任务，如文本分类、命名实体识别、情感分析等，由于语言的复杂性和多样性，构建高质量、多样化的数据集具有较高的难度。其次，在数据集的构建过程中，如何确保数据的时效性、准确性和代表性，以及如何处理数据中的噪声和偏差，都是需要克服的技术难题。此外，跨领域数据集的整合与标准化也是提升数据集实用性的关键挑战。

常用场景

经典使用场景

在自然语言处理（NLP）领域，Awesome Bangla Datasets为孟加拉语文本分类、情感分析、命名实体识别（NER）、机器翻译、对话系统、文本摘要、问答系统等任务提供了丰富的资源。这些数据集广泛应用于学术研究和工业界，尤其是在孟加拉语的语言模型训练和评估中，成为推动孟加拉语NLP技术发展的核心工具。

实际应用

在实际应用中，Awesome Bangla Datasets被广泛用于开发智能客服、社交媒体情感分析、新闻分类、医疗文本处理、教育技术等领域的解决方案。例如，基于这些数据集的模型可以用于自动分析孟加拉语社交媒体评论的情感倾向，或为孟加拉语用户提供高质量的机器翻译服务，极大地提升了用户体验和商业价值。

衍生相关工作

Awesome Bangla Datasets催生了一系列经典研究工作，例如基于SentNoB数据集的情感分析模型、基于B-NER数据集的命名实体识别系统，以及基于Samanantar数据集的机器翻译模型。这些工作不仅在学术界发表了多篇高质量论文，还在工业界得到了实际应用，推动了孟加拉语NLP技术的快速发展和普及。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集