bhojpuri

Hugging Face2025-09-12 更新2025-09-13 收录

下载链接：

https://huggingface.co/datasets/kumarmanishiiit/bhojpuri

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于文本生成任务的集合，包含Bhojpuri（比霍普里语）、Hindi（印地语）和Awadhi（阿瓦德语）三种语言的数据。数据集可能来源于报纸，适用于相关语言的自然语言处理研究和应用。

创建时间：

2025-09-11

原始信息汇总

数据集概述

基本信息

许可证: Apache 2.0
主要任务: 文本生成
支持语言: 博杰普尔语 (bh)、印地语 (hi)
标签: 博杰普尔语、印地语、数据集、报纸
正式名称: 博杰普尔语、印地语、阿瓦德语

数据集详情

语言资源: 包含博杰普尔语和印地语文本数据
数据来源: 报纸文本
语言覆盖: 博杰普尔语、印地语、阿瓦德语

搜集汇总

数据集介绍

构建方式

在印度语言资源稀缺的背景下，Bhojpuri数据集通过系统化收集新闻报纸文本构建而成，涵盖博杰普尔语、印地语和阿瓦迪语三种方言。采用Apache 2.0开源协议确保法律合规性，语料来源以新闻出版物为主，通过语言学专家参与的质量控制流程，确保文本真实反映方言的语法结构和地域特征。

特点

该数据集突出呈现多方言并行语料特性，包含博杰普尔语、印地语及阿瓦迪语的对照文本，为低资源语言研究提供重要基础。文本领域集中于新闻报刊，具有较高的语言规范性和文化代表性，其标注体系兼顾语言标识与领域标签，支持跨语言模型训练与方言对比分析。

使用方法

研究者可借助该数据集开展文本生成任务训练，尤其适用于多语言序列到序列模型开发。使用时需注意语言标签的对应关系，建议通过分词工具预处理方言文本，并结合迁移学习技术提升低资源语言建模效果。数据加载需遵循HuggingFace标准接口协议。

背景与挑战

背景概述

南亚语言资源建设作为计算语言学的重要分支，近年来受到学界广泛关注。Bhojpuri数据集由研究机构于2020年代初期构建，聚焦印地语系中使用人口逾千万但数字资源匮乏的博杰普尔语及其方言阿瓦迪语。该数据集通过新闻文本采集，旨在推动低资源语言的机器翻译、文本生成及语言模型研究，为保护语言多样性及促进数字包容提供关键数据支撑。

当前挑战

该数据集首要解决低资源语言自然语言处理的技术挑战，包括形态复杂性与代码转换现象导致的语义消歧困难。构建过程中面临方言连续体界定模糊、新闻文本口语化特征显著等难题，需通过多源验证与语言学家标注确保语料纯度。数字鸿沟背景下，非标准书写规范与母语者稀缺进一步增加了数据采集与标注的复杂度。

常用场景

经典使用场景

在自然语言处理领域，Bhojpuri数据集为研究低资源语言的文本生成提供了重要基础。该数据集主要应用于跨语言模型训练，支持Bhojpuri、Hindi和Awadhi三种语言的并行语料分析，常用于构建多语言机器翻译系统和语言模型预训练，为语言学研究者提供了丰富的文本资源。

衍生相关工作

该数据集催生了多项重要研究工作，包括基于Bhojpuri-Hindi的神经机器翻译模型、多语言文本分类系统以及低资源语言预训练技术的创新。这些衍生成果显著推动了南亚语言计算语言学的发展，为后续研究者提供了可扩展的方法框架和基准标准。

数据集最近研究