Karan007/LMA_mini_project_dataset

Name: Karan007/LMA_mini_project_dataset
Creator: Karan007
Published: 2025-09-16 06:42:44
License: 暂无描述

Hugging Face2025-09-16 更新2025-10-25 收录

下载链接：

https://hf-mirror.com/datasets/Karan007/LMA_mini_project_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含英语、古吉拉特语和博杰普尔语的大型多语言文本语料库，旨在支持自然语言处理研究和开发。语料库由来自各种高质量来源的清洁、预处理的文本组成，分为训练、验证和测试三个部分。该语料库旨在提供一个平衡的多语言语料库，以便在保持英语作为资源丰富的基础的同时，促进代表性不足的语言的建模。

This is a large-scale multilingual text corpus containing English, Gujarati, and Bhojpuri languages, designed to support natural language processing research and development. The corpus consists of cleaned, preprocessed text from various high-quality sources, split into training, validation, and test parts. The corpus aims to provide a balanced multilingual resource to facilitate modeling of underrepresented languages while maintaining English as a resource-rich baseline.

提供机构：

Karan007

5,000+

优质数据集

54 个

任务类型

进入经典数据集