indic-nlp

Hugging Face2025-06-11 更新2025-06-12 收录

下载链接：

https://huggingface.co/datasets/ayushbagaria17/indic-nlp

下载链接

链接失效反馈

官方服务：

资源简介：

L3Cube-IndicNews是一个面向印度区域语言的新闻标题和文章的多语言文本分类语料库，包含11种印度主要语言，包括印地语、孟加拉语、马拉地语、泰卢固语、泰米尔语、古吉拉特语、卡纳达语、奥里亚语、马拉雅拉姆语、旁遮普语和英语。该数据集分为短标题分类(SHC)、长文档分类(LDC)和长段落分类(LPC)三种类型，每种类型都包含10个或更多类别的新闻文章，以支持不同文档长度的深度分析。

创建时间：

2025-06-10

搜集汇总

数据集介绍

构建方式

在印度区域性语言处理领域，L3Cube-IndicNews 数据集的构建围绕11种主要印度语言展开，涵盖新闻标题与全文。通过系统采集和分类，形成了三类结构化数据：短标题分类（SHC）、长文档分类（LDC）及长段落分类（LPC）。每类数据均保持一致的类别标签，以支持跨长度文本的对比分析，语料来源可靠、标注过程严谨。

特点

该数据集突出多语言与多粒度特性，涵盖印地语、孟加拉语、泰米尔语等11种语言，并区分短标题与长文档等多种文本形态。其类别体系覆盖超过10个新闻领域，标签统一且规模适中，适用于跨语言模型训练与文本长度敏感性研究，为低资源语言处理提供了重要基础资源。

使用方法

使用者可依据任务需求选择相应子集，如短文本分类可调用SHC，长文档理解则使用LDC或LPC。数据已划分为训练、验证与测试集，可直接用于模型微调或跨语言泛化实验。相关预训练模型已在HuggingFace平台发布，支持快速迁移与应用验证。

背景与挑战

背景概述

随着自然语言处理技术在全球范围内的快速发展，多语言文本分类成为跨语言信息处理的核心研究方向之一。L3Cube-IndicNews数据集由印度研究团队于2024年构建，专注于涵盖11种主要印度语言及英语的新闻文本分类任务。该数据集通过整合新闻标题与全文内容，旨在支持短文本与长文档的多粒度分类研究，为印度多语言社会背景下的信息组织与检索提供关键数据基础，对推动低资源语言处理技术具有显著影响力。

当前挑战

该数据集致力于解决印度多语言新闻文本分类中的领域挑战，包括语言形态多样性、标注一致性以及长短文本表征差异等问题。在构建过程中，研究人员需克服语料收集与清洗的复杂性，尤其在低资源语言中确保新闻类别标签的准确性与一致性，同时处理不同语言编码和文本长度的标准化问题，以保障多语言环境下模型训练的可靠性与泛化能力。

常用场景

经典使用场景

在自然语言处理领域，多语言文本分类始终是研究的核心挑战之一。L3Cube-IndicNews数据集通过涵盖11种主要印度语言，包括印地语、孟加拉语和泰米尔语等，为短标题分类（SHC）、长文档分类（LDC）和长段落分类（LPC）提供了统一标注框架。研究者可借此探索不同文本长度下的分类性能，尤其在低资源语言环境中，该数据集成为评估模型跨语言泛化能力的标准基准。

衍生相关工作

自该数据集发布以来，已衍生出一系列经典研究工作，包括基于多语言BERT的适应性微调策略、长度感知的层次化分类模型，以及跨语言零样本学习框架。相关成果不仅推动了如印地语主题分类模型的公开共享，还促进了低资源语言处理工具的生态发展，为后续区域语言NLP研究提供了可扩展的基础架构。

数据集最近研究