AI4Bharat-IndicNLP Dataset

github2024-05-08 更新2024-05-31 收录

下载链接：

https://github.com/ai4bharat-indicnlp/indicnlp_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

AI4Bharat-IndicNLP数据集是一个持续发展的项目，旨在为印度语言创建大规模、通用领域的语料库。目前，该数据集包含来自两个语言家族的10种印度语言的27亿个单词。此外，还提供了在这些语料库上预训练的词嵌入，并创建了9种语言的新闻文章分类数据集以评估这些嵌入。

The AI4Bharat-IndicNLP dataset is an ongoing project aimed at creating large-scale, general-domain corpora for Indian languages. Currently, the dataset encompasses 2.7 billion words from 10 Indian languages across two language families. Additionally, pre-trained word embeddings on these corpora are provided, and a news article classification dataset has been created for 9 languages to evaluate these embeddings.

创建时间：

2020-04-30

原始信息汇总

AI4Bharat-IndicNLP Dataset 概述

数据集描述

目标：创建大规模、通用领域的印度语言语料库。
当前状态：包含2.7亿词，覆盖10种印度语言，来自两个语言家族。
内容：提供预训练的词向量，并创建了9种语言的新闻文章分类数据集以评估这些向量。

文本语料库

语言数量：12种语言。
详细信息：

语言新闻文章数量句子数量词数链接

as 0.60M 1.39M 32.6M link

... ... ... ... ...

te 3.98M 47.9M 674M link

词向量

下载链接：提供版本1的词向量和模型文件下载链接。
示例：

语言向量链接模型链接

pa link link

... ... ...

ta link link

IndicNLP新闻文章分类数据集

数据集描述：使用IndicNLP文本语料库创建，包含9种语言的新闻文章及其类别。
数据集统计：

语言类别每类别文章数

Bengali entertainment, sports 7K

... ... ...

Telugu entertainment, business, sports 8K

公开可用的分类数据集

数据集列表：包括ACTSA Corpus、BBC News Articles等。
下载链接：DOWNLOAD

形态分析器

描述：使用morfessor训练的无监督形态分析器。
下载链接：提供版本1的模型文件下载链接。

引用信息

引用格式：

@article{kunchukuttan2020indicnlpcorpus, title={AI4Bharat-IndicNLP Corpus: Monolingual Corpora and Word Embeddings for Indic Languages}, author={Anoop Kunchukuttan and others}, year={2020}, journal={arXiv preprint arXiv:2005.00085}, }

许可证

许可证类型：Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。

搜集汇总

数据集介绍

构建方式

AI4Bharat-IndicNLP数据集的构建旨在为印度语言提供大规模、通用领域的语料库。该数据集目前涵盖了来自两个语系的10种印度语言，总词汇量达到27亿。数据集的构建过程包括收集新闻文章、进行分词处理，并使用FastText工具训练词嵌入模型。此外，还为9种语言创建了新闻文章分类数据集，以评估词嵌入的效果。

特点

AI4Bharat-IndicNLP数据集的主要特点在于其广泛的语言覆盖和丰富的资源类型。数据集不仅包含大规模的单语语料库，还提供了预训练的词嵌入模型，适用于多种印度语言的自然语言处理任务。此外，数据集还包含了新闻文章分类数据集，支持多语言的文本分类任务，具有较高的实用性和研究价值。

使用方法

AI4Bharat-IndicNLP数据集可用于多种印度语言的自然语言处理任务，如文本分类、词嵌入评估等。用户可以通过提供的下载链接获取语料库和词嵌入模型，并使用FastText和MUSE等工具进行训练和评估。数据集还提供了详细的评估脚本和命令，方便用户快速上手并进行实验。

背景与挑战

背景概述

AI4Bharat-IndicNLP Dataset是由AI4Bharat团队主导的一项持续性项目，旨在为印度语言构建大规模、通用领域的语料库。该数据集目前涵盖了10种印度语言，包含27亿个单词，并提供了预训练的词嵌入模型。其核心研究问题在于如何有效处理和利用印度语言的自然语言处理任务，尤其是多语言环境下的文本分类和词嵌入评估。该数据集在REPL4NLP 2020会议上首次展示，并已应用于多个印度语言的NLP任务中，对推动印度语言的NLP研究具有重要意义。

当前挑战

AI4Bharat-IndicNLP Dataset面临的主要挑战包括：1) 多语言语料库的构建与维护，尤其是印度语言的多样性和复杂性增加了数据处理的难度；2) 词嵌入模型的训练与评估，如何在不同语言之间保持一致性和有效性是一个技术难题；3) 数据集的平衡性问题，确保分类数据集在不同类别之间的分布均匀，以提高模型的泛化能力。此外，印度语言的资源相对匮乏，如何有效利用现有资源并扩展其应用范围也是一大挑战。

常用场景

经典使用场景

AI4Bharat-IndicNLP数据集的经典使用场景主要集中在印度语言的自然语言处理任务中。该数据集提供了大规模的单语语料库和预训练的词嵌入，适用于多种印度语言的文本分类、词相似度计算和词类比任务。通过这些资源，研究者和开发者可以高效地构建和评估印度语言的NLP模型，尤其是在新闻文章分类和情感分析等领域。

解决学术问题

AI4Bharat-IndicNLP数据集解决了印度语言在自然语言处理领域中长期存在的资源匮乏问题。通过提供大规模的语料库和预训练的词嵌入，该数据集为研究者提供了丰富的数据资源，推动了印度语言在文本分类、情感分析和机器翻译等任务中的研究进展。这不仅填补了印度语言NLP研究的空白，还为跨语言研究提供了重要的基础数据。

衍生相关工作

AI4Bharat-IndicNLP数据集的发布催生了一系列相关研究工作。例如，基于该数据集的预训练词嵌入，研究者们开发了多种印度语言的文本分类模型，并在多个公开数据集上取得了优异的性能。此外，该数据集还激发了对印度语言形态分析和跨语言迁移学习的深入研究，推动了印度语言NLP领域的整体发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

语言	类别	每类别文章数
Bengali	entertainment, sports	7K
...	...	...
Telugu	entertainment, business, sports	8K

语言	新闻文章数量	句子数量	词数	链接
as	0.60M	1.39M	32.6M	link
...	...	...	...	...
te	3.98M	47.9M	674M	link

语言	向量链接	模型链接
pa	link	link
...	...	...
ta	link	link