Sangraha

github2024-03-14 更新2024-05-31 收录

下载链接：

https://github.com/AI4Bharat/IndicLLMSuite

下载链接

链接失效反馈

官方服务：

资源简介：

Sangraha is the largest high-quality, cleaned Indic language pretraining data containing 251B tokens summed up over 22 languages, extracted from curated sources, existing multilingual corpora, and large-scale translations.

Sangraha是当前规模最大的高质量、经清洗处理的印度语系预训练数据集，涵盖22种语言，总计包含2510亿个Token（Tokens），其数据源自精选数据源、现有多语言语料库以及大规模翻译语料。

创建时间：

2024-03-06

原始信息汇总

数据集概述

数据集名称

IndicLLMSuite

数据集描述

IndicLLMSuite 是一个包含预训练和微调数据集的集合，专门为印度语言设计。该数据集包括以下主要组件：

Sangraha: 一个包含251亿令牌的高质量印度语言预训练数据集，涵盖22种语言。
- Sangraha Verified: 从“人类验证”网站、高质量印度语言PDF的OCR提取数据以及各种印度语言视频、播客、电影、课程等的转录数据中提取的数据。
- Sangraha Unverified: 从现有多语言语料库中提取的高质量印度语言数据。
- Sangraha Synthetic: 将维基百科英文翻译成14种印度语言，并通过转写进一步从14种语言转写成英文。
IndicAlign: 一个包含约7470万提示-响应对的多语言指令微调数据集，用于印度语言。
- IndicAlign-Instruct: 用于在大型语言模型中灌输指令遵循能力的数据集。
- IndicAlign-Toxic: 用于训练聊天模型以负责任地处理有毒提示的数据集。

数据集组件

Sangraha
- 包含22种印度语言的数据。
IndicAlign
- IndicAlign-Instruct
  - 包含多个子数据集，如IndicShareLlama, Dolly-T, OpenAssistant-T等。
- IndicAlign-Toxic
  - 包含HHRLHF-T和Toxic-Matrix等子数据集。

数据集下载

Sangraha: 可从Huggingface下载。
IndicAlign: 可从Huggingface下载。

数据处理管道

Setu: 用于数据清洗、过滤和去重的全面管道。
Setu-translate: 用于大规模“结构保持”翻译的管道。
Setu-transliterate: 用于大规模“结构保持”转写的管道。

其他资源

Portal for URL Verification: 用于验证要抓取的网站质量的门户。
Portal for Human Data Audit: 用于在数据清洗后进行人工审计的门户。
List of Toxic Words: 用于从抓取数据中移除有毒内容的NSFW和有毒词汇列表。
Romanization Dictionary: 用于大规模转写的大量词典。

引用信息

@misc{khan2024indicllmsuite, title={IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning Datasets for Indian Languages}, author={Mohammed Safi Ur Rahman Khan and Priyam Mehta and Ananth Sankar and Umashankar Kumaravelan and Sumanth Doddapaneni and Suriyaprasaad G and Varun Balan G and Sparsh Jain and Anoop Kunchukuttan and Pratyush Kumar and Raj Dabre and Mitesh M. Khapra}, year={2024}, eprint={2403.06350}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

Sangraha数据集的构建过程体现了对印度语言数据的系统性整合与优化。该数据集通过三个主要组成部分实现：Sangraha Verified、Sangraha Unverified和Sangraha Synthetic。Sangraha Verified部分通过人工验证的网站、高质量PDF的OCR提取以及视频、播客等转录数据构建，确保了数据的可靠性与多样性。Sangraha Unverified则从现有的多语言语料库中提取高质量数据，并通过困惑度过滤进一步优化。Sangraha Synthetic则通过将英文维基百科内容翻译并罗马化为14种印度语言，扩展了数据覆盖范围。整个构建过程依托于开源工具和定制化数据管道，确保了数据的高效处理与质量。

特点

Sangraha数据集以其规模与多样性在印度语言预训练领域占据重要地位。该数据集涵盖了22种印度语言，总规模达到2510亿个词元，是目前最大的印度语言预训练数据集之一。其特点在于数据来源的广泛性与高质量，包括人工验证的网页数据、OCR提取的PDF内容以及大规模翻译生成的合成数据。此外，数据集通过严格的过滤与去重机制，确保了数据的纯净性与一致性。Sangraha的发布为印度语言的自然语言处理研究提供了丰富的资源支持。

使用方法

Sangraha数据集的使用方法灵活多样，适用于多种自然语言处理任务。用户可以通过Huggingface平台直接下载数据集，并根据需求选择特定语言或数据子集进行实验。数据集提供了详细的元信息与预处理代码，便于用户快速上手。对于预训练任务，建议结合Setu数据管道进行进一步清洗与优化，以确保数据质量。此外，Sangraha的合成数据部分可用于跨语言迁移学习，为低资源语言的研究提供了新的可能性。用户还可参考技术论文与开源代码，深入探索数据集的构建细节与应用场景。

背景与挑战

背景概述

Sangraha数据集由AI4Bharat团队于2024年创建，旨在为印度语言的预训练和微调提供高质量的数据支持。该数据集涵盖了22种印度语言，总计包含2510亿个标记，是迄今为止规模最大的印度语言预训练数据集之一。Sangraha的构建基于多种数据源，包括经过人工验证的网站、高质量PDF的OCR提取数据、视频和播客的转录数据，以及通过大规模翻译和转写生成的合成数据。该数据集的发布标志着印度语言处理领域的一个重要里程碑，为开发更强大的语言模型提供了坚实的基础。

当前挑战

Sangraha数据集在构建过程中面临多重挑战。首先，印度语言的多样性和复杂性使得数据收集和清洗变得尤为困难，尤其是在确保数据质量和一致性方面。其次，尽管采用了自动化工具如Setu进行数据清洗和去重，但仍需依赖人工审核来确保数据的准确性和可靠性，这一过程耗时且资源密集。此外，大规模翻译和转写过程中，如何保持语言的结构和语义一致性也是一个技术难题。最后，数据集的构建还需要处理版权和隐私问题，确保所有数据来源合法且符合伦理规范。

常用场景

经典使用场景

Sangraha数据集在自然语言处理领域中被广泛用于印度语言的预训练任务。其高质量、多语言的数据集特性使其成为开发印度语言大语言模型（LLMs）的关键资源。研究人员利用Sangraha进行语言模型的预训练，以提升模型在多种印度语言上的表现，特别是在低资源语言上的泛化能力。

衍生相关工作

Sangraha数据集衍生了一系列经典工作，包括基于其数据的多语言大语言模型开发、跨语言翻译系统的优化以及低资源语言处理技术的改进。例如，IndicTrans2翻译模型和IndicXlit音译工具的开发都直接受益于Sangraha数据集。这些工作进一步推动了印度语言处理技术的研究和应用。

数据集最近研究