Sangraha
收藏github2024-03-14 更新2024-05-31 收录
下载链接:
https://github.com/AI4Bharat/IndicLLMSuite
下载链接
链接失效反馈官方服务:
资源简介:
Sangraha is the largest high-quality, cleaned Indic language pretraining data containing 251B tokens summed up over 22 languages, extracted from curated sources, existing multilingual corpora, and large-scale translations.
Sangraha是当前规模最大的高质量、经清洗处理的印度语系预训练数据集,涵盖22种语言,总计包含2510亿个Token(Tokens),其数据源自精选数据源、现有多语言语料库以及大规模翻译语料。
创建时间:
2024-03-06
原始信息汇总
数据集概述
数据集名称
- IndicLLMSuite
数据集描述
IndicLLMSuite 是一个包含预训练和微调数据集的集合,专门为印度语言设计。该数据集包括以下主要组件:
-
Sangraha: 一个包含251亿令牌的高质量印度语言预训练数据集,涵盖22种语言。
- Sangraha Verified: 从“人类验证”网站、高质量印度语言PDF的OCR提取数据以及各种印度语言视频、播客、电影、课程等的转录数据中提取的数据。
- Sangraha Unverified: 从现有多语言语料库中提取的高质量印度语言数据。
- Sangraha Synthetic: 将维基百科英文翻译成14种印度语言,并通过转写进一步从14种语言转写成英文。
-
IndicAlign: 一个包含约7470万提示-响应对的多语言指令微调数据集,用于印度语言。
- IndicAlign-Instruct: 用于在大型语言模型中灌输指令遵循能力的数据集。
- IndicAlign-Toxic: 用于训练聊天模型以负责任地处理有毒提示的数据集。
数据集组件
- Sangraha
- 包含22种印度语言的数据。
- IndicAlign
- IndicAlign-Instruct
- 包含多个子数据集,如IndicShareLlama, Dolly-T, OpenAssistant-T等。
- IndicAlign-Toxic
- 包含HHRLHF-T和Toxic-Matrix等子数据集。
- IndicAlign-Instruct
数据集下载
- Sangraha: 可从Huggingface下载。
- IndicAlign: 可从Huggingface下载。
数据处理管道
- Setu: 用于数据清洗、过滤和去重的全面管道。
- Setu-translate: 用于大规模“结构保持”翻译的管道。
- Setu-transliterate: 用于大规模“结构保持”转写的管道。
其他资源
- Portal for URL Verification: 用于验证要抓取的网站质量的门户。
- Portal for Human Data Audit: 用于在数据清洗后进行人工审计的门户。
- List of Toxic Words: 用于从抓取数据中移除有毒内容的NSFW和有毒词汇列表。
- Romanization Dictionary: 用于大规模转写的大量词典。
引用信息
@misc{khan2024indicllmsuite, title={IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning Datasets for Indian Languages}, author={Mohammed Safi Ur Rahman Khan and Priyam Mehta and Ananth Sankar and Umashankar Kumaravelan and Sumanth Doddapaneni and Suriyaprasaad G and Varun Balan G and Sparsh Jain and Anoop Kunchukuttan and Pratyush Kumar and Raj Dabre and Mitesh M. Khapra}, year={2024}, eprint={2403.06350}, archivePrefix={arXiv}, primaryClass={cs.CL} }
搜集汇总
数据集介绍

构建方式
Sangraha数据集的构建过程体现了对印度语言数据的系统性整合与优化。该数据集通过三个主要组成部分实现:Sangraha Verified、Sangraha Unverified和Sangraha Synthetic。Sangraha Verified部分通过人工验证的网站、高质量PDF的OCR提取以及视频、播客等转录数据构建,确保了数据的可靠性与多样性。Sangraha Unverified则从现有的多语言语料库中提取高质量数据,并通过困惑度过滤进一步优化。Sangraha Synthetic则通过将英文维基百科内容翻译并罗马化为14种印度语言,扩展了数据覆盖范围。整个构建过程依托于开源工具和定制化数据管道,确保了数据的高效处理与质量。
特点
Sangraha数据集以其规模与多样性在印度语言预训练领域占据重要地位。该数据集涵盖了22种印度语言,总规模达到2510亿个词元,是目前最大的印度语言预训练数据集之一。其特点在于数据来源的广泛性与高质量,包括人工验证的网页数据、OCR提取的PDF内容以及大规模翻译生成的合成数据。此外,数据集通过严格的过滤与去重机制,确保了数据的纯净性与一致性。Sangraha的发布为印度语言的自然语言处理研究提供了丰富的资源支持。
使用方法
Sangraha数据集的使用方法灵活多样,适用于多种自然语言处理任务。用户可以通过Huggingface平台直接下载数据集,并根据需求选择特定语言或数据子集进行实验。数据集提供了详细的元信息与预处理代码,便于用户快速上手。对于预训练任务,建议结合Setu数据管道进行进一步清洗与优化,以确保数据质量。此外,Sangraha的合成数据部分可用于跨语言迁移学习,为低资源语言的研究提供了新的可能性。用户还可参考技术论文与开源代码,深入探索数据集的构建细节与应用场景。
背景与挑战
背景概述
Sangraha数据集由AI4Bharat团队于2024年创建,旨在为印度语言的预训练和微调提供高质量的数据支持。该数据集涵盖了22种印度语言,总计包含2510亿个标记,是迄今为止规模最大的印度语言预训练数据集之一。Sangraha的构建基于多种数据源,包括经过人工验证的网站、高质量PDF的OCR提取数据、视频和播客的转录数据,以及通过大规模翻译和转写生成的合成数据。该数据集的发布标志着印度语言处理领域的一个重要里程碑,为开发更强大的语言模型提供了坚实的基础。
当前挑战
Sangraha数据集在构建过程中面临多重挑战。首先,印度语言的多样性和复杂性使得数据收集和清洗变得尤为困难,尤其是在确保数据质量和一致性方面。其次,尽管采用了自动化工具如Setu进行数据清洗和去重,但仍需依赖人工审核来确保数据的准确性和可靠性,这一过程耗时且资源密集。此外,大规模翻译和转写过程中,如何保持语言的结构和语义一致性也是一个技术难题。最后,数据集的构建还需要处理版权和隐私问题,确保所有数据来源合法且符合伦理规范。
常用场景
经典使用场景
Sangraha数据集在自然语言处理领域中被广泛用于印度语言的预训练任务。其高质量、多语言的数据集特性使其成为开发印度语言大语言模型(LLMs)的关键资源。研究人员利用Sangraha进行语言模型的预训练,以提升模型在多种印度语言上的表现,特别是在低资源语言上的泛化能力。
衍生相关工作
Sangraha数据集衍生了一系列经典工作,包括基于其数据的多语言大语言模型开发、跨语言翻译系统的优化以及低资源语言处理技术的改进。例如,IndicTrans2翻译模型和IndicXlit音译工具的开发都直接受益于Sangraha数据集。这些工作进一步推动了印度语言处理技术的研究和应用。
数据集最近研究
最新研究方向
在自然语言处理领域,Sangraha数据集作为印度语言预训练和微调的最大数据集之一,正推动着多语言模型的前沿研究。该数据集涵盖了22种印度语言,包含2510亿个经过高质量清洗的标记,广泛应用于语言模型的预训练和指令微调。当前研究热点集中在如何利用Sangraha数据集提升低资源语言的模型性能,特别是在翻译、文本生成和语音识别等任务中的应用。此外,结合Setu数据清洗管道和IndicTrans2翻译框架,研究者们正在探索如何进一步优化数据质量和跨语言迁移能力。Sangraha的开源不仅为印度语言的自然语言处理研究提供了丰富资源,也为全球多语言模型的发展提供了重要参考。
以上内容由遇见数据集搜集并总结生成



