ai4bharat/sangraha

Name: ai4bharat/sangraha
Creator: ai4bharat
Published: 2025-03-05 06:35:50
License: 暂无描述

Hugging Face2025-03-05 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/ai4bharat/sangraha

下载链接

链接失效反馈

官方服务：

资源简介：

Sangraha是最大的高质量、经过清理的印度语言预训练数据集，包含22种语言，总计251B个token。数据集分为三个部分：Sangraha Verified（包含从人类验证的网站、高质量PDF、视频、播客等来源提取的数据）、Sangraha Unverified（从现有的多语言语料库中提取的高质量数据）和Sangraha Synthetic（将英文维基媒体数据翻译成14种印度语言并进行罗马化的数据）。

提供机构：

ai4bharat

原始信息汇总

数据集概述

名称: Sangraha

许可: CC-BY-4.0

任务类别: 文本生成

语言: 包括22种印度语言，如阿萨姆语(as)、孟加拉语(bn)、古吉拉特语(gu)、英语(en)、印地语(hi)等。

标签: 语言建模, 休闲语言模型, 大型语言模型

数据集配置:

Verified: 包含doc_id, type, text字段，支持多种语言分割。
Unverified: 包含doc_id, text字段，支持部分语言分割。
Synthetic: 包含doc_id, text字段，支持多种语言及其拉丁化版本的分割。

数据文件:

Verified: 包含多种语言的parquet文件，如asm, ben, guj等。
Unverified: 包含部分语言的parquet文件，如asm, ben, guj等。
Synthetic: 包含多种语言及其拉丁化版本的parquet文件，如asm_Beng, ben_Latn等。

大小: 100B<n<1T

总令牌数: 251B，分布在22种语言中。

数据集组件

Sangraha Verified: 包含从“人类验证”网站抓取的数据，高质量印度语言PDF的OCR提取数据，以及各种印度语言视频、播客、电影、课程等的转录数据。
Sangraha Unverified: 从现有的多语言语料库中提取的高质量印度语言数据，使用基于Sangraha Verified训练的n-gram语言模型的困惑度过滤。
Sangraha Synthetic: 将WikiMedia英文翻译成14种印度语言，并进一步从14种语言通过音译转化为英文。

数据统计

语言代码	Verified	Synthetic	Unverified	总令牌数(百万)
...	...	...	...	...
总计	64,306.1	162,707.9	24,307.7	251,321.0

引用信息

@misc{khan2024indicllmsuite, title={IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning Datasets for Indian Languages}, author={Mohammed Safi Ur Rahman Khan and ...}, year={2024}, eprint={2403.06350}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，多语言数据集的构建对于促进语言模型的跨文化理解至关重要。Sangraha数据集的构建采用了分层策略，通过三个核心组件实现：已验证数据源自人工审核的网站、高质量PDF的OCR提取以及音视频转录内容；未验证数据则从现有多语言语料库中提取，并利用困惑度过滤技术确保质量；合成数据部分通过将英文维基媒体内容翻译为14种印度语言，并进一步罗马化处理，从而形成覆盖22种语言、总计2510亿标记的大规模语料库。

特点

该数据集在印度语言资源中展现出显著优势，其最突出的特点是语言多样性，涵盖了从阿萨姆语到乌尔都语等22种语言，并包含梵语等古典语言。数据质量经过严格把控，通过验证与过滤机制确保文本的准确性与清洁度。此外，数据集提供多种文字形式，如天城文、拉丁字母等，增强了其在不同应用场景中的适应性。庞大的数据规模为训练高性能语言模型提供了坚实基础。

使用方法

针对研究者的实际需求，Sangraha数据集提供了灵活的访问方式。用户可通过Hugging Face的datasets库直接加载完整数据集，或根据研究目标选择特定子集，如已验证、未验证或合成部分。进一步地，支持按语言代码筛选数据，例如仅加载阿萨姆语的已验证文本。这种模块化设计使得数据能够高效地应用于预训练、微调或跨语言比较研究，推动印度语言处理技术的发展。

背景与挑战

背景概述

在自然语言处理领域，多语言模型的训练长期受限于高质量数据的稀缺性，尤其对于资源匮乏的语言而言。由AI4Bharat团队于2024年发布的Sangraha数据集，正是针对这一核心研究问题而构建的。该数据集汇集了22种印度语言及英语，总计超过2510亿词元，旨在为印度语言的大规模预训练提供坚实的数据基础。其通过精心设计的验证、未验证及合成三个子集，系统整合了来自网页、文献、音视频转录以及高质量翻译的语料，显著提升了印度语言模型的训练效果与泛化能力，对推动多语言人工智能技术的发展具有深远影响。

当前挑战

Sangraha数据集致力于解决印度语言文本生成与语言建模中数据稀缺与质量不均的挑战。在领域层面，其需应对多种语言在形态、句法及书写系统上的巨大差异，确保模型能够均衡学习各语言特征。构建过程中，团队面临了数据采集与清洗的复杂性：从异构来源（如OCR文本、音视频转录）提取高质量语料需克服噪音与错误问题；为低资源语言合成数据时，需保证翻译与罗马化的准确性；同时，通过困惑度过滤等方法验证数据质量，也需设计适应多语言特性的评估机制，这些均构成了数据集构建的关键难点。

常用场景

经典使用场景

在自然语言处理领域，多语言预训练模型的构建常面临低资源语言数据稀缺的挑战。Sangraha数据集以其涵盖22种印度语言、总计2510亿令牌的庞大规模，成为训练大规模语言模型的经典语料库。其经典使用场景在于为研究者提供高质量、经过严格清洗的多语言文本数据，特别适用于训练跨语言的因果语言模型，支持从阿萨姆语到乌尔都语等多种印度语言的生成和理解任务。该数据集通过整合已验证、未验证及合成数据，确保了语料的多样性与可靠性，为模型在复杂语言环境下的泛化能力奠定基础。

衍生相关工作

围绕Sangraha数据集，已衍生出一系列重要研究工作。其构建团队在论文《IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning Datasets for Indian Languages》中详细阐述了数据策展流程，为后续低资源语言数据集创建树立了范式。该数据集直接支撑了AI4Bharat等机构的多语言大模型开发，并激励了针对特定印度语言的专用模型优化、跨语言对齐算法改进以及语言质量评估框架的创新。这些工作共同推动了印度语言处理生态系统的成熟与拓展。

数据集最近研究