UnifiedCrawl
收藏github2024-11-26 更新2024-11-28 收录
下载链接:
https://github.com/bethelmelesse/UnifiedCrawl
下载链接
链接失效反馈官方服务:
资源简介:
UnifiedCrawl是从Common Crawl中聚合的低资源语言的单语数据集,用于在低资源语言上适应大型语言模型。该数据集包括数据收集、基准测试和微调。
UnifiedCrawl is a monolingual dataset for low-resource languages aggregated from Common Crawl, and is specifically developed to adapt Large Language Models (LLMs) to low-resource languages. This dataset includes three core components: data collection, benchmarking and fine-tuning.
创建时间:
2024-11-21
原始信息汇总
UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages
简介
UnifiedCrawl 是一个从 Common Crawl 中提取的低资源语言的单语数据集,旨在为低资源语言的大型语言模型(LLMs)提供经济实惠的适应性。
数据集构建步骤
- 下载单语数据集:从 Common Crawl 下载单语数据集。
- 数据去重:使用精确子字符串匹配方法对数据集进行去重。
- 模型基准测试与微调:对预训练的原始模型进行基准测试,并使用爬取的数据进行微调。
环境设置
- 安装 conda:使用 Miniconda 安装 conda。
- 创建 conda 环境并安装 CUDA:创建 Python 环境并安装 CUDA 工具包。
- 安装 Python 依赖项:安装所需的 Python 依赖项。
- 设置其他依赖项:安装用于下载 Common Crawl 数据的依赖项。
数据下载
- 按语言过滤 Common Crawl 索引:通过设置环境变量并运行脚本,按语言过滤 Common Crawl 索引。
- 下载并提取文本:从过滤后的 Common Crawl 索引中下载并提取文本。
数据去重
- 安装 Rust:安装 Rust 以构建去重工具。
- 构建去重工具二进制文件:构建用于去重的二进制文件。
- 运行数据去重:
- 合并爬取文件:将单个爬取文件合并为一个文件。
- 去重单个爬取:对单个爬取进行去重。
- 去重所有爬取:对所有爬取进行去重。
- 过滤短文档:去除长度小于 100 个字符的文档。
模型基准测试与微调
- 基准测试:对原始模型进行基准测试。
- 微调模型:使用爬取的数据对模型进行微调。
问题与联系
如有问题或疑问,可以通过电子邮件联系作者或在 GitHub 上提交问题。
引用
如需引用该数据集,请使用以下 BibTeX 格式: bibtex @article{tessema2024unifiedcrawl, author = {Bethel Melesse Tessema and Akhil Kedia and Tae-Sun Chung}, title = {UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages}, journal = {CoRR}, volume = {abs/2411.14343}, year = {2024}, url = {https://doi.org/10.48550/arXiv.2411.14343}, doi = {10.48550/ARXIV.2411.14343}, eprinttype = {arXiv}, eprint = {2411.14343} }
搜集汇总
数据集介绍

构建方式
UnifiedCrawl数据集的构建始于从Common Crawl中提取单语种数据。首先,通过设定环境变量和执行特定脚本,筛选出所需语言的索引文件。随后,利用Python脚本从筛选后的索引中下载并提取文本数据。为确保数据质量,数据集经过多轮去重处理,包括去除重复URL和文本内容的精确子串匹配。这一过程通过安装Rust并构建专用二进制文件来实现,确保高效处理大规模数据。最终,通过合并和进一步去重,生成适用于低资源语言的统一数据集。
特点
UnifiedCrawl数据集的核心特点在于其针对低资源语言的优化设计。通过从Common Crawl中精炼出高质量的单语种数据,该数据集显著降低了语言模型在低资源语言上的适应成本。其去重机制确保了数据的唯一性和有效性,减少了冗余信息。此外,数据集的构建过程高度自动化,支持多种语言的处理,为研究者和开发者提供了便捷的数据资源。
使用方法
使用UnifiedCrawl数据集,首先需配置环境,包括安装conda、创建Python环境并安装必要的依赖项。随后,通过执行脚本从Common Crawl下载并筛选数据。数据处理阶段涉及去重和合并操作,可通过运行特定Python脚本和Rust二进制文件完成。最后,用户可根据需求对原始模型进行基准测试或微调,以适应特定语言的任务需求。详细的步骤和代码示例在README文件中均有提供,确保用户能够顺利进行数据集的使用和模型训练。
背景与挑战
背景概述
UnifiedCrawl数据集由Bethel Melesse Tessema、Akhil Kedia和Tae-Sun Chung等研究人员于2024年创建,旨在解决低资源语言在大型语言模型(LLMs)适应中的高成本问题。该数据集通过聚合Common Crawl中的数据,构建了低资源语言的最大单语数据集,为语言模型的微调和基准测试提供了丰富的资源。其核心研究问题是如何在资源有限的情况下,高效地生成和利用大规模单语数据集,以提升低资源语言的模型性能。这一研究对自然语言处理领域具有重要意义,特别是在推动多语言模型的普及和应用方面。
当前挑战
UnifiedCrawl数据集在构建过程中面临多重挑战。首先,从Common Crawl中筛选和提取特定语言的数据需要高效的算法和强大的计算资源,以处理海量的网络数据。其次,数据的去重和质量控制是确保数据集有效性的关键,这涉及到复杂的文本匹配和过滤技术。此外,如何在大规模数据集上进行有效的模型微调和基准测试,以验证数据集的实际应用效果,也是一项重要的挑战。这些挑战不仅涉及技术层面的优化,还包括资源管理和跨语言适应性的考量。
常用场景
经典使用场景
UnifiedCrawl数据集在低资源语言的自然语言处理(NLP)领域中具有经典应用。该数据集通过从Common Crawl中聚合数据,为低资源语言提供了大规模的单语数据集。研究者可以利用这些数据进行语言模型的微调,特别是在资源匮乏的语言环境中,如阿姆哈拉语。通过数据的去重和过滤,UnifiedCrawl能够有效提升模型在低资源语言上的性能,为跨语言模型适应性研究提供了宝贵的资源。
实际应用
在实际应用中,UnifiedCrawl数据集被广泛用于低资源语言的机器翻译、文本分类和语言生成等任务。例如,在阿姆哈拉语的机器翻译系统中,使用UnifiedCrawl数据集进行模型微调,显著提高了翻译质量。此外,该数据集还被用于构建低资源语言的智能助手和聊天机器人,提升了这些系统在特定语言环境中的用户体验和交互效果。
衍生相关工作
基于UnifiedCrawl数据集,研究者们开展了一系列相关工作。例如,有研究利用该数据集进行跨语言预训练模型的适应性研究,提出了新的微调策略,以提升模型在低资源语言上的泛化能力。此外,还有工作探讨了如何更有效地利用UnifiedCrawl数据集进行多语言模型的联合训练,以实现更好的跨语言迁移效果。这些研究不仅丰富了低资源语言的NLP方法,也为未来的研究提供了新的方向。
以上内容由遇见数据集搜集并总结生成



