UnifiedCrawl

github2024-11-26 更新2024-11-28 收录

下载链接：

https://github.com/bethelmelesse/UnifiedCrawl

下载链接

链接失效反馈

官方服务：

资源简介：

UnifiedCrawl是从Common Crawl中聚合的低资源语言的单语数据集，用于在低资源语言上适应大型语言模型。该数据集包括数据收集、基准测试和微调。

UnifiedCrawl is a monolingual dataset for low-resource languages aggregated from Common Crawl, and is specifically developed to adapt Large Language Models (LLMs) to low-resource languages. This dataset includes three core components: data collection, benchmarking and fine-tuning.

创建时间：

2024-11-21

原始信息汇总

UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages

简介

UnifiedCrawl 是一个从 Common Crawl 中提取的低资源语言的单语数据集，旨在为低资源语言的大型语言模型（LLMs）提供经济实惠的适应性。

数据集构建步骤

下载单语数据集：从 Common Crawl 下载单语数据集。
数据去重：使用精确子字符串匹配方法对数据集进行去重。
模型基准测试与微调：对预训练的原始模型进行基准测试，并使用爬取的数据进行微调。

环境设置

安装 conda：使用 Miniconda 安装 conda。
创建 conda 环境并安装 CUDA：创建 Python 环境并安装 CUDA 工具包。
安装 Python 依赖项：安装所需的 Python 依赖项。
设置其他依赖项：安装用于下载 Common Crawl 数据的依赖项。

数据下载

按语言过滤 Common Crawl 索引：通过设置环境变量并运行脚本，按语言过滤 Common Crawl 索引。
下载并提取文本：从过滤后的 Common Crawl 索引中下载并提取文本。

数据去重

安装 Rust：安装 Rust 以构建去重工具。
构建去重工具二进制文件：构建用于去重的二进制文件。
运行数据去重：
- 合并爬取文件：将单个爬取文件合并为一个文件。
- 去重单个爬取：对单个爬取进行去重。
- 去重所有爬取：对所有爬取进行去重。
- 过滤短文档：去除长度小于 100 个字符的文档。

模型基准测试与微调

基准测试：对原始模型进行基准测试。
微调模型：使用爬取的数据对模型进行微调。

问题与联系

如有问题或疑问，可以通过电子邮件联系作者或在 GitHub 上提交问题。

引用

如需引用该数据集，请使用以下 BibTeX 格式： bibtex @article{tessema2024unifiedcrawl, author = {Bethel Melesse Tessema and Akhil Kedia and Tae-Sun Chung}, title = {UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages}, journal = {CoRR}, volume = {abs/2411.14343}, year = {2024}, url = {https://doi.org/10.48550/arXiv.2411.14343}, doi = {10.48550/ARXIV.2411.14343}, eprinttype = {arXiv}, eprint = {2411.14343} }

搜集汇总

数据集介绍

构建方式

UnifiedCrawl数据集的构建始于从Common Crawl中提取单语种数据。首先，通过设定环境变量和执行特定脚本，筛选出所需语言的索引文件。随后，利用Python脚本从筛选后的索引中下载并提取文本数据。为确保数据质量，数据集经过多轮去重处理，包括去除重复URL和文本内容的精确子串匹配。这一过程通过安装Rust并构建专用二进制文件来实现，确保高效处理大规模数据。最终，通过合并和进一步去重，生成适用于低资源语言的统一数据集。

特点

UnifiedCrawl数据集的核心特点在于其针对低资源语言的优化设计。通过从Common Crawl中精炼出高质量的单语种数据，该数据集显著降低了语言模型在低资源语言上的适应成本。其去重机制确保了数据的唯一性和有效性，减少了冗余信息。此外，数据集的构建过程高度自动化，支持多种语言的处理，为研究者和开发者提供了便捷的数据资源。

使用方法

使用UnifiedCrawl数据集，首先需配置环境，包括安装conda、创建Python环境并安装必要的依赖项。随后，通过执行脚本从Common Crawl下载并筛选数据。数据处理阶段涉及去重和合并操作，可通过运行特定Python脚本和Rust二进制文件完成。最后，用户可根据需求对原始模型进行基准测试或微调，以适应特定语言的任务需求。详细的步骤和代码示例在README文件中均有提供，确保用户能够顺利进行数据集的使用和模型训练。

背景与挑战

背景概述

UnifiedCrawl数据集由Bethel Melesse Tessema、Akhil Kedia和Tae-Sun Chung等研究人员于2024年创建，旨在解决低资源语言在大型语言模型（LLMs）适应中的高成本问题。该数据集通过聚合Common Crawl中的数据，构建了低资源语言的最大单语数据集，为语言模型的微调和基准测试提供了丰富的资源。其核心研究问题是如何在资源有限的情况下，高效地生成和利用大规模单语数据集，以提升低资源语言的模型性能。这一研究对自然语言处理领域具有重要意义，特别是在推动多语言模型的普及和应用方面。

当前挑战

UnifiedCrawl数据集在构建过程中面临多重挑战。首先，从Common Crawl中筛选和提取特定语言的数据需要高效的算法和强大的计算资源，以处理海量的网络数据。其次，数据的去重和质量控制是确保数据集有效性的关键，这涉及到复杂的文本匹配和过滤技术。此外，如何在大规模数据集上进行有效的模型微调和基准测试，以验证数据集的实际应用效果，也是一项重要的挑战。这些挑战不仅涉及技术层面的优化，还包括资源管理和跨语言适应性的考量。

常用场景

经典使用场景

UnifiedCrawl数据集在低资源语言的自然语言处理（NLP）领域中具有经典应用。该数据集通过从Common Crawl中聚合数据，为低资源语言提供了大规模的单语数据集。研究者可以利用这些数据进行语言模型的微调，特别是在资源匮乏的语言环境中，如阿姆哈拉语。通过数据的去重和过滤，UnifiedCrawl能够有效提升模型在低资源语言上的性能，为跨语言模型适应性研究提供了宝贵的资源。

实际应用

在实际应用中，UnifiedCrawl数据集被广泛用于低资源语言的机器翻译、文本分类和语言生成等任务。例如，在阿姆哈拉语的机器翻译系统中，使用UnifiedCrawl数据集进行模型微调，显著提高了翻译质量。此外，该数据集还被用于构建低资源语言的智能助手和聊天机器人，提升了这些系统在特定语言环境中的用户体验和交互效果。

衍生相关工作

基于UnifiedCrawl数据集，研究者们开展了一系列相关工作。例如，有研究利用该数据集进行跨语言预训练模型的适应性研究，提出了新的微调策略，以提升模型在低资源语言上的泛化能力。此外，还有工作探讨了如何更有效地利用UnifiedCrawl数据集进行多语言模型的联合训练，以实现更好的跨语言迁移效果。这些研究不仅丰富了低资源语言的NLP方法，也为未来的研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集