five

UnifiedCrawl|自然语言处理数据集|低资源语言数据集

收藏
github2024-11-26 更新2024-11-28 收录
自然语言处理
低资源语言
下载链接:
https://github.com/bethelmelesse/UnifiedCrawl
下载链接
链接失效反馈
资源简介:
UnifiedCrawl是从Common Crawl中聚合的低资源语言的单语数据集,用于在低资源语言上适应大型语言模型。该数据集包括数据收集、基准测试和微调。
创建时间:
2024-11-21
原始信息汇总

UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages

简介

UnifiedCrawl 是一个从 Common Crawl 中提取的低资源语言的单语数据集,旨在为低资源语言的大型语言模型(LLMs)提供经济实惠的适应性。

数据集构建步骤

  1. 下载单语数据集:从 Common Crawl 下载单语数据集。
  2. 数据去重:使用精确子字符串匹配方法对数据集进行去重。
  3. 模型基准测试与微调:对预训练的原始模型进行基准测试,并使用爬取的数据进行微调。

环境设置

  • 安装 conda:使用 Miniconda 安装 conda。
  • 创建 conda 环境并安装 CUDA:创建 Python 环境并安装 CUDA 工具包。
  • 安装 Python 依赖项:安装所需的 Python 依赖项。
  • 设置其他依赖项:安装用于下载 Common Crawl 数据的依赖项。

数据下载

  • 按语言过滤 Common Crawl 索引:通过设置环境变量并运行脚本,按语言过滤 Common Crawl 索引。
  • 下载并提取文本:从过滤后的 Common Crawl 索引中下载并提取文本。

数据去重

  • 安装 Rust:安装 Rust 以构建去重工具。
  • 构建去重工具二进制文件:构建用于去重的二进制文件。
  • 运行数据去重
    • 合并爬取文件:将单个爬取文件合并为一个文件。
    • 去重单个爬取:对单个爬取进行去重。
    • 去重所有爬取:对所有爬取进行去重。
    • 过滤短文档:去除长度小于 100 个字符的文档。

模型基准测试与微调

  • 基准测试:对原始模型进行基准测试。
  • 微调模型:使用爬取的数据对模型进行微调。

问题与联系

如有问题或疑问,可以通过电子邮件联系作者或在 GitHub 上提交问题。

引用

如需引用该数据集,请使用以下 BibTeX 格式: bibtex @article{tessema2024unifiedcrawl, author = {Bethel Melesse Tessema and Akhil Kedia and Tae-Sun Chung}, title = {UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages}, journal = {CoRR}, volume = {abs/2411.14343}, year = {2024}, url = {https://doi.org/10.48550/arXiv.2411.14343}, doi = {10.48550/ARXIV.2411.14343}, eprinttype = {arXiv}, eprint = {2411.14343} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
UnifiedCrawl数据集的构建始于从Common Crawl中提取单语种数据。首先,通过设定环境变量和执行特定脚本,筛选出所需语言的索引文件。随后,利用Python脚本从筛选后的索引中下载并提取文本数据。为确保数据质量,数据集经过多轮去重处理,包括去除重复URL和文本内容的精确子串匹配。这一过程通过安装Rust并构建专用二进制文件来实现,确保高效处理大规模数据。最终,通过合并和进一步去重,生成适用于低资源语言的统一数据集。
特点
UnifiedCrawl数据集的核心特点在于其针对低资源语言的优化设计。通过从Common Crawl中精炼出高质量的单语种数据,该数据集显著降低了语言模型在低资源语言上的适应成本。其去重机制确保了数据的唯一性和有效性,减少了冗余信息。此外,数据集的构建过程高度自动化,支持多种语言的处理,为研究者和开发者提供了便捷的数据资源。
使用方法
使用UnifiedCrawl数据集,首先需配置环境,包括安装conda、创建Python环境并安装必要的依赖项。随后,通过执行脚本从Common Crawl下载并筛选数据。数据处理阶段涉及去重和合并操作,可通过运行特定Python脚本和Rust二进制文件完成。最后,用户可根据需求对原始模型进行基准测试或微调,以适应特定语言的任务需求。详细的步骤和代码示例在README文件中均有提供,确保用户能够顺利进行数据集的使用和模型训练。
背景与挑战
背景概述
UnifiedCrawl数据集由Bethel Melesse Tessema、Akhil Kedia和Tae-Sun Chung等研究人员于2024年创建,旨在解决低资源语言在大型语言模型(LLMs)适应中的高成本问题。该数据集通过聚合Common Crawl中的数据,构建了低资源语言的最大单语数据集,为语言模型的微调和基准测试提供了丰富的资源。其核心研究问题是如何在资源有限的情况下,高效地生成和利用大规模单语数据集,以提升低资源语言的模型性能。这一研究对自然语言处理领域具有重要意义,特别是在推动多语言模型的普及和应用方面。
当前挑战
UnifiedCrawl数据集在构建过程中面临多重挑战。首先,从Common Crawl中筛选和提取特定语言的数据需要高效的算法和强大的计算资源,以处理海量的网络数据。其次,数据的去重和质量控制是确保数据集有效性的关键,这涉及到复杂的文本匹配和过滤技术。此外,如何在大规模数据集上进行有效的模型微调和基准测试,以验证数据集的实际应用效果,也是一项重要的挑战。这些挑战不仅涉及技术层面的优化,还包括资源管理和跨语言适应性的考量。
常用场景
经典使用场景
UnifiedCrawl数据集在低资源语言的自然语言处理(NLP)领域中具有经典应用。该数据集通过从Common Crawl中聚合数据,为低资源语言提供了大规模的单语数据集。研究者可以利用这些数据进行语言模型的微调,特别是在资源匮乏的语言环境中,如阿姆哈拉语。通过数据的去重和过滤,UnifiedCrawl能够有效提升模型在低资源语言上的性能,为跨语言模型适应性研究提供了宝贵的资源。
实际应用
在实际应用中,UnifiedCrawl数据集被广泛用于低资源语言的机器翻译、文本分类和语言生成等任务。例如,在阿姆哈拉语的机器翻译系统中,使用UnifiedCrawl数据集进行模型微调,显著提高了翻译质量。此外,该数据集还被用于构建低资源语言的智能助手和聊天机器人,提升了这些系统在特定语言环境中的用户体验和交互效果。
衍生相关工作
基于UnifiedCrawl数据集,研究者们开展了一系列相关工作。例如,有研究利用该数据集进行跨语言预训练模型的适应性研究,提出了新的微调策略,以提升模型在低资源语言上的泛化能力。此外,还有工作探讨了如何更有效地利用UnifiedCrawl数据集进行多语言模型的联合训练,以实现更好的跨语言迁移效果。这些研究不仅丰富了低资源语言的NLP方法,也为未来的研究提供了新的方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。

www.omim.org 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

中文高质量大模型多轮对话SFT数据集

该数据集来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。该数据集包含97184轮中文自然对话句子,涉及【家庭生活、教育医疗、军事战争、科学技术、气候环境、人文科学、商业经济、数码产品、体育竞技、休闲娱乐、衣食住行、艺术美术、政治法律、职业发展、宗教信仰】15个主题。领域覆盖多样,也可以单独抽取相关领域的数据进行领域SFT。本次开源的部分数据,由来自中国的644名不同ID的采集人独家贡献,北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。

OpenDataLab 收录