dolma3_mix-common_crawl-art_and_design-160k

Name: dolma3_mix-common_crawl-art_and_design-160k
Creator: MLX Community
Published: 2025-12-23 05:04:50
License: 暂无描述

Hugging Face2025-12-23 更新2025-12-24 收录

下载链接：

https://huggingface.co/datasets/mlx-community/dolma3_mix-common_crawl-art_and_design-160k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是AllenAI的common_crawl-art_and_design预训练数据集的160K子集，专注于艺术和设计领域的文本生成任务。数据集分为训练集（159436条）和验证集（160条），适用于自然语言处理中的文本生成任务。数据集语言为英语，规模在10万到100万条之间。

提供机构：

MLX Community

创建时间：

2025-12-23

原始信息汇总

数据集概述

基本信息

数据集名称: dolma3_mix-common_crawl-art_and_design-160k
发布者: mlx-community
许可证: odc-by
任务类别: 文本生成
主要语言: 英语
标签: 设计、艺术
规模分类: 100K<n<1M

数据来源与构成

本数据集是AllenAI的common_crawl-art_and_design预训练数据集的160K子集。
该子集被划分为训练集和验证集。

数据规模

训练集大小: 159,436个样本
验证集大小: 160个样本

使用示例

本数据集可直接用于MLX-LM-LoRA和MLX-LM框架的训练。示例如下：

在MLX-LM-LoRA中使用: shell python -m mlx_lm.lora --train --model Qwen/Qwen3-0.6B-Base --data mlx-community/dolma3_mix-common_crawl-art_and_design-160k --num-layers 4 --iters 1000 --batch-size 1 --steps-per-report 50 --max-seq-length 1028 --adapter-path path/to/adapter

在MLX-LM中使用: shell python -m mlx_lm.lora --train --model Qwen/Qwen3-0.6B-Base --data mlx-community/dolma3_mix-common_crawl-art_and_design-160k --num-layers 4 --iters 1000 --batch-size 1 --steps-per-report 50 --max-seq-length 1028 --adapter-path path/to/adapter

搜集汇总

数据集介绍

构建方式

在艺术与设计领域的文本数据挖掘中，该数据集源自AllenAI的Dolma3混合预训练语料库，专门聚焦于艺术与设计主题。通过从庞大的Common Crawl网络爬取数据中精心筛选，构建者提取了约160K条相关文本，并划分为训练集与验证集，其中训练样本达159,436条，验证样本为160条。这一构建过程体现了对领域特定知识的重视，确保了数据在艺术设计语境下的代表性与质量。

使用方法

在机器学习应用中，该数据集可直接用于模型训练，特别是在基于MLX-LM框架的低秩适应（LoRA）场景中。用户可以通过命令行接口指定模型如Qwen/Qwen3-0.6B-Base，并配置训练参数如迭代次数和批次大小，以微调模型适应艺术设计领域的语言模式。数据集以标准格式提供，便于集成到现有工作流中，支持研究者探索创意文本生成或领域自适应任务。

背景与挑战

背景概述

在人工智能与创意计算交叉领域，艺术与设计文本数据的稀缺性长期制约着生成模型在专业语境下的表现。dolma3_mix-common_crawl-art_and_design-160k数据集由AllenAI研究机构构建，作为其大规模预训练语料库dolma3_mix-6T-1025的精选子集，专注于艺术与设计领域的英文文本。该数据集旨在为文本生成模型提供高质量、领域特定的训练素材，以应对创意产业中自动化内容创作的复杂需求，其诞生反映了学术界对专业化预训练数据日益增长的需求，推动了生成式人工智能在艺术设计领域的深入应用。

当前挑战

该数据集致力于解决艺术与设计领域文本生成任务中的领域适应挑战，即如何让通用语言模型理解并生成符合专业术语、风格与创意逻辑的文本。构建过程中的主要困难在于从海量网络爬取数据中精准筛选与艺术设计相关的高质量内容，需克服噪声过滤、主题一致性维护以及版权合规性审查等多重障碍。此外，确保数据子集在有限规模下仍能保持足够的多样性与代表性，以支持模型有效学习专业领域的细微差别，亦是构建团队面临的核心技术难题。

常用场景

解决学术问题

该数据集主要解决了艺术设计领域文本数据稀缺的学术挑战，为自然语言处理研究提供了高质量的领域语料。它支持模型学习艺术史、设计理论、创意过程等专业概念，促进了跨学科的知识融合。通过微调预训练模型，研究者能够探索领域自适应方法，改善模型在专业术语理解和上下文连贯性方面的表现，推动了艺术与人工智能交叉领域的基础研究进展。

实际应用

在实际应用中，该数据集可用于开发智能设计助手、创意内容生成工具以及艺术教育平台。例如，基于该数据集训练的模型能够辅助设计师进行概念阐述、生成设计说明文档，或为艺术学习者提供个性化的学习材料。这些应用不仅提升了创意产业的工作效率，还拓展了人工智能在文化创意领域的服务边界，具有显著的社会经济价值。

数据集最近研究