ddudek/nanochat-climbmix-annotated

Name: ddudek/nanochat-climbmix-annotated
Creator: ddudek
Published: 2026-04-11 11:36:45
License: 暂无描述

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/ddudek/nanochat-climbmix-annotated

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit task_categories: - text-classification - feature-extraction language: - en tags: - web-data - embeddings - topic-classification - format-classification - climbmix - pretraining-data pretty_name: ClimbMix Topics & Formats size_categories: - 10M<n<100M configs: - config_name: default data_files: - split: train path: "shard_*.parquet" dataset_info: features: - name: text dtype: string - name: embedding sequence: float16 length: 768 - name: topic_id dtype: int32 - name: topic_str dtype: string - name: format_id dtype: int32 - name: format_str dtype: string splits: - name: train num_examples: 16922624 --- # Summary A 200 shards subset of `karpathy/climbmix-400b-shuffle` dataset (Nvidia ClimbMix) of web documents with added pre-computed embeddings and classified topics and formats. Parquet files keep the nanochat compatible format (row groups, 'text' column), so this can be used as a drop-in replacement of the Karpathy's mix in the nanochat project, where the additional metadata can be used in the code. ## Dataset Structure - **Size:** 200 parquet shards (~86K rows each, ~16.9M documents total) - **Columns:** - `text` — Raw document text - `embedding` — Pre-computed 768-dim dense embedding vector (float16) - `topic_id` — Numeric topic label (0–23) - `topic_str` — Human-readable topic (e.g., "Health", "Software Dev.", "Food & Dining") - `format_id` — Numeric format label (0–23) - `format_str` — Human-readable format (e.g., "News Article", "Academic Writing", "Product Page") ## Topics | ID | Label | |----|-------| | 0 | Adult | | 1 | Art & Design | | 2 | Software Dev. | | 3 | Crime & Law | | 4 | Education & Jobs | | 5 | Hardware | | 6 | Entertainment | | 7 | Social Life | | 8 | Fashion & Beauty | | 9 | Finance & Business | | 10 | Food & Dining | | 11 | Games | | 12 | Health | | 13 | History | | 14 | Home & Hobbies | | 15 | Industrial | | 16 | Literature | | 17 | Politics | | 18 | Religion | | 19 | Science & Tech. | | 20 | Software | | 21 | Sports & Fitness | | 22 | Transportation | | 23 | Travel | ## Formats | ID | Label | |----|-------| | 0 | Academic Writing | | 1 | Content Listing | | 2 | Creative Writing | | 3 | Customer Support | | 4 | Comment Section | | 5 | FAQ | | 6 | Truncated | | 7 | Knowledge Article | | 8 | Legal Notices | | 9 | Listicle | | 10 | News Article | | 11 | Nonfiction Writing | | 12 | About (Org.) | | 13 | News (Org.) | | 14 | About (Pers.) | | 15 | Personal Blog | | 16 | Product Page | | 17 | Q&A Forum | | 18 | Spam / Ads | | 19 | Structured Data | | 20 | Documentation | | 21 | Audio Transcript | | 22 | Tutorial | | 23 | User Review | ## Generation Details - **Embeddings:** Generated using `jinaai/jina-embeddings-v5-text-nano` with `task="clustering"` (768 dimensions, float16) - **Topic Classification:** `WebOrganizer/TopicClassifier-NoURL` - **Format Classification:** `WebOrganizer/FormatClassifier-NoURL` ## License MIT

提供机构：

ddudek

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，大规模高质量数据集的构建是推动模型性能提升的关键。nanochat-climbmix-annotated数据集源于对Nvidia ClimbMix原始语料库的精炼与增强，从karpathy/climbmix-400b-shuffle中选取了200个分片，共计约1690万份文档。每份文档不仅保留了原始文本内容，还通过预训练嵌入模型jinaai/jina-embeddings-v5-text-nano生成了768维的密集向量表示，并借助WebOrganizer系列分类器自动标注了主题与格式类别，形成了结构化的多维元数据体系。

特点

该数据集的核心特征在于其丰富的标注层次与即用性设计。文档覆盖了从艺术设计到科学技术等24个主题类别，以及从学术写作到用户评论等24种文本格式，为多任务学习提供了细粒度的语义划分。预计算的嵌入向量以float16格式存储，兼顾了存储效率与计算精度，可直接用于相似性检索或表示学习。数据集采用与nanochat项目兼容的Parquet格式组织，确保了在现有流水线中的无缝集成，同时通过主题与格式标签为数据筛选与平衡采样提供了便利。

使用方法

在应用层面，该数据集支持多种自然语言处理任务的开发与评估。研究人员可直接将其作为预训练数据源，利用文本与嵌入向量进行语言模型微调或对比学习。主题与格式分类标签可用于训练或验证细粒度的文本分类模型，或作为多任务学习的辅助目标。工程实践中，开发者可依据主题或格式元数据对数据进行过滤与采样，构建领域特定的训练集或评估基准。嵌入向量可直接用于构建语义检索系统或作为下游模型的输入特征，加速原型开发与实验迭代。

背景与挑战

背景概述

在自然语言处理领域，大规模、高质量且经过精细标注的文本数据集对于推动模型预训练与下游任务性能至关重要。nanochat-climbmix-annotated数据集由社区研究者基于Nvidia ClimbMix项目构建，其核心源自karpathy/climbmix-400b-shuffle，旨在为语言模型提供丰富多样的网络文档资源。该数据集不仅保留了原始文本，还通过先进的嵌入技术与分类模型，为每份文档附加了预计算的768维稠密向量、主题标签及格式类别，涵盖了从健康、科技到法律、娱乐等24个主题领域，以及学术写作、新闻文章、产品页面等24种文本格式。这一设计使得数据集能够直接兼容nanochat项目框架，为研究者探索文档表征、主题建模及多任务学习提供了标准化基础。

当前挑战

该数据集致力于应对网络文本数据的异构性与质量管控难题，其核心挑战在于如何从海量、噪声显著的网页内容中提取结构化语义信息，并实现精准的主题与格式分类。构建过程中，研究者需克服原始数据清洗、去重及格式统一等预处理障碍，同时确保嵌入向量的计算效率与表征一致性。此外，分类标签的可靠性依赖于上游分类器性能，可能存在领域覆盖不全或边界模糊的局限，这要求后续使用中需对标注质量进行验证与校准。

常用场景

经典使用场景

在自然语言处理领域，大规模文本数据集的构建与标注是推动模型性能提升的关键。nanochat-climbmix-annotated数据集作为ClimbMix子集的增强版本，其经典使用场景聚焦于文本分类与特征提取任务。该数据集不仅提供了原始文档文本，还附带了预计算的嵌入向量以及精细的主题和格式标签，使得研究者能够直接利用这些结构化信息进行监督学习或半监督学习实验。例如，在主题分类任务中，模型可以基于嵌入向量和标签进行训练，以识别文档所属的24个主题类别，如“健康”或“软件开发”，从而优化分类器的准确性与泛化能力。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在文本分类模型的优化与嵌入向量的应用扩展。研究者基于其标注信息开发了新型神经网络架构，如结合主题和格式标签的多任务学习框架，以提升分类性能。同时，预计算嵌入被广泛用于对比学习或迁移学习研究，探索如何利用现有表示增强下游任务效果。在开源社区中，该数据集作为nanochat项目的兼容替代，促进了轻量级聊天模型的数据预处理流程改进，并启发了更多关于网络文档语义增强的数据集构建工作。

数据集最近研究