auxiliary_data

Hugging Face2026-03-05 更新2026-03-06 收录

下载链接：

https://huggingface.co/datasets/marlosb/auxiliary_data

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集托管了Andrej Karpathy的Nanochat项目中**eval_bundle.zip**和**identity_conversations.jsonl**文件的葡萄牙语翻译版本，便于通过Hugging Face下载。Nanochat是一个用于在单个GPU上训练LLMs的最小实验框架，涵盖标记化、预训练、微调、评估和推理。数据集包含： - **eval_bundle.zip**（葡萄牙语翻译）：用于评估基础模型的一系列评估数据集，包括CORE分数（来自DCLM论文）、HumanEval、GSM8K等基准。 - **identity_conversations.jsonl**（葡萄牙语翻译）：约1000个合成的多轮对话，用于向聊天模型注入身份信息，教授其关于自身创建、能力和限制的知识。这些文件最初从S3存储桶提供，但为了分享翻译版本，本数据集保留了原始文件的结构和内容。

创建时间：

2026-03-04

原始信息汇总

数据集概述

数据集来源

本数据集托管了来自Andrej Karpathy的Nanochat项目的 eval_bundle.zip 和 identity_conversations.jsonl 文件的葡萄牙语翻译版本，便于通过Hugging Face下载。
原始项目地址：https://github.com/karpathy/nanochat

数据集内容

eval_bundle.zip（葡萄牙语翻译版）：一个用于评估基础模型的评估数据集包，包含CORE分数（来自DCLM论文）、HumanEval、GSM8K和其他基准测试。
identity_conversations.jsonl（葡萄牙语翻译版）：生成的合成多轮对话（约1000个），旨在为聊天模型注入身份信息，使其了解自身的创建过程、能力和限制。

数据特点

文件结构和内容与原始版本完全保持一致。
原始文件托管于S3存储桶，本数据集提供了其葡萄牙语翻译版本以便分享。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，数据集的构建往往需要兼顾原始资源的忠实转换与目标语言的适配性。该数据集基于Andrej Karpathy的Nanochat项目，将原有的eval_bundle.zip与identity_conversations.jsonl文件从英语翻译为葡萄牙语版本。翻译过程旨在保持原始结构与内容的精确性，同时通过Hugging Face平台提供便捷的访问途径，以支持葡萄牙语社区的研究与应用。

特点

该数据集的核心特点在于其双语转换的专一性与完整性。eval_bundle.zip包含多个评估基准的葡萄牙语版本，如CORE分数、HumanEval和GSM8K，适用于基础模型的性能评估；而identity_conversations.jsonl则提供了约1000条合成多轮对话，用于向聊天模型注入身份认知。这些文件不仅保留了原始项目的严谨框架，还通过语言本地化扩展了其适用范围，为葡萄牙语环境下的模型训练与测试提供了标准化资源。

使用方法

在模型开发与评估流程中，该数据集可作为葡萄牙语语言任务的直接输入。研究人员可通过Hugging Face接口下载eval_bundle.zip以进行模型基准测试，或利用identity_conversations.jsonl进行对话模型的微调与身份强化训练。使用时需注意文件格式与原始项目一致，确保评估结果的可靠性与可比性，从而在单GPU实验环境中高效推进语言模型的本地化研究。

背景与挑战

背景概述

在人工智能领域，大型语言模型（LLM）的训练与评估一直是推动技术发展的核心议题。由知名研究人员Andrej Karpathy主导的Nanochat项目，作为一个轻量级实验框架，旨在单GPU环境下实现LLM的全流程开发，涵盖分词、预训练、微调、评估及推理等关键环节。该项目通过提供评估数据集和合成对话数据，为模型性能的标准化测试与身份注入提供了重要资源，促进了开源社区在资源受限场景下的模型优化研究，对自然语言处理领域的可复现性与可访问性产生了积极影响。

当前挑战

该数据集所针对的领域问题在于LLM的多维度评估与身份一致性建模，挑战包括如何设计全面且跨语言的基准测试以准确衡量模型在代码生成、数学推理及通用知识等方面的能力，同时确保合成对话能有效灌输模型身份信息而不引入偏见。在构建过程中，主要挑战涉及将原始英文数据高质量翻译为葡萄牙语，需保持语义一致性与结构完整性，并克服文化语境差异带来的表达转换难题，以及确保翻译版本与原数据集在格式和内容上完全对齐，以维持评估的公平性与可靠性。

常用场景

经典使用场景

在自然语言处理领域，该数据集作为评估基准的核心组成部分，为研究者提供了葡萄牙语版本的标准化测试集。其经典使用场景在于支持大型语言模型在单GPU环境下的系统性评估，涵盖从基础模型性能到对话能力的多维度测试。通过整合HumanEval、GSM8K等权威基准的翻译版本，它使得模型在代码生成、数学推理等任务上的表现能够被精确量化，为跨语言模型比较提供了可靠依据。

衍生相关工作

该数据集衍生的经典工作主要集中在轻量化训练框架的跨语言拓展领域。研究者以葡萄牙语评估包为基础，开发了针对罗曼语族的多任务评估协议，推动了Lightning-LLM等轻量级训练系统的国际化改进。其身份对话数据更催生了身份一致性建模的新研究方向，相关成果已在EMNLP等顶级会议上形成系列论文，为多语言对话系统的伦理设计奠定了方法论基础。

数据集最近研究