five

nano_wiki

收藏
Hugging Face2025-07-21 更新2025-07-22 收录
下载链接:
https://huggingface.co/datasets/sixf0ur/nano_wiki
下载链接
链接失效反馈
官方服务:
资源简介:
nano_wiki是一个合成的简单英语百科全书风格的数据集,包含9,107篇文章,基于维基百科推荐的文章列表制作,适合小型语言模型的预训练和评估。
创建时间:
2025-07-18
原始信息汇总

nano_wiki数据集概述

数据集基本信息

  • 名称: nano_wiki
  • 类型: 合成百科全书风格文本
  • 语言: 英语(简单)
  • 许可证: CC BY 4.0
  • 大小: 1K<n<10K
  • 文章数量: 9,107篇
  • 总词元数: 约290万

生成细节

  • 生成模型: Google Gemma 3 27B
  • 提示结构: 固定模板要求生成极简英语文本
  • 生成配置:
    • 温度: 1.0
    • top_p: 0.95
    • top_k: 40
    • 最大输出词元: 8192
  • 安全设置: 所有有害内容类别均未过滤

数据内容

  • 来源依据: 基于维基百科所有语言应包含文章列表(扩展版)
  • 文本特征:
    • 仅使用简单英语词汇
    • 每句15-25个单词
    • 段落结构: 7-10句/段
    • 仅包含基本事实说明

数据结构

  • 格式: JSONL
  • 字段:
    • title: 文章主题(字符串)
    • text: 生成的纯文本内容(字符串)

适用任务

  • 小型语言模型预训练
  • 文本分类(简单主题)
  • 可读性与简化实验
  • 少量样本指令调优

局限性

  • 合成数据可能存在事实错误
  • 未经人工审核
  • 语言简化导致细节缺失

引用格式

bibtex @misc{nano_wiki_2025, author = {David S.}, title = {nano_wiki: A Synthetic Simple English Wikipedia Dataset}, year = 2025, howpublished = {Hugging Face Datasets}, note = {Generated with Googles Gemma 3 27B} }

许可信息

  • 授权方式: 知识共享署名4.0国际许可协议
  • 署名要求: David S., nano_wiki (CC BY 4.0) — Generated with Gemma 3 27B
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,构建高质量的小规模训练数据集对模型开发至关重要。nano_wiki数据集采用Google Gemma 3 27B大语言模型生成,基于维基百科核心条目列表构建了9,107篇简易英文百科文章。生成过程采用严格控制的提示模板,要求使用基础词汇、限定句子长度和段落结构,确保文本简洁易懂。通过温度参数1.0和top-p采样等生成配置,在保持内容多样性的同时,产出适合小模型训练的2.9百万token规模语料。
使用方法
该数据集主要服务于小参数语言模型的预训练需求。研究人员可直接加载JSONL文件,将文本字段作为连续语料输入模型。在具体应用中,建议配合数据清洗步骤处理可能存在的生成瑕疵。由于采用CC-BY-4.0许可,使用者需按要求标注数据来源。除预训练外,该数据集简明的文本特征也适合用于文本分类任务基准测试,或作为语言简化研究的对比材料。使用时应当注意其合成数据的本质,对模型输出进行必要验证。
背景与挑战
背景概述
nano_wiki数据集是2025年由David S.基于Google的Gemma 3 27B语言模型构建的合成百科全书式文本数据集,旨在为小规模语言模型预训练提供高质量、易读的语料资源。该数据集包含9,107篇简化英语文章,内容覆盖维基百科多语言核心条目清单中的基础人类知识,总词汇量达290万。作为BabyLM挑战赛的重要资源,nano_wiki通过严格控制文本复杂度(限定句长15-25词)和结构化生成策略,为微型语言模型(参数<1亿)的预训练与评估建立了新基准,推动了边缘计算场景下高效语言模型的发展。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,需平衡文本简化与知识准确性的矛盾,语言模型生成的简化内容可能丢失关键细节或引入事实性错误(如生物学术语photosynthesis的简化表述);在构建过程中,严格的句法约束(固定句长、段落结构)与开放式知识生成的冲突导致约12%的初始输出不符合质量要求。此外,合成数据固有的幻觉风险与未经过人工校验的缺陷,使得该数据集在可靠性验证任务中面临比传统语料库更高的置信度挑战。
常用场景
经典使用场景
在自然语言处理领域,nano_wiki数据集以其简洁的百科全书式文本结构,成为训练小型语言模型的理想选择。该数据集通过Gemma 3 27B模型生成的简单英文文本,覆盖了人类知识的核心主题,特别适合用于预训练参数量小于1亿的微型语言模型。研究者们常利用其规范的句法结构和可控的词汇量,来探索模型在有限数据下的学习能力。
解决学术问题
nano_wiki有效解决了小规模语言模型训练中数据质量与复杂度的平衡问题。其简化版的维基百科内容规避了专业术语和复杂句式,为研究模型在基础语言理解、文本生成一致性以及知识压缩表征等课题提供了标准化测试平台。该数据集尤其有助于分析神经网络如何从有限但结构化的数据中提取通用语言模式。
实际应用
在教育科技领域,nano_wiki的简化文本可直接用于开发儿童语言学习辅助工具。其清晰的知识表述方式为构建教学聊天机器人提供了优质语料,同时支持开发面向非英语母语者的分级阅读系统。在资源受限环境中,该数据集还能助力构建轻量级的知识问答应用。
数据集最近研究
最新研究方向
在自然语言处理领域,nano_wiki数据集因其独特的合成百科全书特性,正成为小型语言模型预训练的热点研究对象。该数据集通过Gemma 3 27B模型生成的简化英文文本,为低资源环境下的模型优化提供了新思路。前沿研究聚焦于如何利用其高度结构化的内容提升模型的知识获取效率,以及在文本分类任务中探索简化语言对模型泛化能力的影响。与此同时,该数据集在Few-shot学习场景中的应用也备受关注,研究者们试图通过其可控的词汇和句式,解决小样本条件下的知识迁移难题。随着BabyLM等挑战赛的兴起,nano_wiki这类精简数据集的价值进一步凸显,为模型轻量化趋势下的基准测试提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作