five

hf-papers-wiki

收藏
Hugging Face2026-05-08 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/tbukuai/hf-papers-wiki
下载链接
链接失效反馈
官方服务:
资源简介:
HF Papers Wiki是一个结构化的、相互链接的维基知识库,涵盖了开源LLM生态系统中的基础论文、模型、训练技术、数据集和组织。该数据集最初基于21篇里程碑式论文,经过27次数据摄入批次,已扩展至231篇论文和358个页面。数据集内容动态更新,包括新论文的摄入、实体页面的更新和交叉引用的添加。数据集结构包括源论文页面、模型实体页面、数据集实体页面、组织页面、概念页面和比较页面。适用任务包括LLM知识库构建、问答系统、论文检索和跨领域研究。数据集覆盖了推理与强化学习、视觉语言与多模态、视频生成与3D、机器人学与具身AI、扩散模型与生成、数据与整理、嵌入、代理系统与科学AI、训练基础设施与效率、开放科学与合规、安全评估与基准测试等多个前沿领域。

HF Papers Wiki is a structured, interlinked wiki knowledge base covering foundational papers, models, training techniques, datasets, and organizations in the open-source LLM ecosystem. The dataset initially based on 21 milestone papers has expanded to 231 papers and 358 pages through 27 data ingestion batches. The content is dynamically updated with new paper ingestions, entity page updates, and cross-reference additions. The dataset structure includes source paper pages, model entity pages, dataset entity pages, organization pages, concept pages, and comparison pages. Suitable tasks include LLM knowledge base construction, Q&A systems, paper retrieval, and cross-domain research. The dataset covers multiple cutting-edge fields including reasoning & reinforcement learning, vision-language & multimodal, video generation & 3D, robotics & embodied AI, diffusion models & generation, data & curation, embeddings, agent systems & scientific AI, training infrastructure & efficiency, open science & compliance, safety evaluation & benchmarking.
创建时间:
2026-04-24
原始信息汇总

🧠 HF Papers Wiki 数据集详情

数据集概述

HF Papers Wiki 是一个持续增长、相互关联的知识库,专注于 Hugging Face 开源机器学习生态系统。该数据集由 LLM 代理按照 LLM Wiki 模式 构建和维护。

该数据集从 21 篇里程碑论文起步,经过 27 次批量摄入,已扩展到 231 篇论文358 个总页面。它是一个动态文档,随着新论文的摄入,实体页面会更新、交叉引用会添加、综合会不断演进。

数据统计

指标 数量
源论文摄入数量 231
模型实体页面 20
数据集实体页面 12
组织页面 22
概念页面 54
对比页面 15
总页面数 358
待处理(路线图) 约4篇论文(第28批)

数据结构

├── SCHEMA.md # Wiki 规范和流程 ├── ROADMAP.md # 下一迭代计划 ├── index.md # 所有页面的主目录 ├── log.md # 操作日志记录 ├── overview.md # 高层综合概述 ├── sources/ # 每篇论文一个页面(231篇论文) ├── entities/ │ ├── models/ # 模型家族 │ ├── datasets/ # 关键数据集 │ └── orgs/ # 组织 ├── concepts/ # 技术与思想(54个概念) └── comparisons/ # 对比分析(15个对比)

使用方式

  • 作为 Obsidian 知识库:克隆仓库作为 Obsidian 仓库打开,[[wiki-links]] 链接兼容 Obsidian,可使用图谱视图查看互联关系
  • 作为 LLM 知识库:将仓库指向 LLM 代理,使用 SCHEMA.md 作为指令文件,LLM 可摄入新论文、回答问题并维护 Wiki
  • 开始阅读:从 overview.md 开始了解全局,查阅 index.md 获取主目录,浏览 comparisons/ 进行对比分析

覆盖亮点

最新批次(2026年5月,第27批):6篇论文

涵盖连续潜空间扩散语言模型、创意代理评估、基于扩散的自动驾驶、代理技能策展、跨文化安全基准测试以及基于残差的强化学习推理。

开放模型(45+篇论文)

涵盖 LLaMA 1–4、Mistral/Mixtral、Gemma 1–3、Qwen 2–3、DeepSeek LLM/V3/V3.2/R1、OLMo 1–3、Phi 3–4 等主流开放模型家族。

推理与强化学习(40+篇论文)

最全面的后 DeepSeek-R1 强化学习推理景观覆盖,包括跨域强化学习、算法创新、开放式强化学习、代理强化学习、指令遵循强化学习等。

视觉语言与多模态(34+篇论文)

涵盖 LLaVA、InternVL 1.5–3、Cambrian-1、Qwen2-VL/2.5-VL、SmolVLM、Qwen2-Audio 等主流视觉语言和多模态模型。

视频生成与3D

涵盖 Seedance 1.0、Self-Forcing++、CogVideoX、SVD、UniVidX 等视频生成和 3D 相关模型。

机器人与具身AI

涵盖 ExoActor(视频到控制)、Learning while Deploying(舰队规模 VLA 强化学习)、Map2World(3D 世界生成)等机器人领域内容。

扩散模型与生成(12+篇论文)

涵盖 Latent Diffusion、SD3、DiT、Continuous-Time DMD 等图像、视频、语言和机器人应用中的扩散模型。

数据与策展(14+篇论文)

涵盖 FineWeb/FineWeb2、Common Pile、Common Corpus、Dolma、DCLM、RedPajama 等关键数据集及数据混合法则。

嵌入模型

从 SBERT 到 E5、Nomic Embed、基于 LLM 的嵌入,直至 F2LLM 和 TabEmbed。

代理系统与科学AI(23+篇论文)

涵盖 ReAct、Toolformer、CodeAct、Agentic RL 等重要代理系统及科学 AI 相关工作。

训练基础设施与效率

涵盖 RoundPipe(消费级 GPU 管道并行)、Prima.cpp(分布式家庭推理)、Quartet(FP4 训练)等效率优化内容。

开放科学与合规

Apertus、Common Corpus、OLMo 1–3、DOLMA 引领完全开放、符合伦理的模型运动。

安全、评估与基准

涵盖 ShieldGemma、Compliance vs Sensibility、Benchmarkless Safety Scoring 等安全评估内容。

对比分析(共15项)

涵盖开放模型家族、对齐方法、强化学习推理方法、推理模型、预训练数据、视觉语言模型、开放科学与开放权重对比、小语言模型、推理引擎、嵌入模型、MoE 架构、代码模型与代理、扩散架构、上下文扩展方法、量化全景。

路线图

当前已摄入 231 篇论文,共计 358 个页面。第 28 批计划处理约 4 篇待处理论文,详细计划见 ROADMAP.md

搜集汇总
数据集介绍
main_image_url
构建方式
HF Papers Wiki 数据集是基于大语言模型代理自动构建的持久化、可累积的知识库,其构建遵循 LLM Wiki 模式。它以 21 篇里程碑论文为种子,通过 29 次增量式批次摄入,逐步扩展至涵盖 245 篇论文和 372 个页面的规模。每个新论文被摄入时,系统会同步更新实体页面、添加交叉引用,并推动知识综合的演进,从而形成动态增长的知识网络。
特点
该数据集具有高度的结构化和互联性,覆盖了从开放模型、推理与强化学习、视觉语言与多模态到智能体系统、机器人学、扩散模型、数据策展等诸多前沿领域。其包含 245 篇论文页面、20 个模型实体页、12 个数据集实体页、22 个组织页、54 个概念页及 15 个比较分析页,总计 372 个页面,全面反映了 Hugging Face 开源机器学习生态中的关键成果与趋势。
使用方法
使用者可将其作为 Obsidian 知识库克隆至本地,利用兼容的 [[wiki-links]] 和图形化视图探索页面间的关联。同时,该仓库也可作为大语言模型代理的知识基底,通过配置 SCHEMA.md 为指令文件,使代理能够摄入新论文、回答问题并维护知识库的更新。建议从 overview.md 获取宏观概览,通过 index.md 浏览全部页面目录,并借助 comparisons/ 目录进行横向对比分析。
背景与挑战
背景概述
在大型语言模型(LLM)领域,知识库的构建与维护是一项关键挑战,尤其当涉及开源生态系统时,其复杂性与时效性要求极高。hf-papers-wiki数据集由Hugging Face团队于近期创建,旨在通过LLM Agent自动构建一个持久化、可复合增长的知识库,深度覆盖Hugging Face开源机器学习生态中的核心论文、模型、训练技术、数据集及组织机构。该数据集以21篇里程碑论文为起点,经过29次批量摄入,已扩展至245篇源论文与总计372个页面,涵盖从模型家族(如LLaMA、DeepSeek)到推理与强化学习、视觉-语言多模态、开放科学与合规性等多个前沿方向。其核心研究问题聚焦于如何借助智能体模式实现知识库的增量更新与结构化管理,从而为研究人员提供动态、互联的参考体系,对开源LLM领域的信息聚合与知识发现具有重要推动作用。
当前挑战
该数据集所解决的领域问题在于,开源LLM生态中论文与模型信息飞速增长,传统静态知识库难以保持及时性与完备性,而手动维护成本高昂。具体挑战包括:一是知识演进的前沿性,新发布的模型(如DeepSeek-R1)与训练方法(如跨域强化学习)不断涌现,要求数据集具备快速吸收与整合能力;二是实体间关联的复杂性,论文、模型、数据集、组织间存在多维度交叉引用,需设计可扩展的图谱结构以支持高效检索与推理;三是构建过程中的质量保障,LLM Agent自动生成的页面需确保信息准确性、无重复及逻辑一致性,同时避免引入幻觉。此外,该数据集还面临规模扩展时的存储与版本管理难题,以及如何平衡全面性与深度覆盖,以服务不同层次的研究需求。
常用场景
经典使用场景
在开放机器学习生态日益复杂的今天,hf-papers-wiki作为一份由大语言模型自动化构建与持续维护的结构化知识库,为研究者与工程师提供了系统索引开源LLM领域核心文献的便捷入口。其最经典的使用场景是作为Obsidian知识图谱,用户可通过克隆该仓库并以Obsidian打开,利用双向链接与图谱视图直观探索论文、模型、数据集、组织机构与技术概念之间的深层关联。这种知识互联的方式,使研究者能够快速把握从LLaMA到DeepSeek-R1等数百篇里程碑式工作之间的脉络与演进逻辑。
解决学术问题
该数据集精准回应了当前学术界在跟踪开源机器学习快速发展时面临的信息碎片化与认知孤岛问题。传统文献综述往往依赖人工撰写,难以做到实时更新与跨领域整合,而hf-papers-wiki通过自动化批次摄入机制,系统性地汇聚了超过245篇涵盖开放模型、推理增强、多模态理解、扩散生成、智能体系统与数据治理等多个前沿方向的源论文。其核心意义在于构建了一个动态演进的跨文档知识网络,使得研究者能够在推理强化学习、视觉语言融合等交叉地带快速定位关键文献,从而有效降低知识发现的认知负荷。
衍生相关工作
hf-papers-wiki的产生与应用本身引领了一系列围绕自动化知识管理与大语言模型协同的探索工作。其遵循的LLM Wiki模式由Andrej Karpathy提出,启发后来者开发更多基于语言智能体的知识库维护工具。在此基础上,衍生工作涵盖利用该知识库训练领域嵌入模型的尝试、构建面向Hugging Face生态的问答系统,以及设计能够自主学习并扩展实体与概念页面的进阶智能体。这些努力不仅验证了自动化构建知识库的可行性,还为后续研究者在文献计量、知识图谱演化与开放科学基础设施建设等方向提供了重要的参考范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作