enoch-ai-research-corpus

Hugging Face2026-05-03 更新2026-05-04 收录

下载链接：

https://huggingface.co/datasets/aliasocracy/enoch-ai-research-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Enoch AI研究语料库是一个包含159个AI生成的研究成果的数据集，由Enoch代理研究系统生成。该数据集旨在研究代理研究工作流程、来源追踪、声明分类账、证据包装以及生成研究的可审计性。每个研究成果包含生成的文本（paper_markdown）、元数据（metadata）、证据包（evidence_bundle）、声明分类账（claim_ledger）、生成清单（paper_manifest）以及公共GitHub URL（github_url）等字段。数据集以换行符分隔的JSON格式提供。该数据集适用于研究自主或代理研究工作流程、评估声明/证据的可追溯性、测试成果审查流程等任务，但不适用于将生成的研究成果视为经过验证的科学成果或未经审查的下游出版物。

The Enoch AI Research Corpus is a dataset containing 159 AI-generated research outputs, produced by the Enoch agent research system. This dataset is designed to study agent research workflows, source tracking, claim ledgers, evidence packaging, and the auditability of generated research. Each research output includes generated text (paper_markdown), metadata, evidence bundle, claim ledger, paper manifest, and a public GitHub URL (github_url). The dataset is provided in newline-delimited JSON format. It is suitable for studying autonomous or agent research workflows, evaluating the traceability of claims/evidence, and testing output review processes, but is not intended for treating the generated research as validated scientific outputs or for unvetted downstream publications.

创建时间：

2026-04-29

原始信息汇总

Enoch AI Research Corpus 数据集概述

基本信息

数据集名称：Enoch AI Research Corpus
许可协议：MIT
语言：英语
数据集规模：100 < n < 1K（共159个研究产物）
任务类别：文本生成、问答、文本分类
标签：agentic-ai、research-automation、ai-generated、provenance、claim-ledger、evidence-bundles、local-ai、auditability

数据集描述

该数据集包含由 Enoch agentic 研究系统生成的159个 AI 研究产物。这些产物并非经过同行评审的科学声明，其目的在于研究 agentic 研究工作流程、来源追踪、声明分类账、证据打包、生成研究的可审计性以及审查流程。

数据内容

数据集中每条记录（data/artifacts.jsonl）代表一个生成的研究产物，包含以下字段（视情况而定）：

字段	描述
`slug`	来源语料库中的稳定产物文件夹标识
`public_id`	公开产物标识符（如有）
`title`	生成产物的标题
`paper_markdown`	完整的生成论文文本（Markdown格式）
`metadata`	导出的公开元数据
`evidence_bundle`	证据/来源捆绑包（如有）
`claim_ledger`	声明/局限性分类账（如有）
`paper_manifest`	生成清单/提供者元数据（如有）
`github_url`	GitHub中来源产物的链接

预期用途

研究自主或 agentic 研究工作流程
评估声明/证据的可追溯性
测试产物审查流程
基准测试生成研究的审计系统
比较来源追踪和证据打包设计
人工审计、评论和管理

非预期用途

将生成产物视为经过验证的科学成果
作为同行评审研究进行引用
未经审查自动用于下游发布
训练系统模仿未经支持的科学权威
替代专家评审、重复验证或统计验证

数据格式

数据集以换行符分隔的 JSON 格式提供：

data/artifacts.jsonl

来源和作者归属

数据集中的论文是 Enoch 流程生成的 AI 产物。人类操作者构建、操作、打包和发布了系统及语料库，但不声称对生成的论文内容、论点或结果拥有个人作者身份。

引用格式

bibtex @misc{enoch_ai_research_corpus_2026, title = {Enoch AI Research Corpus}, author = {Blankenship, Jeremy}, year = {2026}, howpublished = {Hugging Face dataset and GitHub corpus}, note = {AI-generated research artifacts with provenance metadata, claim ledgers, and evidence bundles. Not peer-reviewed scientific claims.} }

搜集汇总

数据集介绍

构建方式

Enoch AI Research Corpus 数据集由 Enoch 自主科研系统生成，涵盖 159 份由人工智能自动产出的科研工件。构建过程依托开源的 agentic research 流水线，从研究问题发起至文本生成、证据捆绑与声明追溯，均以自动化方式完成。每个工件以 JSON 行格式存储，包含完整的研究文本、元数据、证据包、声明台账及生成清单，并提供公开的 GitHub 链接以支撑可审计性。系统并未对工件进行科学有效性校验，而是聚焦于科研自动化工作流的可复现性与溯源能力。

特点

该数据集的核心特点在于其全面而细致的溯源与审计机制。每个工件均附带声明台账与证据包，清晰标注是否由 AI 生成、是否声称人类作者身份以及审查状态，从而为研究自动化中的可信度评估提供结构化数据支持。工件数量虽小（100 至 1000 级别），但每一条都包含丰富的源头指纹和封装元数据，特别适合用于考核生成式科研的完整性和可追溯性，是研究自主科研系统工作流溯源设计的珍贵基准。

使用方法

使用者可通过加载 `data/artifacts.jsonl` 文件获取所有工件，利用 `paper_markdown`、`claim_ledger` 和 `evidence_bundle` 等字段开展研究自动化审计、声明与证据的绑定分析以及工作流评价。数据集适用于文本生成、问答和文本分类等自然语言处理任务，但明确禁止将其作为经过同行评审的科学证据直接引用或用于训练模拟不具科学权威的系统。建议用户在研究中明确标注其 AI 生成属性，并结合人类审查进行合理使用。

背景与挑战

背景概述

Enoch AI Research Corpus是由Jeremy Blankenship于2026年创建的一个包含159个AI生成研究工件的语料库，源自Enoch智能体研究系统（https://github.com/alias8818/enoch-agentic-research-system）。该数据集旨在探索自动化研究流程中的可审计性、溯源追踪、声明账簿和证据打包等核心问题。在人工智能辅助科学发现的浪潮下，该数据集为研究自主研究工作流程、证据链管理和生成性研究的可复核性提供了独特的实验平台，推动了对AI生成内容在学术生态中角色与边界的深度思考。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，如何界定和验证AI生成研究工件的科学有效性是一大难题，避免其被误用作未经同行评议的科学发现，同时需解决生成内容在引用准确性、统计效力和语义质量上的不可靠性；在构建过程中，数据集的设计需兼顾溯源信息的完整性与可操作性，包括证据包、声明账簿和管理清单等元数据的标准化，以及避免对生成内容进行质量验证的包装流程，从而在开放性与严谨性之间取得平衡。

常用场景

经典使用场景

Enoch AI Research Corpus构建了一套由自主智能体系统生成的159篇研究文献，涵盖从研究问题提出、证据收集到论文撰写的全流程自动化。该数据集最经典的使用场景在于推动自主科研工作流（agentic research workflows）的研究，包括研究工件的可追溯性、声明账本（claim ledger）与证据包（evidence bundle）的结构化设计，以及如何对AI生成的研究产品实施有效的审计与复核流程。研究者可借此剖析智能体在科研流程中的行为模式，评估生成内容在逻辑连贯性、证据支撑充分性等方面的表现。

衍生相关工作

围绕Enoch数据集，学界已衍生出多项经典工作，包括对自主科研工作流可重复性的系统评估、基于声明账本的自动事实核查方法，以及结合证据包结构的知识图谱构建技术。例如，有研究借鉴其声明账本的设计理念，提出了面向AI生成内容的细粒度溯源标注标准；另一些工作则利用该数据集的证据包格式，开发了能够自动抽取并验证科研主张背后证据链的算法。此外，该数据集还催生了关于AI研究生成系统伦理边界与质量控制框架的深入讨论，为后续构建可信赖的自主科研智能体提供了关键参考。

数据集最近研究