Lemelsonbot
收藏Lemelsonbot 数据集概述
数据集基本信息
- 数据集名称: Lemelsonbot
- 核心内容: 源自 Jerome H. Lemelson 发明笔记本的语料库和方法论提炼。
- 主要文件:
LEMELSON_NOTEBOOKS_EXTRACTED_v1.md(经过清理的单一语料库文件)。
数据集解决的问题
- 原始笔记本为包含史密森尼学会页眉和重复元数据的扫描 PDF 文件。
- OCR 输出不一致,难以进行大规模搜索。
数据集提供的解决方案
- 提供一个经过清理的单一语料库文件。
- 提供一个结构化、机器可解析的方法论提炼。
数据集核心特性
| 特性 | 内容 | 重要性 |
|---|---|---|
| 清理后的语料库 | 已移除样板文件的 LEMELSON_NOTEBOOKS_EXTRACTED_v1.md 文件 |
实现无干扰搜索 |
| 证据可追溯性 | 引用库和来源关系图 | 每条规则均可追溯至来源 |
| 方法论提炼 | 经三角验证的核心启发式与操作符库 | 可复用的发明启发式方法 |
| 验证脚本 | scripts/validate-*.py 脚本 |
防止数据漂移和回归 |
| 机器标记 | 为核心启发式和操作符添加的 HTML 注释标记 | 便于下游解析 |
数据集获取与安装
获取方式
-
仅下载语料库: bash curl -fsSL https://raw.githubusercontent.com/Dicklesworthstone/lemelsonbot/main/LEMELSON_NOTEBOOKS_EXTRACTED_v1.md -o LEMELSON_NOTEBOOKS_EXTRACTED_v1.md
-
克隆完整仓库: bash git clone https://github.com/Dicklesworthstone/lemelsonbot.git
-
使用 GitHub CLI: bash gh repo clone Dicklesworthstone/lemelsonbot
环境要求
- Python: 3.10+(用于运行验证脚本)
- ripgrep (
rg):用于快速搜索(可选)
数据集结构
pdf_originals/ --> extraction --> LEMELSON_NOTEBOOKS_EXTRACTED_v1.md | v corpus/primary | v distillations/ --> triangulated_kernel --> operator_library --> artifacts/ | -> quote_bank ---------/ | v provenance_graph
主要组件与文件
- 语料库文件:
LEMELSON_NOTEBOOKS_EXTRACTED_v1.md - 核心启发式文件:
corpus/specs/triangulated_kernel.md - 操作符库文件:
corpus/specs/operator_library.md - 引用库文件:
corpus/quote_bank/quote_bank.md - 验证脚本:
scripts/validate-*.py - 提取脚本:
scripts/extract-kernel.py
快速使用示例
-
搜索主题: bash rg -n "sensor" LEMELSON_NOTEBOOKS_EXTRACTED_v1.md | head
-
验证语料库和核心启发式: bash python3 scripts/validate-corpus.py python3 scripts/validate-kernel.py
-
导出核心启发式: bash python3 scripts/extract-kernel.py --in corpus/specs/triangulated_kernel.md --out artifacts/triangulated_kernel.md
验证与配置
主要验证命令
python3 scripts/validate-corpus.py: 验证语料库结构和引用库规则。python3 scripts/validate-kernel.py: 验证核心启发式标记和最小数量要求。python3 scripts/validate-operators.py: 验证操作符卡片格式和标签规则。python3 scripts/validate-kickoffs.py: 验证会话启动文件。
配置说明
- 无需运行时配置,仓库基于约定。
- 如需更改阈值,请编辑
scripts/validate-*.py文件中的常量。
已知限制
- 仓库不包含原始扫描图像。
- 方法论提炼是解释性的,并非权威的历史记录。
- 仓库中没有自动化的重新 OCR 流程。
- 验证脚本强制执行结构,而非历史准确性。
许可信息
- 未指定许可证,保留所有权利。




