crawlerlm-html-to-json

Hugging Face2025-12-22 更新2025-12-23 收录

下载链接：

https://huggingface.co/datasets/espsluar/crawlerlm-html-to-json

下载链接

链接失效反馈

官方服务：

资源简介：

CrawlerLM是一个合成指令调优数据集，用于训练语言模型从HTML中提取结构化JSON数据。数据集包含447个示例，采用聊天格式，包括用户指令和助手响应。数据集特点包括多样化的真实HTML来源（如食谱、招聘信息、活动）、合成增强的HTML变体以及清晰的数据分割（训练集391个，验证集50个，测试集6个）。数据集格式为指令调优聊天格式，包含用户消息（指令和HTML输入）和助手消息（JSON输出）。数据集还详细描述了三种模式类型（食谱、招聘信息、活动）的字段和用例，以及数据收集过程、增强策略、使用方法和数据集统计信息。

创建时间：

2025-12-08

原始信息汇总

CrawlerLM: HTML to JSON 提取数据集概述

数据集基本信息

数据集名称: CrawlerLM: HTML to JSON Extraction
发布者: Jack Luar
发布年份: 2025
许可证: MIT
访问地址: https://huggingface.co/datasets/espsluar/crawlerlm-html-to-json

数据集描述

这是一个用于训练语言模型从HTML中提取结构化JSON的合成指令调优数据集。该数据集旨在微调小型语言模型，使其能够从多个领域的混乱、真实HTML中执行结构化数据提取。

关键特征

数据量: 总共包含447个示例。
数据格式: 采用指令调优的聊天格式。
数据来源: 来自多样化网络来源（食谱、招聘信息、活动）的真实HTML。
数据增强: 通过合成方法生成具有真实感的HTML变体。
数据划分: 清晰的训练集（391个示例）、验证集（50个示例）和测试集（6个示例）划分。

数据集格式

所有示例均采用包含用户/助手消息的指令调优聊天格式。

核心字段: messages (列表)，包含用户和助手角色的对话内容。
- 用户消息：指令 + HTML输入。
- 助手消息：JSON输出。

模式类型

数据集包含三种结构化数据模式：

1. 食谱 (`type: "recipe"`)

用途: 从美食博客、烹饪网站提取食谱数据。
示例来源: BBC Good Food, AllRecipes, Serious Eats。
字段: type, title, description, ingredients, instructions, prep_time, cook_time, total_time, servings, cuisine, difficulty, rating, author, image_url, video_url, source_url, published_date。

2. 招聘信息 (`type: "job_posting"`)

用途: 解析职业页面、招聘网站的工作列表。
示例来源: Greenhouse, Lever, LinkedIn Jobs。
字段: type, title, company, location, compensation, benefits, mode_of_work, job_type, experience_level, requirements, responsibilities, description, application_url, company_logo, source_url。

3. 活动 (`type: "event"`)

用途: 从活动列表、日历中提取活动详情。
示例来源: Eventbrite, Meetup, 本地活动页面。
字段: type, title, description, datetime, end_datetime, location, venue, organizer, price, registration_url, image_url, category, tags, source_url。

数据收集与处理流程

手动标注: 使用自定义Chrome扩展手动标注HTML片段。
质量过滤: 进行令牌限制过滤和验证。
分层划分: 在增强前按模式类型划分训练/验证/测试集。
合成增强: 生成HTML变体，同时保留JSON语义。
聊天格式转换: 使用系统提示转换为指令调优格式。

增强策略

结构变体: 包装div、嵌套深度变化。
属性噪声: 随机类、ID、data-*属性。
模板变体: 语义等效标签（div ↔ section）。
HTML注释: 注入开发者注释。
空白字符变体: 压缩与美化格式化。所有增强均保留语义内容，并确保expected_json保持不变。

数据集统计

划分	示例数量	模式分布（约数）
训练集	391	133个食谱，150个招聘信息，117个活动
验证集	50	17个食谱，17个招聘信息，16个活动
测试集	6	2个食谱，2个招聘信息，2个活动
总计	447

模式分布比例:

食谱: 约152个示例 (34%)
招聘信息: 约169个示例 (38%)
活动: 约135个示例 (30%)

预期用途

主要用例

微调小型语言模型（0.5B-7B参数）以进行HTML提取。
训练特定领域的网络爬虫。
对结构化数据提取性能进行基准测试。
教导模型处理混乱的真实世界HTML。

超出范围

完整网页提取（本数据集专注于片段，而非整个页面）。
单字段提取（每种模式包含10-17个字段）。
非英语内容。
动态/JavaScript渲染的内容。

局限性

模式类型有限: 仅包含3种模式类型（食谱、招聘信息、活动）。
仅限英语: 所有示例均来自英语网站。
静态HTML: 不包含JavaScript渲染或动态内容。
数据集规模中等: 总共447个示例（391个训练示例）。
增强伪影: 合成变体可能无法完美匹配真实世界HTML的多样性。

伦理考量

网络爬取: 本数据集旨在用于教育和研究目的。用户在部署训练好的模型时应遵守robots.txt和网站服务条款。
数据来源: 所有HTML片段均来自可公开访问的网站。
隐私: 未故意包含任何个人可识别信息。

引用

bibtex @misc{crawlerlm2025, author = {Jack Luar}, title = {CrawlerLM: HTML Fragment to Structured JSON}, year = {2025}, publisher = {HuggingFace}, howpublished = {url{https://huggingface.co/datasets/espsluar/crawlerlm-html-to-json}} }

数据集创建

工具: 用于手动标注的自定义Chrome扩展（https://github.com/espsluar/c4ai-crawlerlm）。
质量控制:
- 对所有基础标注进行人工审查。
- 令牌计数验证（每个示例≤24K）。
- 模式验证（必填字段、类型）。
- 分层抽样以确保模式分布平衡。

搜集汇总

数据集介绍

构建方式

在网页数据提取领域，构建高质量的训练数据是提升模型性能的关键。CrawlerLM数据集通过系统化的流程生成，首先采用定制化Chrome扩展工具对真实网页HTML片段进行人工标注，确保数据源的多样性与准确性。随后经过严格的质量筛选，依据标记数量限制与模式验证剔除不合格样本，并按照模式类型进行分层划分以保持数据平衡。在此基础上，通过合成增强技术引入结构变异、属性噪声及空白字符变化，生成语义一致但形式多样的HTML变体，最终转换为指令微调所需的对话格式，形成包含447个样本的标准化数据集。

使用方法

针对结构化数据抽取的研究与应用，该数据集提供了便捷的集成方案。用户可通过HuggingFace的datasets库直接加载数据，并依据训练、验证与测试划分进行模型开发。数据集支持按模式类型过滤，例如可单独提取食谱类样本进行领域特异性训练。在微调过程中，可利用现代Transformer库的对话模板功能将样本转换为模型可接受的标记序列，结合训练参数设置实现端到端的优化。该设计使得研究者能够快速构建专注于网页信息抽取的专用模型，同时为评估模型在杂乱HTML环境下的性能提供了基准测试平台。

背景与挑战

背景概述

在自然语言处理领域，从非结构化网页内容中提取结构化信息是一项关键任务，尤其随着大语言模型在指令微调方面的广泛应用，对高质量、任务特定的数据集需求日益增长。CrawlerLM: HTML to JSON Extraction 数据集由 Jack Luar 于2025年创建并发布，旨在为小型语言模型提供指令微调数据，以训练其从真实、杂乱的HTML片段中提取结构化JSON的能力。该数据集聚焦于食谱、招聘信息和事件公告三种具体领域，通过人工标注与合成增强相结合的方式构建，包含447个示例，其核心研究问题是提升模型对异构网页结构的理解与信息抽取的准确性，对自动化网络爬虫、知识图谱构建及领域特定信息处理具有积极的推动作用。

当前挑战

该数据集致力于解决从复杂、非标准化的HTML文档中准确提取多字段结构化数据的挑战，这要求模型能够克服网页布局多样性、标签嵌套深度不一以及无关属性噪声带来的干扰。在构建过程中，挑战主要体现为如何平衡数据真实性与可控性：一方面需要通过合成增强策略（如结构变异、属性噪声注入）来模拟现实网页的复杂性，另一方面又需确保增强过程不改变底层语义信息；同时，数据规模相对有限（总计447例）且仅涵盖三种预定义模式，限制了模型泛化到更广泛领域或更复杂模式的能力，此外，数据集仅包含静态英文HTML内容，未能涵盖动态渲染页面及多语言场景，这些因素共同构成了其在研究与实际应用中的主要局限。

常用场景

经典使用场景

在信息抽取与自然语言处理领域，CrawlerLM数据集主要用于微调中小型语言模型，使其能够从复杂、非结构化的HTML网页片段中精准提取结构化JSON数据。该数据集通过涵盖食谱、招聘信息和活动详情等多种真实网页来源，模拟了实际网络爬虫任务中的典型场景，为模型提供了从嘈杂HTML标记中识别并转换关键信息的训练范例，有效提升了模型在网页数据解析任务中的泛化能力。

解决学术问题

该数据集主要应对学术研究中网页信息结构化提取的挑战，解决了传统方法依赖手工规则或特定模板、难以适应多样化网页布局的问题。通过提供合成增强的HTML变体与标准JSON输出配对，它支持端到端的指令微调研究，促进了语言模型在理解半结构化文档、跨域信息抽取以及少样本学习方面的进展，为自动化数据采集与知识图谱构建提供了可靠的数据基础。

实际应用

在实际应用中，CrawlerLM数据集训练的模型可部署于智能网络爬虫系统，自动从美食博客、招聘平台和活动发布网站中提取标准化数据，显著降低人工数据整理成本。例如，在电子商务领域，可用于聚合商品信息；在人力资源行业，能自动化解析职位描述；在内容管理场景中，则有助于快速构建结构化事件日历，提升数据整合效率与准确性。

数据集最近研究