HUGO-CS

Name: HUGO-CS
Creator: 伍斯特理工学院·计算机科学系; 伍斯特理工学院·数据科学系; 伍斯特理工学院·材料与制造系; Citrine Informatics
Published: 2026-05-06 03:49:36
License: 暂无描述

arXiv2026-05-06 更新2026-05-09 收录

下载链接：

https://github.com/sprice134/HUGO

下载链接

链接失效反馈

官方服务：

资源简介：

HUGO-CS是由伍斯特理工学院与Citrine Informatics联合开发的冷喷涂实验数据集，旨在解决冷喷涂工艺优化中数据分散且规模不足的问题。该数据集包含4,383个实验记录，每条记录涵盖144个特征，数据源自1,124篇科学文献，通过混合标注框架（HUGO）结合大型语言模型（LLM）与人工校验高效提取。数据集经过严格的标准化处理，包括分类描述符整合、化学成分结构化映射及单位统一化，并包含1,765条人工标注的高质量子集。其应用领域涵盖冷喷涂工艺建模、多变量优化及材料性能预测，为数据驱动的制造研究提供了重要基准资源。

HUGO-CS is a cold spray experimental dataset jointly developed by Worcester Polytechnic Institute and Citrine Informatics, aiming to address the challenges of scattered data and insufficient scale in cold spray process optimization. This dataset contains 4,383 experimental records, each covering 144 features. The data is sourced from 1,124 scientific papers, and was efficiently extracted through a hybrid annotation framework (HUGO) that combines Large Language Models (LLMs) and manual validation. The dataset has undergone rigorous standardization processing, including the integration of classification descriptors, structured mapping of chemical compositions, and unit unification, and also includes a high-quality subset of 1,765 manually annotated records. Its application fields cover cold spray process modeling, multivariate optimization, and material property prediction, providing an important benchmark resource for data-driven manufacturing research.

提供机构：

伍斯特理工学院·计算机科学系; 伍斯特理工学院·数据科学系; 伍斯特理工学院·材料与制造系; Citrine Informatics

创建时间：

2026-05-06

原始信息汇总

根据您提供的README文件内容，以下是对HUGO数据集的总结：

HUGO 数据集概述

数据集简介

HUGO是一个用于批量处理PDF文档的综合性框架，旨在从PDF中提取高保真文本和图表，并利用大型语言模型（LLMs）提取符合定义JSON模板的结构化实验数据。

数据集内容

HUGO-CS数据集：位于 HUGO-CS/Dataset 目录中，包含所有元数据、分类字符串映射和连续成分处理结果。还提供了进一步处理后的版本（含标准化单位转换）以及分类/连续字符串处理前的版本，位于 HUGO-CS/Dataset/AlternateVersions。
真实标签（Ground Truth）：位于 HUGO-CS/GroundTruth/HRM_Flagged 和 HUGO-CS/GroundTruth/Held_Out_Val 目录中。
支持文件：包括提取提示、字符串替换字典和模式模板，位于 HUGO-CS/SupportFiles 目录中。

框架结构

PreProcessing/：PDF批量处理脚本，负责解析、文本提取（通过MinerU）、图表检测和元数据检索（通过CrossRef API）。
Extraction/：核心LLM管道，使用OpenAI模型和特定提示从解析文本中提取结构化数据。
PostProcessing/：用于数据审查、标准化和验证的Jupyter Notebook。
SourceArticles/：原始PDF和生成输出的主要数据目录。
HUGO-CS/：包含HUGO-CS数据集、真实标签和支持文件。

处理流程

预处理：将PDF文件放入 SourceArticles/PDFs/，运行预处理脚本生成解析后的Markdown文件和基础元数据。
文本提取：使用Jupyter Notebook读取解析后的Markdown和元数据，按提示提取结构化JSON数据库。
后处理与验证：运行审查Notebook进行术语标准化、拼写修正以及化学/材料成分验证。

许可证

该项目采用Apache License 2.0许可证。

搜集汇总

数据集介绍

构建方式

在冷喷涂领域，由于工艺参数高度耦合且缺乏大规模机器可读数据，过程优化面临严峻挑战。为此，本研究提出HUGO-CS数据集，通过融合大语言模型自动标注与人工精准校验的混合标注框架HUGO，从1124篇文献中提取了4383组实验记录。该框架引入层次化风险缓解策略，优先将高错误风险的LLM输出导向人工复审，从而在提升效率的同时确保数据质量。最终，数据集包含由243篇文献构成的1765条人工标注黄金子集，为模型训练与误差分析提供了高保真参考。

特点

HUGO-CS数据集以超大规模、混合标注和不确定性感知为核心特征。相较于先前仅含137组实验的最大数据集，其规模扩大了30倍，涵盖144个特征维度，包括材料成分、粉末形态、喷涂参数及多种力学性能指标。数据集中62.7%的纳米硬度值附带不确定性信息，便于进行不确定性量化与鲁棒建模。此外，通用性设计使其覆盖从纯铝到镍基超合金的广泛材料体系，观测性特质则通过保留DOI等元数据确保每个实验均可追溯至原始文献。

使用方法

该数据集可直接用于文献元分析、过程参数优化及机器学习建模。用户可通过标准化后的分类字段（如喷涂系统、粉末生产方式）与连续成分表示进行快速过滤与跨源比较。例如，基于铝含量≥85%的子集可训练屈服强度预测模型，或利用4321组显微硬度数据构建多材料性能预测器。完整的HUGO软件与数据集以CC-BY许可开源发布，支持用户复现或扩展至冷喷涂新文献及其他应用领域。

背景与挑战

背景概述

HUGO-CS数据集由伍斯特理工学院、Citrine Informatics等机构的研究人员于2026年创建，旨在解决冷喷涂领域数据碎片化与规模不足的核心问题。冷喷涂作为一种固态增材制造技术，在部件修复与制造中极具潜力，但其工艺优化受限于多参数耦合复杂性及缺乏大规模、机器可读的实验数据支撑。该数据集通过从1124篇文献中手动与自动结合的方式提取出4383项实验记录，涵盖144个特征，规模较此前最大数据集（137个样本）提升逾30倍。其发布为冷喷涂领域提供了首个大规模、通用型基准数据集，显著推动了数据驱动工艺建模与元分析的发展。

当前挑战

该数据集面临的挑战体现在多个层面：在领域问题层面，冷喷涂工艺受载气类型、粉末特性、沉积参数等众多相互依赖变量影响，传统单变量优化难以揭示跨参数交互效应，亟需大规模结构化数据支撑多变量建模。在构建过程中，研究人员面临文献中实验结果报告不统一（如单位、格式差异）、信息埋藏于表格与图表中难以提取等难题。此外，大语言模型在解析科学文献时易产生结构错误、遗漏或幻觉，导致提取质量不可控。为平衡效率与准确性，HUGO框架通过分层风险缓解策略优先标记高风险输出进行人工校正，并通过后处理统一分类描述、规范化成分与单位，最终形成可复用的高质量基准数据集。

常用场景

经典使用场景

在冷喷涂这一固态增材制造领域，HUGO-CS数据集作为迄今规模最为庞大的实验数据库，其经典使用场景集中于材料与工艺参数的关联建模与预测。该数据集包含4,383组实验记录，涵盖了144维特征，包括粉末成分、载气类型、喷涂系统参数、基体状态及后处理条件等。研究者可借助该数据集构建多材料体系下的机械性能预测模型，如显微硬度与屈服强度，从而实现从工艺输入到材料性能的端到端映射。其精密的特征粒度与标准化格式，为传统上依赖小样本经验的冷喷涂优化提供了数据驱动的全新范式。

衍生相关工作

HUGO-CS数据集的发布催生了一系列衍生研究工作，其核心价值在于提供了一个结构化、可复现的基准平台，使研究者得以从事先难以想象的跨文献比较与模型迁移。基于该数据集，后续工作可发展用于冷喷涂过程优化的贝叶斯优化算法、开发面向多目标性能的图神经网络模型，或构建考虑实验不确定性的鲁棒预测框架。此外，该数据集所提出的HUGO混合标注框架，其层次化风险缓解策略与后处理管线具备高度的可迁移性，已被激励用于其他增材制造工艺文献的自动化结构化提取，扩展了机器可读科学数据的生成范式。

数据集最近研究