five

EliasHossain/nanobubbleeval

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/EliasHossain/nanobubbleeval
下载链接
链接失效反馈
官方服务:
资源简介:
NanoBubbleEval v1.0是一个专注于纳米气泡和纳米载体文献中证据基础的模式提取、数值基础和证据归因的基准数据集。该数据集通过三个主要评估任务(模式填充幻觉、单位归一化下的数值基础和逐字证据归因)来操作科学信息提取的失败模式。数据集包含18个字段的规范化模式,支持基于单位规范化的数值匹配和答案-证据一致性率检测。数据集分为黄金硬层(40条记录)和黄金轻层扩展(460条记录),分别用于不同的评估目的。此外,数据集还提供了三种基线模型的性能比较和详细的分析报告。

NanoBubbleEval v1.0 is an evidence-grounded benchmark for schema extraction, numerical grounding, and evidence attribution in the nanobubble and nanocarrier literature. The dataset operationalises three failure modes of scientific information extraction as decomposed evaluation tasks over a shared record set: schema-fill hallucination, numerical grounding under unit normalisation, and verbatim evidence attribution. It features an 18-field normalised schema with an explicit `NOT_REPORTED` convention, a tolerance-bounded numerical match metric, and an answer–evidence consistency rate. The dataset includes a 40-record gold-hard tier and a 460-record gold-lite extension tier, along with performance comparisons of three baseline models and detailed analysis reports.
提供机构:
EliasHossain
搜集汇总
数据集介绍
main_image_url
构建方式
NanoBubbleEval v1.0是一个面向纳米气泡与纳米载体文献的基准数据集,旨在系统性地评估科学信息抽取任务中的三种失效模式:模式填充幻觉、数值归一化下的单位漂移以及逐字证据归因。该数据集基于一个包含18个字段的标准化模式构建,其中六个核心字段(如尺寸、Zeta电位、稳定性、载药效率、有效载荷与释放曲线)具备明确的规范单位与同义词表,其余字段作为辅助信息。数据集的构建经历了严格的溯源审计:原始2026年3月的仓库因项目删除事件损毁,研究团队通过直接标识符检索(PubMed E-utilities、OpenAlex与EuropePMC)恢复了全部40条黄金硬层级记录,并整合形成一个包含51,566条去重记录的最终仓库。每条记录均经过盲法双标注协议验证,并辅以摘要逐字节交叉核对,确保标注时间与发布时间的文本一致性。
特点
该数据集的核心特点在于其对科学信息抽取瓶颈问题的解构式评估能力。它首次将摘要校准F1分数作为主要指标,惩罚模型在不适用场景下输出值的行为,从而有效区分模型的能力与自信度。数值匹配度量采用容错边界机制,在规范化单位的基础上分离单位漂移与数值漂移,提供更精细的误差分析维度。此外,答案-证据一致性率能够检测引用幻觉现象,即模型输出正确值但引用不支持该值的文本片段。数据集包含三个基线系统(正则表达式、BioBERT-SQuAD-v2与Qwen2.5-7B-Instruct),实验结果表明大型语言模型在原始研究摘要上表现优越,但在综述类摘要上性能显著下降,揭示了其对改写文本的敏感性。仓库中的每条记录均具备完整的溯源信息与多层级交叉验证,确保了评估结果的可靠性。
使用方法
该数据集可通过HuggingFace平台直接加载使用,提供了多种配置以满足不同研究需求。用户可选用'gold_hard'配置加载40条黄金硬层级标注数据进行基准评估,或使用'warehouse'配置获取完整的51,566条去重记录。数据集附带三个基线系统的预测结果,分别存放于'predictions'配置下的regex-v1.csv、biobert-squadv2.csv与qwen25-7b-instruct.csv文件中,便于用户复现基准实验或进行方法对比。研究者在进行评估时,需按照18字段模式组织预测输出,并利用摘要校准F1、数值匹配率与答案-证据一致性率三个核心指标进行性能衡量。数据集的代码库及完整评估流水线已在GitHub开源,支持端到端复现与扩展。用户应注意数据集采用CC BY-NC 4.0许可协议,仅限研究用途。
背景与挑战
背景概述
在生物医学自然语言处理领域,从海量文献中精准抽取结构化信息是推动纳米医学发展的重要基础,然而现有基准测试多聚焦于通用文本,对纳米载体与纳米气泡这一前沿交叉学科的复杂语义解析能力评估严重不足。NanoBubbleEval v1.0 数据集于 2026 年由以 eliashossain001 为代表的团队创建,旨在系统评估科学文献信息抽取中的三个关键失效模式:模式填充幻觉、单位归一化下的数值接地以及原样证据归因。该基准涵盖 51,566 条去重记录,配备 18 字段标准化模式与容错数值匹配指标,其独创的弃权校准 F1 分数与答案-证据一致性率等评估框架,为纳米生物医学知识库构建提供了可重复验证的评测标准,推动了信息抽取技术在该专业化领域的评估方法论革新。
当前挑战
该数据集所面临的挑战可归结为两大维度。在领域问题层面,纳米气泡文献中普遍存在的陈述缺省(如未报告数值)、单位混用(纳米与微米、小时与天)以及证据幻觉(正确答案对应不支持的引用片段)构成了三大瓶颈。传统 F1 指标无法区分模型因泛化不足而回避回答与过度自信导致的幻觉,且数值匹配缺乏对单位标准化的考虑。在构建过程中,原始的 2026 年 3 月仓储因项目删除事故彻底损毁,团队被迫通过 PubMed E-utilities、OpenAlex 与 EuropePMC 等多个来源对 40 条黄金标准记录逐一进行标识符锚定恢复,其中 14 条记录需重新抓取元数据,并严格验证摘要文本的字节一致性。最终仓储虽经去重仍达 51,566 条,但跨源数据版本一致性的审计工作显著增加了基准的构建复杂度与维护成本。
常用场景
经典使用场景
NanoBubbleEval作为面向纳米气泡与纳米载体文献的科学信息抽取基准,核心使用场景聚焦于三项细粒度任务的联合评估:模式填充幻觉检测、数值接地与单位归一化、以及逐字证据归因。该基准设计了包含18个标准化字段的抽取模式,并引入显式的“未报告”约定,借助弃权校准F1分数来惩罚无中生有的抽取行为。同时,通过容差约束的数值匹配指标,它能够区分数值漂移与单位漂移,并采用答案-证据一致性率来捕捉引文幻觉现象,即模型虽输出正确值但援引的支撑文本并不包含该信息。
解决学术问题
该数据集直面科学信息抽取领域长期悬而未决的方法论困境:如何在一个统一的评估框架内同时度量抽取的完整性、数值的精确性以及证据的可追溯性。传统基准往往将粒度限定于实体识别或关系抽取,难以反映结构化抽取中模式约束与数值归一化交织的复杂性。NanoBubbleEval通过整合三组正交的失败模式,为研究社区提供了分解式评估的范例,尤其推动了对于幻觉现象的理论化描述与量化检测。这一工作深刻影响了信息抽取系统的可信度评价体系,促使研究者更加关注模型在低资源科学文献环境下的鲁棒性。
衍生相关工作
NanoBubbleEval的发布催生了一系列衍生的研究工作。一方面,研究者在弃权校准F1指标的启发下,开发了更细致的幻觉分类层次,将模式填充错误进一步区分为内容缺失、单位误配与上下文偏离等子类型。另一方面,基于容差约束的数值匹配机制被拓展至可测量属性的自适应单位转换中,形成了更为通用的物理量规范化框架。此外,该基准所定义的18字段标准化模式,已被部分团队引用为纳米载体领域数据提取的标准模板,从而推动了一致的知识表示规范。同时,答案-证据一致性率的概念也对开放域文本生成中的归因评估产生了重要影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作