EvidenceBench
收藏arXiv2025-04-26 更新2025-04-30 收录
下载链接:
https://github.com/EvidenceBench/EvidenceBench
下载链接
链接失效反馈官方服务:
资源简介:
EvidenceBench是一个用于从生物医学论文中提取证据的基准数据集,由加利福尼亚大学圣地亚哥分校新兴智能实验室创建。数据集包含107,461篇完全标注的论文,每篇论文都包含了一个假设和与之相关的证据。数据集旨在帮助研究人员快速判断科学假设是否得到了实证支持,并促进模型训练和发展。数据集内容丰富,涵盖广泛的生物医学主题,并通过一种新颖的流水线创建,该流水线由假设生成和论文的逐句标注组成,完全由人类专家的判断指导。数据集完全开源,并在CC-BY许可下发布。
提供机构:
加利福尼亚大学圣地亚哥分校新兴智能实验室
创建时间:
2025-04-26
原始信息汇总
EvidenceBench数据集概述
数据集简介
EvidenceBench是一个用于评估和微调模型在生物医学文献中提取证据能力的开源、全面且大规模的数据集。包含超过100,000个数据点,涵盖心脏病学、神经学、传染病、公共卫生和营养学等多样化主题。
数据集组成
原始EvidenceBench数据集
- 数据来源:国际癌症研究机构(IARC)专著
- 数据量:426个数据点
- 划分方式:
- 训练集:96个数据点
- 开发集:37个数据点
- 测试集:293个数据点
- 文件结构:
evidencebench_train_set.jsonevidencebench_dev_set.jsonevidencebench_test_set.json
- 许可证:
- 测试集:CC-BY
- 训练集和开发集:CC-BY-NC-SA
EvidenceBench-100k数据集
- 数据来源:生物医学系统评价
- 数据量:107,461个数据点
- 划分方式:
- 训练集:87,461个数据点
- 测试集:20,000个数据点
- 文件结构:
evidencebench_100k_train_set.jsonevidencebench_100k_test_set.json
- 许可证:CC-BY-NC
数据结构
每个数据实例包含以下特征:
hypothesis:生物医学假设paper_as_candidate_pool:论文句子有序元组aspect_list_ids:方面列表results_aspect_list_ids:标记为"Results"的方面列表aspect2sentence_indices:方面到句子索引的映射sentence_index2aspects:句子索引到方面的映射- 多种评估任务相关字典:
evidence_retrieval_at_optimal_evaluationevidence_retrieval_at_10_evaluationresults_evidence_retrieval_at_optimal_evaluationresults_evidence_retrieval_at_5_evaluation
sentence_types_in_candidate_pool:句子类型元组paper_id:论文ID
评估方法
提供两种评估方式:
生成模型评估
使用命令: bash cd Evaluation bash end_to_end_eval.sh <dataset_path> <max_tokens> <prompt_template_name> <model_name> <exp_name> -1 <limits> <regeneration> False
嵌入模型评估
使用命令: bash cd Evaluation bash embedding_pipeline.sh <dataset_path> <instruction_template_name> <model_name> <exp_name> <limits> <use_api> <cuda> <batch_size>
评估结果记录在Evaluation/post_process/logs.csv中。
搜集汇总
数据集介绍

构建方式
EvidenceBench的构建采用了一种创新的自动化流程,该流程结合了大型语言模型(LLMs)的高效处理能力与专家知识的精确指导。首先,从综述论文中提取专家撰写的证据摘要,随后利用Claude3-Opus生成相关假设,并通过GPT4-0125将证据摘要分解为独立的研究方面(study aspects)。每个研究方面与论文中的句子进行对齐标注,确保标注过程严格遵循专家判断。这一流程显著降低了构建成本,从原本需要3000小时人工标注和12万美元的费用,缩减至仅需3小时API调用和5000美元的成本。
特点
EvidenceBench以其高度专业化和精细化的标注体系脱颖而出。数据集包含426个数据点,每个数据点均通过句子级别的标注,精确匹配假设与相关证据。其独特之处在于利用综述论文中的专家摘要作为黄金标准,确保数据质量与权威性。此外,扩展版本EvidenceBench-100k包含107,461篇全文标注的论文,进一步提升了数据集的规模和多样性,覆盖了广泛的生物医学主题。数据集的标注过程通过多组专家验证,确保了高准确性和可靠性。
使用方法
EvidenceBench专为评估模型在生物医学文献中检索相关证据的能力而设计。使用该数据集时,研究者需将模型置于给定的假设和候选句子池中,要求模型检索出最相关的证据句子。评估采用Aspect Recall指标,衡量模型检索的句子覆盖专家标注的研究方面的比例。数据集支持多种任务设置,包括Evidence Retrieval @K和Result Evidence Retrieval @K,适用于不同复杂度的模型评估。此外,EvidenceBench-100k的大规模训练集可用于模型微调,显著提升模型性能。
背景与挑战
背景概述
EvidenceBench是由加州大学圣地亚哥分校新兴智能实验室联合多家机构于2025年推出的生物医学文献证据抽取基准数据集。该数据集针对生物医学领域日益增长的文献分析需求,旨在解决研究者从海量论文中定位假设相关证据的核心挑战。通过创新性地利用综述论文中的专家证据总结作为标注依据,研究团队构建了包含107,461篇全标注论文的大规模数据集EvidenceBench-100k,显著降低了传统人工标注所需的时间和成本(从3000小时缩减至24小时)。该数据集通过假设生成和句子级证据标注的自动化流程,为评估语言模型在生物医学证据检索任务中的性能提供了标准化测试平台,对推动科学文献智能分析技术的发展具有重要价值。
当前挑战
EvidenceBench面临的挑战主要体现在两个维度:在领域问题层面,生物医学文献中证据呈现的分散性和专业性使得模型需要具备跨句子推理和领域知识理解能力,当前最优模型GPT-4o的方面召回率仅为51.4%,距离专家水平仍有显著差距;在构建过程层面,研究团队需要解决专家标注成本过高(预估需120,000美元人工费用)、证据与假设的语义对齐(处理超过1.5亿个句子-方面对判断)、以及从综述论文中自动化提取可靠假设等技术难题。此外,数据集中42%的重要证据位于论文中间部分,而现有模型仍存在'中间迷失'现象,这对长文本理解模型的设计提出了新的要求。
常用场景
经典使用场景
EvidenceBench作为生物医学文献证据提取的基准数据集,其经典使用场景主要集中在自动化系统从海量科研论文中定位与特定科学假设相关的实验证据。该数据集通过句子级标注构建任务框架,要求模型在给定假设下从全文检索最相关的证据句,这一流程直接模拟了研究人员手动查阅文献的核心环节。例如在探究某种化合物的致癌性假设时,系统需从目标论文的方法、结果等章节精准提取剂量效应、突变特征等关键证据句,为后续的假设验证提供结构化支持。
解决学术问题
该数据集有效解决了生物医学领域两大核心学术问题:一是填补了缺乏专业标注证据检索基准的空白,通过专家撰写的证据摘要反向构建黄金标准,确保标注质量与领域专业性;二是突破了传统人工标注的成本瓶颈,创新性地利用LLM自动化对齐论文句子与研究维度,将标注成本从3000人工小时降至5小时API调用。其构建方法论为长文档细粒度证据标注提供了可扩展的范式,尤其针对PubMed每年超百万篇文献的规模,显著提升了证据检索研究的可重复性和可比性。
衍生相关工作
围绕EvidenceBench衍生的经典工作主要集中在三个方向:一是检索增强生成(RAG)系统的优化,如GritLM等嵌入模型通过在该数据集上的微调显著提升生物医学语义检索能力;二是长上下文理解模型的评测框架,相关研究揭示了LLM在生物医学文献中仍存在'中间丢失'现象;三是自动化综述生成管线,受其假设-证据对齐机制启发,后续工作如BioGPT等进一步开发了从证据句到综述段落的端到端生成技术。这些衍生研究共同推动了生物医学文本智能处理的技术前沿。
以上内容由遇见数据集搜集并总结生成



