five

NICE Technology Appraisals

收藏
github2026-05-04 更新2026-05-06 收录
下载链接:
https://github.com/shoulders-ai/nice-graph
下载链接
链接失效反馈
官方服务:
资源简介:
NICE技术评估的知识图谱和全文语料库,包含826个技术评估、3,307份文档,其中555份具有结构化实体提取。数据集包含药物、条件、方法决策、证据缺口、比较器、临床试验、交叉引用、ICER波段、经济模型和商业安排等实体。

Knowledge Graph and Full-Text Corpus for NICE Technology Assessments, which contains 826 technology assessments and 3,307 documents, among which 555 have undergone structured entity extraction. The dataset covers entities such as drugs, conditions, methodological decisions, evidence gaps, comparators, clinical trials, cross-references, ICER bands, economic models, and commercial arrangements.
创建时间:
2026-05-03
原始信息汇总

数据集概述:NICE Appraisals (NICE 技术评估知识图谱与全文语料库)

该数据集名为 NICE Appraisals,是一个关于英国国家健康与临床优化研究所(NICE)技术评估的知识图谱和全文语料库。

核心内容与规模

  • 评估数量:包含 826 项技术评估(TAs)。
  • 文档总数:共 3,307 份文档。
  • 结构化提取:其中 555 项评估已完成结构化实体提取。

知识图谱实体统计

数据集对最终评估文件进行了结构化提取,主要实体及其数量如下:

实体类型 数量
药物 (Drugs) 572
适应症 (Conditions) 1,298
方法论决策 (Methodological decisions) 9,509 (分为 23 个类别)
证据缺口 (Evidence gaps) 3,658
比较物 (Comparators) 2,769
临床试验 (Clinical trials) 2,206
交叉引用 (Cross-references) 952
增量成本效果比 (ICER bands) 926
经济模型 (Economic models) 675
商业安排 (Commercial arrangements) 413

值得注意的是,每个方法论决策都记录了公司立场、证据审查组(ERG)立场和委员会偏好。

数据处理管线

数据集通过一个包含8个步骤的管线构建,主要步骤包括:

  1. 索引:爬取NICE网站获取所有TA列表。
  2. 下载:下载PDF文档。
  3. 提取:将PDF转换为带页面标记的Markdown。
  4. 分块:将文档分割为10页重叠的窗口。
  5. 标注:使用Claude Haiku进行AI辅助实体提取。
  6. 解析:进行实体解析和图谱构建。
  7. 全文索引:构建FTS5搜索索引。
  8. 打包:打包语料库归档文件。

本体 (Ontology)

提取架构经过5轮、涉及50个TA的迭代开发。最初由两个独立的AI代理基于20个TA提出本体,后经合并和优化。最终包含9种实体类型、23个方法论决策类别和8个ICER带。

AI / API 访问接口

该项目提供了面向AI代理的API接口,便于直接访问数据:

  • GET /llms.txt:项目概览和API指南。
  • GET /llms-full.txt:完整语料库索引(包含826个TA及其文档计数)。
  • GET /api/search?q={query}&format=plain:在3,307份文档中进行全文搜索。
  • GET /api/corpus/ta{N}/:获取特定TA的文档列表。
  • GET /api/corpus/ta{N}/{doc}.md:获取带有页面标记的原始Markdown文档。
  • POST /api/chat:提供自然语言到SQL的问答接口(SSE流式响应)。

许可协议

该数据集采用 MIT 许可证。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于英国国家健康与临床优化研究所(NICE)发布的技术评估指南构建而成。构建流程始于对NICE官方网站上所有技术评估清单的自动化抓取,随后下载相应的PDF文档,并通过PDF到Markdown的转换处理,嵌入页面标记。接着,利用Claude Haiku模型的工具调用能力,对文档进行基于AI的结构化信息抽取,识别并提取药物、疾病、方法学决策等九类实体。完成实体抽取后,进行实体消歧与知识图谱构建,同时建立FTS5全文搜索索引,最终打包生成完整的语料库归档。整个过程通过八个阶段性的脚本模块依次执行,形成了从数据采集到知识图谱生成的完整自动化流水线。
特点
该数据集汇聚了826项NICE技术评估指南,涵盖3,307份文档,其中555项评估已完成结构化实体抽取,构成了一个兼具全文语料与知识图谱的双重资源体系。知识图谱部分收录了572种药物、1,298种疾病、9,509项方法学决策、3,658个证据缺口以及2,769个对照干预措施等丰富实体类型,每项方法学决策均标注了企业立场、评估组立场与委员会偏好三方视角。此外,数据集包含2,206项临床试验、926个增量成本效果比区间和675个经济模型,为卫生技术评估研究提供了多维度的结构化知识支持。
使用方法
研究人员可通过友好的Web界面或API接口灵活使用该数据集。API端点提供全文搜索功能,支持对3,307份文档进行关键词查询,并可获取单个技术评估的文档列表及其原始Markdown格式内容。面向AI代理的llms.txt文件提供了机器可读的项目概览与API指南,便于智能体交互。此外,自然语言查询接口支持将用户提问转化为SQL语句并返回答案,实现语义级检索。对于本地部署,研究者可通过运行完整的流水线脚本从零开始重建数据集,或仅启动Web应用依赖已有的数据库与数据文件进行交互式探索。
背景与挑战
背景概述
NICE Technology Appraisals数据集由英国国家卫生与临床优化研究所(NICE)发布的药物及医疗技术评估文档构建而成,创建于2024年,由研究团队精心整合。该知识图谱与全文语料库收录了826份技术评估指南、3307份相关文档,并对其中的555份最终评估文档进行了结构化实体抽取,涵盖572种药物、1298种疾病条件、9509项方法论决策等核心要素。数据集旨在系统性地解析NICE评估流程中的临床证据、经济模型和监管决策,为医疗技术评估研究提供标准化的结构化知识资源,显著促进了药物经济学、循证医学及卫生技术评估领域的交叉研究。
当前挑战
该数据集面临的核心挑战在于处理技术评估文档的高度复杂性与异构性。领域方面,NICE评估涉及多方利益相关者(企业、评估小组、委员会)的立场分歧与动态博弈,从文档中准确提取并形式化表征方法论决策(如公司立场、评估小组意见与委员会偏好)的三方关系尤为困难。构建过程中,研究团队需应对PDF文档格式转换的信息损失风险(如表格、复杂排版),并通过两轮独立AI代理协作迭代开发本体,在50份评估文档中经过5轮循环调整才确立9类实体、23种决策分类与8个ICER区间的抽取架构,实体消歧与跨文档知识融合仍需持续优化以确保图谱的准确性。
常用场景
经典使用场景
NICE Technology Appraisals数据集作为英国国家健康与临床优化研究所技术评估的全面知识图谱与全文本语料库,在卫生技术评估与循证医学决策领域具有独特价值。其最经典的使用场景聚焦于系统性挖掘结构化决策证据——研究者可基于555份最终评估文档中提取的9个实体类型(涵盖药物、条件、方法学决策等)与23类方法学决策类别,构建从药品疗效证据到成本效益分析的完整推理链路。特别是通过跨评估文档间952条交叉引用关系,可开展纵向政策变迁与技术迭代的时序分析,为理解英国医保覆盖决策的逻辑演化提供量化基础。
实际应用
在实际应用中,该数据集已成为医药行业市场准入策略优化的关键工具。制药企业可通过分析572种药物的评估历程,识别影响委员会决策的核心证据要素(如临床试验设计、经济模型假设的敏感性),从而在研发早期预判技术评估风险。卫生政策制定者则能借助ICER区间分布与商业安排条款的历史模式,校准医保谈判的预算影响阈值。此外,基于3,307份文档构建的全文检索引擎为快速回溯同类技术评估先例提供了实时决策支持,显著降低了政策研究的重复劳动成本。
衍生相关工作
该数据集催生了多项具有影响力的衍生工作,最典型的是基于自然语言查询的交互式分析系统(nice.shoulde.rs项目),实现了从临床问题到结构化证据的端到端问答。研究者进一步开发了利用方法学决策本体(Ontology)进行委员会立场预测的机器学习模型,将23类决策类别转化为可训练的标签体系。另有工作聚焦于评估文本中证据缺口与经济模型的共现模式分析,揭示了卫生技术评估中不确定性管理的深层结构规律。这些衍生成果共同丰富了计算社会科学的政策分析工具箱。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作