sproutseeds/alzheimers-open-intelligence-public-evidence-seed-v0
收藏Hugging Face2026-04-10 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/sproutseeds/alzheimers-open-intelligence-public-evidence-seed-v0
下载链接
链接失效反馈官方服务:
资源简介:
---
pretty_name: "Alzheimer's Open Intelligence: Public Evidence Seed v0"
license: "apache-2.0"
tags:
- alzheimers-disease
- biomedical-informatics
- clinical-trials
- pubmed
- openfda
- public-records
task_categories:
- tabular-classification
- text-classification
size_categories:
- n<1K
---
# Alzheimer's Open Intelligence: Public Evidence Seed v0
## Dataset Summary
This dataset is a public-record-derived Alzheimer's evidence substrate built
from official public sources including ClinicalTrials.gov, PubMed, PMC Open
Access, NIH RePORTER, and openFDA.
It is intended to support basic research workflows such as:
- intervention discovery
- grant-publication-trial linkage
- public evidence review
- schema reuse for downstream analysis
## Supported Tasks
- public evidence organization
- cross-source intervention tracing
- linkage inspection
- review and curation workflows
## Data Sources
- ClinicalTrials.gov
- PubMed
- PMC Open Access
- NIH RePORTER
- openFDA
## What This Dataset Is Not
- not a patient-level cohort dataset
- not a clinical decision system
- not medical advice
- not a complete map of Alzheimer's evidence
## Licensing
Code and software-style files are released under Apache 2.0.
Public-facing documentation and artifact-style narrative materials are released
under CC BY 4.0.
## Release Scope
The `Public Evidence Seed v0` release includes:
- a normalized seed dataset
- linkage artifacts
- exact-anchor review records
- watchlist review records
## Citation
Please cite the release using the repository `CITATION.cff` metadata.
DOI: <https://doi.org/10.5281/zenodo.19502035>
Dataset mirror:
<https://huggingface.co/datasets/sproutseeds/alzheimers-open-intelligence-public-evidence-seed-v0>
---
pretty_name: "阿尔茨海默病开放智能:公共证据种子版v0"
license: "Apache 2.0许可证"
tags:
- 阿尔茨海默病(Alzheimer's disease)
- 生物医学信息学(biomedical informatics)
- 临床试验(clinical trials)
- PubMed(PubMed)
- openFDA(openFDA)
- 公共记录(public records)
task_categories:
- 表格分类(tabular classification)
- 文本分类(text classification)
size_categories:
- 样本量少于1000条(n<1K)
---
# 阿尔茨海默病开放智能:公共证据种子版v0
## 数据集概述
本数据集是基于公共记录构建的阿尔茨海默病(Alzheimer's disease)证据基底,数据来源包括临床试验注册平台(ClinicalTrials.gov)、PubMed(PubMed)、PMC开放获取库(PMC Open Access)、NIH RePORTER(NIH RePORTER)以及openFDA(openFDA)等官方公开渠道。
其旨在支撑以下基础研究工作流:
- 干预措施发现
- 资助项目-论文-临床试验关联分析
- 公共证据审核
- 面向下游分析的模式复用
## 支持任务
- 公共证据组织管理
- 跨来源干预措施追踪
- 关联关系校验
- 审核与编校工作流
## 数据来源
- 临床试验注册平台(ClinicalTrials.gov)
- PubMed(PubMed)
- PMC开放获取库(PMC Open Access)
- NIH RePORTER(NIH RePORTER)
- openFDA(openFDA)
## 本数据集不适用场景
- 并非患者级队列数据集
- 不可用作临床决策系统
- 不可作为医疗建议
- 并非阿尔茨海默病相关证据的完整图谱
## 授权协议
代码及软件类文件遵循Apache 2.0许可证发布。
面向公众的文档及制品类叙事材料遵循CC BY 4.0许可证发布。
## 发布范围
本次“公共证据种子版v0”发布内容包括:
- 标准化种子数据集
- 关联分析产物
- 精确锚点审核记录
- 关注列表审核记录
## 引用方式
请引用该仓库的`CITATION.cff`元数据进行引用。
DOI:<https://doi.org/10.5281/zenodo.19502035>
数据集镜像地址:
<https://huggingface.co/datasets/sproutseeds/alzheimers-open-intelligence-public-evidence-seed-v0>
提供机构:
sproutseeds
搜集汇总
数据集介绍

构建方式
在阿尔茨海默病研究领域,公开证据的系统整合对于推动科学发现至关重要。本数据集通过聚合多个权威公共数据源构建而成,包括ClinicalTrials.gov的临床试验记录、PubMed与PMC Open Access的学术文献、NIH RePORTER的资助项目信息以及openFDA的监管数据。这些异构数据经过规范化处理,形成了统一的证据基底,并辅以链接构件、精确锚点审查记录及观察清单审查记录,旨在为跨源证据追踪与组织提供结构化基础。
特点
该数据集作为阿尔茨海默病公开证据的种子集合,其核心特点在于实现了多源公共记录的交叉关联与标准化呈现。它并非患者层面的队列数据或临床决策系统,而是专注于干预发现、资助-出版物-试验联动、证据审查及下游分析模式复用等研究流程的支持。数据集规模适中,涵盖表格分类与文本分类任务,适用于生物医学信息学场景下的证据组织与审查工作,同时明确界定了其非医疗建议、非完整证据图谱的有限范围。
使用方法
研究人员可利用该数据集开展阿尔茨海默病领域的公开证据系统性探索。典型应用包括通过链接构件追溯干预措施在不同数据源中的演变路径,借助规范化结构进行资助、出版物与临床试验的关联分析,或利用审查记录辅助证据评估与人工校验工作。数据集以Apache 2.0及CC BY 4.0协议发布,支持开源研究流程,用户可通过引用指定DOI获取并复用其架构,以促进下游证据整合与知识发现。
背景与挑战
背景概述
阿尔茨海默病作为全球公共卫生领域的重大挑战,其研究依赖于对海量公共证据的系统整合。'Alzheimer's Open Intelligence: Public Evidence Seed v0'数据集由Sprout Seeds团队于2024年创建,旨在构建一个从ClinicalTrials.gov、PubMed、PMC Open Access、NIH RePORTER及openFDA等权威公共数据源衍生的标准化证据基底。该数据集的核心研究问题聚焦于打破不同来源间的信息壁垒,支持干预发现、资助-出版物-试验关联分析等基础研究流程,为阿尔茨海默病的知识发现与转化研究提供了结构化的数据基础设施。
当前挑战
该数据集致力于解决阿尔茨海默病研究领域证据分散、难以交叉关联的挑战,其核心任务在于实现跨源干预追踪与证据组织。在构建过程中,面临多重技术挑战:首先,需从异构的公共数据源中提取并规范化阿尔茨海默病相关证据,确保数据的一致性与可比性;其次,建立精确的实体链接以关联临床试验、学术出版物与资助项目,这要求处理复杂的语义匹配与标识符映射问题;最后,作为种子数据集,其覆盖范围有限,如何扩展为更完整的证据图谱,同时保持数据质量与可追溯性,是持续演进的关键难点。
常用场景
经典使用场景
在阿尔茨海默病研究领域,该数据集作为公共证据种子,为干预发现提供了结构化基础。研究者能够整合临床试验、学术文献及监管数据,构建跨源证据链,支持系统性的文献回顾与证据审查工作流程,从而加速潜在治疗策略的识别与验证。
实际应用
在实际应用中,该数据集服务于生物医学信息学平台,支撑证据审查系统的开发。机构可利用其进行资助效果评估、临床试验历史分析及监管记录交叉验证,辅助政策制定者与研究人员优化资源分配,推动公共卫生决策的数据驱动转型。
衍生相关工作
该数据集衍生了多项经典工作,包括基于链接关系的证据图谱构建、多模态生物医学数据融合模型,以及自动化审查工具的开发。这些工作进一步拓展了其在精准医学与开放科学中的应用,为阿尔茨海默病领域的智能证据生态系统奠定了基础。
以上内容由遇见数据集搜集并总结生成



