five

drugbase-gr

收藏
github2026-04-25 更新2026-04-22 收录
下载链接:
https://github.com/lighteternal/drugbase-gr
下载链接
链接失效反馈
官方服务:
资源简介:
一个结构化的、开放的希腊授权药品产品语料库,包含来自希腊国家药品组织(ΕΟΦ)和欧洲药品管理局(EMA)的官方监管文件。涵盖了希腊市场的全部内容:患者信息传单(ΦΟΧ)、产品特性摘要(SmPC)以及完整的药品注册元数据,全部为希腊语。旨在为患者、药剂师和研究人员提供免费、开放的药品信息搜索服务。

A structured, open-access corpus of authorized medicinal products available on the Greek market, containing official regulatory documents sourced from the Hellenic National Organization for Medicines (ΕΟΦ) and the European Medicines Agency (EMA). The corpus covers the full scope of the Greek medicinal product ecosystem, including Patient Information Leaflets (ΦΟΧ), Summary of Product Characteristics (SmPC), and complete medicinal product registration metadata, all in the Greek language. This corpus is intended to provide free, open-access medicinal product information search services for patients, pharmacists and researchers.
创建时间:
2026-04-19
原始信息汇总

drugbase-gr 数据集概述

数据集简介

drugbase-gr 是一个结构化、开放的语料库,包含希腊所有经授权的药品。数据源自希腊国家药品组织(ΕΟΦ)和欧洲药品管理局(EMA)的官方监管文件,涵盖完整的希腊市场信息,包括患者信息传单(ΦΟΧ)、产品特性摘要(SmPC)以及完整的药品注册元数据,所有内容均为希腊语。该数据集旨在为患者、药剂师和研究人员提供免费、开放的药品信息搜索支持。

核心统计

  • 注册药品数量:15,522
  • 品牌名称数量:5,018
  • 活性物质数量:2,103
  • ATC代码数量:1,468
  • 文档总数:13,445
  • 文档覆盖率:97.8%

文档构成

类型 描述 数量
ΦΟΧ — Φύλλο Οδηγιών Χρήσης 患者信息传单 5,810
SmPC — Περίληψη Χαρακτηριστικών Προϊόντος 产品特性摘要 5,546
Product Information 合并的PIL + SmPC(EMA格式) 1,424
Labelling 包装标签文本 665
总计 13,445

每个患者信息传单(PIL)被解析为6个标准的欧盟章节。每个产品特性摘要(SmPC)被解析为14个结构化的子章节。

治疗类别分布

ATC代码 类别 品牌数量 占比
N 神经系统 684 13.6%
C 心血管系统 673 13.4%
L 抗肿瘤药及免疫调节剂 672 13.4%
A 消化道及代谢 589 11.7%
J 全身用抗感染药 586 11.7%
B 血液及造血器官 413 8.2%
R 呼吸系统 264 5.3%
G 泌尿生殖系统及性激素 229 4.6%
M 肌肉骨骼系统 214 4.3%
S 感觉器官 212 4.2%
D 皮肤病用药 192 3.8%
H 全身用激素制剂 156 3.1%
V 其他 116 2.3%
P 抗寄生虫药 13 0.3%

主要生产商

排名 生产商 国家 产品数量
1 DEMO ABEE 希腊 580
2 RAFARM A.E.B.E. 希腊 449
3 ELPEN AE 希腊 401
4 ΒΙΑΝΕΞ Α.Ε. 希腊 396
5 BENNETT ΦΑΡΜΑΚΕΥΤΙΚΗ Α.Ε. 希腊 290
6 UNI-PHARMA ΑΒΕΕ 希腊 278
7 NOVARTIS EUROPHARM LIMITED 爱尔兰 273
8 VOCATE ΦΑΡΜΑΚΕΥΤΙΚΗ Α.Ε. 希腊 262
9 ACCORD HEALTHCARE S.L.U. 西班牙 224
10 PFIZER EUROPE MA EEIG 比利时 179
11 SANDOZ PHARMACEUTICALS D.D. 斯洛文尼亚 160
12 MYLAN PHARMACEUTICALS LIMITED 爱尔兰 149

前6大生产商均为希腊本土公司,共同持有超过2,400种产品的授权,这反映了希腊仿制药产业规模庞大且成熟。希腊生产商占据了市场上大多数授权SKU。

仓库结构

drugbase-gr/ ├── catalog.json # 可过滤索引:每个品牌一个条目(2.7 MB) ├── registry.jsonl # 完整药品注册表:每个包装/SKU一行(20 MB) ├── brands_md/ # 5,018个Markdown文件,每个品牌一个(总计约906 MB) └── LICENSE # CC BY 4.0许可证

catalog.json — 用于搜索和过滤的品牌索引

构建搜索界面和过滤用户界面的主要入口。每个品牌一个JSON对象,包含品牌名称、Markdown文件路径、活性物质、ATC代码、上市许可持有人、包装形式、药品数量、文档数量以及文档存在性标志等字段。

registry.jsonl — 药品注册表

每个授权的包装/SKU对应一行JSON(共15,522行)。字段包括药品ID、品牌名称、活性物质、ATC代码、剂型、规格、包装、上市许可持有人、市场状态、条形码、定价以及指向已解析文档语料库的文档引用。

brands_md/ — 结构化的希腊语药品传单

每个品牌一个Markdown文件(例如 brands_md/ELIQUIS.md)。每个文件包含:

  • YAML前言 — 品牌名称、ATC代码、活性物质、上市许可持有人、包装数量、文档数量。
  • 包装表格 — 所有授权的药品剂型、规格和包装变体及其状态。
  • 患者信息传单(ΦΟΧ) — 完整的希腊语文本,按6个标准欧盟章节结构化。
  • 产品特性摘要(SmPC) — 完整的希腊语文本,按14个子章节结构化,涵盖适应症、用法用量、禁忌症、警告、相互作用、药理学等。
  • 来源归属 — ΕΟΦ 或 EMA。

许可证

数据集采用 CC BY 4.0 许可证。允许出于任何目的(包括商业用途)自由使用、分享和改编,但需注明出处。

引用方式:Papadopoulos, D. (2026). drugbase-gr: A structured corpus of authorized pharmaceutical products in Greece. GitHub. https://github.com/lighteternal/drugbase-gr

搜集汇总
数据集介绍
main_image_url
构建方式
在药物信息学领域,构建高质量数据集对于支持临床决策与公共卫生研究至关重要。drugbase-gr数据集源自希腊国家药物组织(ΕΟΦ)与欧洲药品管理局(EMA)的官方监管文件,系统整合了希腊市场上全部授权药品的标准化信息。其构建过程通过自动化解析技术,将患者信息手册(ΦΟΧ)划分为六个欧盟标准章节,并将产品特性摘要(SmPC)细分为十四个结构化子部分,最终形成包含一万三千余份文档的机器可读语料库。
特点
该数据集的核心特点体现在其全面性与结构化设计。它覆盖了希腊市场上一万五千余种注册药品,涵盖五千多个品牌名称与两千多种活性物质,文档完整率达到97.8%。所有内容均以希腊语呈现,并按照解剖学治疗学化学分类系统进行编码,其中神经系统与心血管系统类药物占比最高。数据以多层次JSON与Markdown格式存储,既包含可过滤的品牌索引,也提供完整的药品注册信息,实现了元数据与文本内容的深度关联。
使用方法
研究人员可通过编程接口灵活调用数据集内容。例如使用catalog.json文件按治疗领域筛选药品,或通过registry.jsonl查询特定药品的剂型与包装信息。品牌目录中的Markdown文件可直接读取,其中结构化的患者手册与产品特性摘要支持自然语言处理任务。数据集遵循CC BY 4.0许可协议,允许在注明来源的前提下用于学术研究、商业分析及公共卫生应用场景。
背景与挑战
背景概述
在医药信息学领域,公开、结构化的药品数据对于提升医疗透明度、支持临床决策及促进学术研究具有关键意义。drugbase-gr数据集由研究人员D. Papadopoulos于2026年构建,基于希腊国家药品组织(ΕΟΦ)和欧洲药品管理局(EMA)的官方监管文件,系统整合了希腊市场上所有授权药品的完整信息,包括患者信息手册(ΦΟΧ)、产品特性概要(SmPC)及相关元数据。该数据集旨在为患者、药剂师和研究者提供免费开放的药品信息检索服务,其覆盖超过15,000种注册药品,涉及2,000余种活性物质,显著推动了希腊语医药文本的自然语言处理与知识发现研究。
当前挑战
该数据集致力于解决医药信息检索与知识管理中的核心挑战,即如何从非结构化的监管文档中提取并标准化多语言、多格式的药品数据,以支持精准查询与跨领域分析。在构建过程中,面临的主要困难包括:处理希腊语专业术语的语义解析与归一化,确保从原始PDF或文本中准确分割并标注文档章节(如ΦΟΧ的6个欧盟标准部分);整合来自不同监管机构(ΕΟΦ与EMA)的数据源时,需解决格式差异与信息不一致性问题;此外,维护数据的时效性与完整性,以反映药品市场的动态更新,亦是一项持续的技术与管理挑战。
常用场景
经典使用场景
在药物信息学与公共卫生研究领域,drugbase-gr数据集为希腊市场授权药品的全面结构化语料库,其经典使用场景在于支持药物信息的精准检索与分析。研究者可依据活性成分、治疗类别或制造商等维度,系统筛选特定药物品牌,例如通过ATC代码快速定位心血管或抗肿瘤药物,从而构建面向患者、药师及学术界的开放式药物知识平台。
解决学术问题
该数据集有效解决了药物监管数据分散、非结构化导致的学术研究瓶颈。通过整合患者信息手册与产品特性摘要等官方文件,并以机器可读格式呈现,它支持药物安全监测、疗效比较及用药行为分析等研究。其结构化设计促进了跨语言药物信息标准化,为希腊乃至欧洲的药物流行病学与卫生政策评估提供了可靠数据基础。
衍生相关工作
基于drugbase-gr数据集,已衍生出多项经典研究工作,包括希腊本土药物市场结构分析、仿制药产业评估以及多语言药物信息对齐系统开发。这些工作利用数据集的标准化ATC分类与制造商信息,深入探讨了区域药品供应链特征,并为构建跨国家药物知识图谱提供了关键语料,推动了欧洲药物信息互联互通的研究进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作