drugbase-gr
收藏drugbase-gr 数据集概述
数据集简介
drugbase-gr 是一个结构化、开放的语料库,包含希腊所有经授权的药品。数据源自希腊国家药品组织(ΕΟΦ)和欧洲药品管理局(EMA)的官方监管文件,涵盖完整的希腊市场信息,包括患者信息传单(ΦΟΧ)、产品特性摘要(SmPC)以及完整的药品注册元数据,所有内容均为希腊语。该数据集旨在为患者、药剂师和研究人员提供免费、开放的药品信息搜索支持。
核心统计
- 注册药品数量:15,522
- 品牌名称数量:5,018
- 活性物质数量:2,103
- ATC代码数量:1,468
- 文档总数:13,445
- 文档覆盖率:97.8%
文档构成
| 类型 | 描述 | 数量 |
|---|---|---|
| ΦΟΧ — Φύλλο Οδηγιών Χρήσης | 患者信息传单 | 5,810 |
| SmPC — Περίληψη Χαρακτηριστικών Προϊόντος | 产品特性摘要 | 5,546 |
| Product Information | 合并的PIL + SmPC(EMA格式) | 1,424 |
| Labelling | 包装标签文本 | 665 |
| 总计 | 13,445 |
每个患者信息传单(PIL)被解析为6个标准的欧盟章节。每个产品特性摘要(SmPC)被解析为14个结构化的子章节。
治疗类别分布
| ATC代码 | 类别 | 品牌数量 | 占比 |
|---|---|---|---|
| N | 神经系统 | 684 | 13.6% |
| C | 心血管系统 | 673 | 13.4% |
| L | 抗肿瘤药及免疫调节剂 | 672 | 13.4% |
| A | 消化道及代谢 | 589 | 11.7% |
| J | 全身用抗感染药 | 586 | 11.7% |
| B | 血液及造血器官 | 413 | 8.2% |
| R | 呼吸系统 | 264 | 5.3% |
| G | 泌尿生殖系统及性激素 | 229 | 4.6% |
| M | 肌肉骨骼系统 | 214 | 4.3% |
| S | 感觉器官 | 212 | 4.2% |
| D | 皮肤病用药 | 192 | 3.8% |
| H | 全身用激素制剂 | 156 | 3.1% |
| V | 其他 | 116 | 2.3% |
| P | 抗寄生虫药 | 13 | 0.3% |
主要生产商
| 排名 | 生产商 | 国家 | 产品数量 |
|---|---|---|---|
| 1 | DEMO ABEE | 希腊 | 580 |
| 2 | RAFARM A.E.B.E. | 希腊 | 449 |
| 3 | ELPEN AE | 希腊 | 401 |
| 4 | ΒΙΑΝΕΞ Α.Ε. | 希腊 | 396 |
| 5 | BENNETT ΦΑΡΜΑΚΕΥΤΙΚΗ Α.Ε. | 希腊 | 290 |
| 6 | UNI-PHARMA ΑΒΕΕ | 希腊 | 278 |
| 7 | NOVARTIS EUROPHARM LIMITED | 爱尔兰 | 273 |
| 8 | VOCATE ΦΑΡΜΑΚΕΥΤΙΚΗ Α.Ε. | 希腊 | 262 |
| 9 | ACCORD HEALTHCARE S.L.U. | 西班牙 | 224 |
| 10 | PFIZER EUROPE MA EEIG | 比利时 | 179 |
| 11 | SANDOZ PHARMACEUTICALS D.D. | 斯洛文尼亚 | 160 |
| 12 | MYLAN PHARMACEUTICALS LIMITED | 爱尔兰 | 149 |
前6大生产商均为希腊本土公司,共同持有超过2,400种产品的授权,这反映了希腊仿制药产业规模庞大且成熟。希腊生产商占据了市场上大多数授权SKU。
仓库结构
drugbase-gr/ ├── catalog.json # 可过滤索引:每个品牌一个条目(2.7 MB) ├── registry.jsonl # 完整药品注册表:每个包装/SKU一行(20 MB) ├── brands_md/ # 5,018个Markdown文件,每个品牌一个(总计约906 MB) └── LICENSE # CC BY 4.0许可证
catalog.json — 用于搜索和过滤的品牌索引
构建搜索界面和过滤用户界面的主要入口。每个品牌一个JSON对象,包含品牌名称、Markdown文件路径、活性物质、ATC代码、上市许可持有人、包装形式、药品数量、文档数量以及文档存在性标志等字段。
registry.jsonl — 药品注册表
每个授权的包装/SKU对应一行JSON(共15,522行)。字段包括药品ID、品牌名称、活性物质、ATC代码、剂型、规格、包装、上市许可持有人、市场状态、条形码、定价以及指向已解析文档语料库的文档引用。
brands_md/ — 结构化的希腊语药品传单
每个品牌一个Markdown文件(例如 brands_md/ELIQUIS.md)。每个文件包含:
- YAML前言 — 品牌名称、ATC代码、活性物质、上市许可持有人、包装数量、文档数量。
- 包装表格 — 所有授权的药品剂型、规格和包装变体及其状态。
- 患者信息传单(ΦΟΧ) — 完整的希腊语文本,按6个标准欧盟章节结构化。
- 产品特性摘要(SmPC) — 完整的希腊语文本,按14个子章节结构化,涵盖适应症、用法用量、禁忌症、警告、相互作用、药理学等。
- 来源归属 — ΕΟΦ 或 EMA。
许可证
数据集采用 CC BY 4.0 许可证。允许出于任何目的(包括商业用途)自由使用、分享和改编,但需注明出处。
引用方式:Papadopoulos, D. (2026). drugbase-gr: A structured corpus of authorized pharmaceutical products in Greece. GitHub. https://github.com/lighteternal/drugbase-gr




