five

ruslan/bioleaflets-biomedical-ner

收藏
Hugging Face2023-02-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ruslan/bioleaflets-biomedical-ner
下载链接
链接失效反馈
官方服务:
资源简介:
BioLeaflets是一个用于生物医学领域数据到文本生成的数据集,包含1336份欧洲药品的包装说明书,这些说明书是从欧洲药品管理局(EMA)网站上抓取的。数据集支持条件生成任务、命名实体识别任务和语言建模任务。数据集为单语种(英语),并且已经随机分割为训练集、开发集和测试集。每个实例(说明书)包含唯一ID、URL、产品名称和描述药品的文本信息。每个文档包含六个部分:产品及其用途、使用前须知、使用说明、可能的副作用、存储条件和其他信息。
提供机构:
ruslan
原始信息汇总

数据集卡片:BioLeaflets 数据集

数据集描述

数据集摘要

BioLeaflets 是一个用于数据到文本生成的生物医学数据集。它包含1,336个在欧洲授权的药品说明书,这些说明书是通过抓取欧洲药品管理局(EMA)网站获得的。药品说明书包含帮助患者安全合理使用产品的信息。该数据集包含截至2021年1月通过欧洲集中程序授权的绝大多数(约90%)药品。

支持的任务和排行榜

BioLeaflets 提出了一个生物医学领域的条件生成任务(数据到文本):给定一个有序的实体集合作为源,目标是生成一个多句段落。成功的生成需要模型从语料库中学习特定的语法、术语和写作风格。此外,该数据集还可用于命名实体识别任务:给定文本,检测医疗实体。数据集还支持专注于生物医学数据的语言建模任务。

语言

单语种 - 英语。

数据集结构

数据实例

每个实例(说明书)都有一个唯一的ID、URL、产品名称和清晰描述药品的文本信息。每个文档包含六个部分:

  1. 产品是什么以及它的用途
  2. 使用产品前需要了解的信息
  3. 产品使用说明
  4. 可能的副作用
  5. 产品储存条件
  6. 其他信息

每个部分都表示为一个字典,包含Title、Section_Content和Entity_Recognition作为键。每个部分的内容都进行了小写处理,并通过将所有特殊字符视为单独的标记进行分词。

数据字段

  • ID:表示说明书唯一ID的字符串
  • URL:包含欧洲药品管理局(EMA)网站上文章链接的字符串
  • Product Name:药品名称的字符串
  • Full Content:包含URL上可用文章全内容的字符串
  • Section 1:包含第1部分内容和相关医疗实体的字典
  • Section 2:包含第2部分内容和相关医疗实体的字典
  • Section 3:包含第3部分内容和相关医疗实体的字典
  • Section 4:包含第4部分内容和相关医疗实体的字典
  • Section 5:包含第5部分内容和相关医疗实体的字典
  • Section 6:包含第6部分内容和相关医疗实体的字典

数据分割

数据集被随机分为训练集(80%)、开发集(10%)和测试集(10%)。删除了重复项。

数据集创建

策划理由

引入一个新的生物医学数据集(BioLeaflets),该数据集可以作为生物医学文本生成模型的基准。BioLeaflets 提出了一个条件生成任务:给定一个有序的实体集合作为源,目标是生成一个多句段落。

源数据

初始数据收集和规范化

数据集是通过抓取欧洲药品管理局(EMA)网站获得的。每个说明书都有一个与之关联的EMA网站上文章的URL。

源语言生产者

具有领域知识的标签专家生成了事实信息。

注释

注释过程

为了创建数据到文本生成所需的输入,我们通过利用命名实体识别(NER)来增强每个文档。我们结合了两个NER框架:Amazon Comprehend Medical(商业)和Stanford Stanza(开源)。此外,我们将所有数字视为实体,并将药品名称作为第一个实体添加。

注释者

机器生成:最先进的命名实体识别(NER)模型的集合。

使用数据的注意事项

数据集的社会影响

该数据集的目的是帮助开发能够自动生成长段落文本的模型,并促进生物医学领域NLP模型的发展。该数据集在D2T生成方面面临的主要挑战是多句段落和多部分目标文本、小样本量、专业医学词汇和语法。

偏见的讨论

药品说明书是为在欧洲联盟(EU)批准的药品发布的。它们包含在药品包装中,并包含帮助患者安全合理使用产品的信息。数据集代表由标签专家生成并发布前验证的事实信息。因此,数据集中不存在任何类型的偏见。药品说明书要求以清晰易懂的方式编写。

其他已知限制

[不适用]

附加信息

数据集策展人

数据最初由Ruslan Yermakov、Nicholas Drago和Angelo Ziletti在Bayer AG(决策科学和高级分析部门)收集。代码已在GitHub链接上公开发布。

许可信息

BioLeaflets 数据集在Apache-2.0许可证下发布。

引用信息

@inproceedings{yermakov-etal-2021-biomedical, title = "Biomedical Data-to-Text Generation via Fine-Tuning Transformers", author = "Yermakov, Ruslan and Drago, Nicholas and Ziletti, Angelo", booktitle = "Proceedings of the 14th International Conference on Natural Language Generation", month = aug, year = "2021", address = "Aberdeen, Scotland, UK", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.inlg-1.40", pages = "364--370", abstract = "Data-to-text (D2T) generation in the biomedical domain is a promising - yet mostly unexplored - field of research. Here, we apply neural models for D2T generation to a real-world dataset consisting of package leaflets of European medicines. We show that fine-tuned transformers are able to generate realistic, multi-sentence text from data in the biomedical domain, yet have important limitations. We also release a new dataset (BioLeaflets) for benchmarking D2T generation models in the biomedical domain.", }

贡献

感谢@wingedRuslan添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作