ruslan/bioleaflets-biomedical-ner
收藏数据集卡片:BioLeaflets 数据集
数据集描述
数据集摘要
BioLeaflets 是一个用于数据到文本生成的生物医学数据集。它包含1,336个在欧洲授权的药品说明书,这些说明书是通过抓取欧洲药品管理局(EMA)网站获得的。药品说明书包含帮助患者安全合理使用产品的信息。该数据集包含截至2021年1月通过欧洲集中程序授权的绝大多数(约90%)药品。
支持的任务和排行榜
BioLeaflets 提出了一个生物医学领域的条件生成任务(数据到文本):给定一个有序的实体集合作为源,目标是生成一个多句段落。成功的生成需要模型从语料库中学习特定的语法、术语和写作风格。此外,该数据集还可用于命名实体识别任务:给定文本,检测医疗实体。数据集还支持专注于生物医学数据的语言建模任务。
语言
单语种 - 英语。
数据集结构
数据实例
每个实例(说明书)都有一个唯一的ID、URL、产品名称和清晰描述药品的文本信息。每个文档包含六个部分:
- 产品是什么以及它的用途
- 使用产品前需要了解的信息
- 产品使用说明
- 可能的副作用
- 产品储存条件
- 其他信息
每个部分都表示为一个字典,包含Title、Section_Content和Entity_Recognition作为键。每个部分的内容都进行了小写处理,并通过将所有特殊字符视为单独的标记进行分词。
数据字段
ID:表示说明书唯一ID的字符串URL:包含欧洲药品管理局(EMA)网站上文章链接的字符串Product Name:药品名称的字符串Full Content:包含URL上可用文章全内容的字符串Section 1:包含第1部分内容和相关医疗实体的字典Section 2:包含第2部分内容和相关医疗实体的字典Section 3:包含第3部分内容和相关医疗实体的字典Section 4:包含第4部分内容和相关医疗实体的字典Section 5:包含第5部分内容和相关医疗实体的字典Section 6:包含第6部分内容和相关医疗实体的字典
数据分割
数据集被随机分为训练集(80%)、开发集(10%)和测试集(10%)。删除了重复项。
数据集创建
策划理由
引入一个新的生物医学数据集(BioLeaflets),该数据集可以作为生物医学文本生成模型的基准。BioLeaflets 提出了一个条件生成任务:给定一个有序的实体集合作为源,目标是生成一个多句段落。
源数据
初始数据收集和规范化
数据集是通过抓取欧洲药品管理局(EMA)网站获得的。每个说明书都有一个与之关联的EMA网站上文章的URL。
源语言生产者
具有领域知识的标签专家生成了事实信息。
注释
注释过程
为了创建数据到文本生成所需的输入,我们通过利用命名实体识别(NER)来增强每个文档。我们结合了两个NER框架:Amazon Comprehend Medical(商业)和Stanford Stanza(开源)。此外,我们将所有数字视为实体,并将药品名称作为第一个实体添加。
注释者
机器生成:最先进的命名实体识别(NER)模型的集合。
使用数据的注意事项
数据集的社会影响
该数据集的目的是帮助开发能够自动生成长段落文本的模型,并促进生物医学领域NLP模型的发展。该数据集在D2T生成方面面临的主要挑战是多句段落和多部分目标文本、小样本量、专业医学词汇和语法。
偏见的讨论
药品说明书是为在欧洲联盟(EU)批准的药品发布的。它们包含在药品包装中,并包含帮助患者安全合理使用产品的信息。数据集代表由标签专家生成并发布前验证的事实信息。因此,数据集中不存在任何类型的偏见。药品说明书要求以清晰易懂的方式编写。
其他已知限制
[不适用]
附加信息
数据集策展人
数据最初由Ruslan Yermakov、Nicholas Drago和Angelo Ziletti在Bayer AG(决策科学和高级分析部门)收集。代码已在GitHub链接上公开发布。
许可信息
BioLeaflets 数据集在Apache-2.0许可证下发布。
引用信息
@inproceedings{yermakov-etal-2021-biomedical, title = "Biomedical Data-to-Text Generation via Fine-Tuning Transformers", author = "Yermakov, Ruslan and Drago, Nicholas and Ziletti, Angelo", booktitle = "Proceedings of the 14th International Conference on Natural Language Generation", month = aug, year = "2021", address = "Aberdeen, Scotland, UK", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.inlg-1.40", pages = "364--370", abstract = "Data-to-text (D2T) generation in the biomedical domain is a promising - yet mostly unexplored - field of research. Here, we apply neural models for D2T generation to a real-world dataset consisting of package leaflets of European medicines. We show that fine-tuned transformers are able to generate realistic, multi-sentence text from data in the biomedical domain, yet have important limitations. We also release a new dataset (BioLeaflets) for benchmarking D2T generation models in the biomedical domain.", }
贡献
感谢@wingedRuslan添加此数据集。



