ruslan/bioleaflets-biomedical-ner

Name: ruslan/bioleaflets-biomedical-ner
Creator: ruslan
Published: 2023-02-08 20:34:51
License: 暂无描述

Hugging Face2023-02-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ruslan/bioleaflets-biomedical-ner

下载链接

链接失效反馈

官方服务：

资源简介：

BioLeaflets是一个用于生物医学领域数据到文本生成的数据集，包含1336份欧洲药品的包装说明书，这些说明书是从欧洲药品管理局（EMA）网站上抓取的。数据集支持条件生成任务、命名实体识别任务和语言建模任务。数据集为单语种（英语），并且已经随机分割为训练集、开发集和测试集。每个实例（说明书）包含唯一ID、URL、产品名称和描述药品的文本信息。每个文档包含六个部分：产品及其用途、使用前须知、使用说明、可能的副作用、存储条件和其他信息。

提供机构：

ruslan

原始信息汇总

数据集卡片：BioLeaflets 数据集

数据集描述

数据集摘要

BioLeaflets 是一个用于数据到文本生成的生物医学数据集。它包含1,336个在欧洲授权的药品说明书，这些说明书是通过抓取欧洲药品管理局（EMA）网站获得的。药品说明书包含帮助患者安全合理使用产品的信息。该数据集包含截至2021年1月通过欧洲集中程序授权的绝大多数（约90%）药品。

支持的任务和排行榜

BioLeaflets 提出了一个生物医学领域的条件生成任务（数据到文本）：给定一个有序的实体集合作为源，目标是生成一个多句段落。成功的生成需要模型从语料库中学习特定的语法、术语和写作风格。此外，该数据集还可用于命名实体识别任务：给定文本，检测医疗实体。数据集还支持专注于生物医学数据的语言建模任务。

语言

单语种 - 英语。

数据集结构

数据实例

每个实例（说明书）都有一个唯一的ID、URL、产品名称和清晰描述药品的文本信息。每个文档包含六个部分：

产品是什么以及它的用途
使用产品前需要了解的信息
产品使用说明
可能的副作用
产品储存条件
其他信息

每个部分都表示为一个字典，包含Title、Section_Content和Entity_Recognition作为键。每个部分的内容都进行了小写处理，并通过将所有特殊字符视为单独的标记进行分词。

数据字段

ID：表示说明书唯一ID的字符串
URL：包含欧洲药品管理局（EMA）网站上文章链接的字符串
Product Name：药品名称的字符串
Full Content：包含URL上可用文章全内容的字符串
Section 1：包含第1部分内容和相关医疗实体的字典
Section 2：包含第2部分内容和相关医疗实体的字典
Section 3：包含第3部分内容和相关医疗实体的字典
Section 4：包含第4部分内容和相关医疗实体的字典
Section 5：包含第5部分内容和相关医疗实体的字典
Section 6：包含第6部分内容和相关医疗实体的字典

数据分割

数据集被随机分为训练集（80%）、开发集（10%）和测试集（10%）。删除了重复项。

数据集创建

策划理由

引入一个新的生物医学数据集（BioLeaflets），该数据集可以作为生物医学文本生成模型的基准。BioLeaflets 提出了一个条件生成任务：给定一个有序的实体集合作为源，目标是生成一个多句段落。

源数据

初始数据收集和规范化

数据集是通过抓取欧洲药品管理局（EMA）网站获得的。每个说明书都有一个与之关联的EMA网站上文章的URL。

源语言生产者

具有领域知识的标签专家生成了事实信息。

注释

注释过程

为了创建数据到文本生成所需的输入，我们通过利用命名实体识别（NER）来增强每个文档。我们结合了两个NER框架：Amazon Comprehend Medical（商业）和Stanford Stanza（开源）。此外，我们将所有数字视为实体，并将药品名称作为第一个实体添加。

注释者

机器生成：最先进的命名实体识别（NER）模型的集合。

使用数据的注意事项

数据集的社会影响

该数据集的目的是帮助开发能够自动生成长段落文本的模型，并促进生物医学领域NLP模型的发展。该数据集在D2T生成方面面临的主要挑战是多句段落和多部分目标文本、小样本量、专业医学词汇和语法。

偏见的讨论

药品说明书是为在欧洲联盟（EU）批准的药品发布的。它们包含在药品包装中，并包含帮助患者安全合理使用产品的信息。数据集代表由标签专家生成并发布前验证的事实信息。因此，数据集中不存在任何类型的偏见。药品说明书要求以清晰易懂的方式编写。

其他已知限制

[不适用]

附加信息

数据集策展人

数据最初由Ruslan Yermakov、Nicholas Drago和Angelo Ziletti在Bayer AG（决策科学和高级分析部门）收集。代码已在GitHub链接上公开发布。

许可信息

BioLeaflets 数据集在Apache-2.0许可证下发布。

引用信息

@inproceedings{yermakov-etal-2021-biomedical, title = "Biomedical Data-to-Text Generation via Fine-Tuning Transformers", author = "Yermakov, Ruslan and Drago, Nicholas and Ziletti, Angelo", booktitle = "Proceedings of the 14th International Conference on Natural Language Generation", month = aug, year = "2021", address = "Aberdeen, Scotland, UK", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.inlg-1.40", pages = "364--370", abstract = "Data-to-text (D2T) generation in the biomedical domain is a promising - yet mostly unexplored - field of research. Here, we apply neural models for D2T generation to a real-world dataset consisting of package leaflets of European medicines. We show that fine-tuned transformers are able to generate realistic, multi-sentence text from data in the biomedical domain, yet have important limitations. We also release a new dataset (BioLeaflets) for benchmarking D2T generation models in the biomedical domain.", }

贡献

感谢@wingedRuslan添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集