BioLeaflets

github2021-12-20 更新2024-05-31 收录

下载链接：

https://github.com/bayer-science-for-a-better-life/data2text-bioleaflets

下载链接

链接失效反馈

官方服务：

资源简介：

BioLeaflets数据集是一个包含1336个欧洲授权药品包装说明书的语料库，通过抓取欧洲药品管理局（EMA）网站获得。每个文档包含六个部分：产品介绍及用途、使用前须知、使用说明、可能的副作用、存储条件和其他信息。该数据集用于生物医学领域数据到文本生成的基准测试。

The BioLeaflets dataset is a corpus consisting of 1336 package inserts of EU-authorised medicinal products, acquired via web scraping the official website of the European Medicines Agency (EMA). Each document encompasses six sections: product introduction and indications, pre-use precautions, instructions for use, potential side effects, storage conditions, and other information. This dataset serves as a benchmark for data-to-text generation tasks in the biomedical domain.

创建时间：

2021-05-05

原始信息汇总

生物医学数据到文本生成数据集

数据集概述

名称: BioLeaflets
描述: BioLeaflets 数据集包含 1336 份欧洲授权药品的说明书，通过抓取欧洲药品管理局（EMA）网站获得。每份说明书包含六个部分：1) 产品介绍及用途 2) 使用前须知 3) 使用说明 4) 可能的副作用 5) 储存条件 6) 其他信息。
目的: 用于生成药品说明书的结构化信息。
可用性: 数据集公开可用，链接在 Zenodo平台。

数据处理

数据增强: 使用命名实体识别（NER）框架 Stanza 和 AWS Comprehend 对文档进行增强。
数据格式: 数据集格式化为包含六个文件的目录：train.source, train.target, val.source, val.target, test.source, test.target。

方法

模型: 使用 T5 和 BART 模型进行序列到序列（seq2seq）设置的微调。
微调: 使用 finetune_trainer.py 脚本进行模型微调，该脚本改编自 HuggingFace transformers 库。

评估

评估指标: 默认使用 ROUGE 指标。
评估脚本: 使用 run_eval.py 脚本进行评估。

结果

生成示例: 在 results/ 目录中可以找到不同模型生成的 BioLeaflets 测试数据集的示例。

搜集汇总

数据集介绍

构建方式

BioLeaflets数据集的构建基于欧洲药品管理局（EMA）网站上公开的药品说明书，共收集了1336份药品说明书。这些说明书包含了药品的六个关键部分：药品用途、使用前须知、使用说明、可能的副作用、存储条件及其他信息。为了生成结构化数据，研究团队使用了Stanza和AWS Comprehend等命名实体识别（NER）工具对文本进行增强处理，从而为数据到文本生成（D2T）任务提供了必要的输入。

使用方法

使用BioLeaflets数据集时，用户需将数据格式化为六个文件，分别对应训练、验证和测试的输入与目标输出。通过调用`finetune_trainer.py`脚本，用户可以对T5和BART等预训练模型进行微调，以生成药品说明书。生成结果可通过`run_eval.py`脚本进行评估，默认使用ROUGE指标。用户还可根据需求调整训练参数，如学习率、批量大小等，以优化模型性能。

背景与挑战

背景概述

BioLeaflets数据集由Ruslan Yermakov、Nicholas Drago和Angelo Ziletti等研究人员于2021年创建，旨在推动生物医学领域的数据到文本生成（Data-to-Text Generation, D2T）研究。该数据集包含1336份欧洲药品说明书，这些说明书通过欧洲药品管理局（EMA）网站爬取获得。每份说明书包含六个部分，涵盖了药品的基本信息、使用说明、副作用等内容。BioLeaflets的发布为生物医学领域的文本生成模型提供了基准测试平台，推动了该领域的研究进展。

当前挑战

BioLeaflets数据集在构建和应用过程中面临多重挑战。首先，原始数据缺乏结构化信息，研究人员需要通过命名实体识别（NER）技术从非结构化文本中提取关键信息，以生成模型所需的输入数据。其次，生物医学领域的文本生成要求高度的准确性和专业性，模型不仅需要生成流畅的文本，还需确保内容的科学性和事实准确性。此外，由于药品说明书的复杂性和多样性，模型在处理多句子生成任务时，容易产生信息遗漏或错误，这对模型的鲁棒性和泛化能力提出了更高要求。

常用场景

经典使用场景

BioLeaflets数据集在生物医学领域的文本生成任务中展现了其独特的价值。通过利用欧洲药品管理局（EMA）授权的药品说明书，该数据集为研究者提供了一个丰富的语料库，用于训练和评估数据到文本生成模型。特别是在使用T5和BART等先进语言模型进行微调时，BioLeaflets能够生成流畅且基于事实的多句子文本，为生物医学领域的自然语言生成研究提供了重要支持。

解决学术问题

BioLeaflets数据集解决了生物医学领域数据到文本生成中的关键问题。传统方法在处理结构化数据生成自然语言文本时，往往面临数据稀缺和模型泛化能力不足的挑战。通过引入1336份药品说明书，并结合命名实体识别（NER）技术，BioLeaflets为研究者提供了一个标准化的基准数据集，显著提升了模型在生成准确、连贯文本方面的能力，推动了该领域的研究进展。

实际应用

在实际应用中，BioLeaflets数据集为药品说明书的自动生成提供了有力支持。通过将结构化数据转化为易于理解的文本，该数据集能够帮助制药公司和医疗机构快速生成符合规范的药品说明书，减少人工编写的工作量，并确保信息的准确性和一致性。此外，该数据集还可用于开发智能医疗助手，帮助患者更好地理解药品的使用方法和注意事项。

数据集最近研究