MedEASi
收藏arXiv2023-02-18 更新2024-06-21 收录
下载链接:
https://github.com/Chandrayee/CTRL-SIMP
下载链接
链接失效反馈官方服务:
资源简介:
MedEASi是由斯坦福大学等研究机构创建的医学文本简化数据集,包含1979对专家和简单文本。数据集通过专家、非专家和AI的协作注释,支持四种文本转换:详述、替换、删除和插入,以实现文本的可控简化。数据集涵盖广泛的医学子领域,旨在提高医学文本的可理解性和可访问性,解决医学文本复杂性问题。
MedEASi is a medical text simplification dataset developed by Stanford University and other research institutions, which comprises 1979 pairs of expert medical texts and their simplified plain-language counterparts. The dataset is constructed through collaborative annotation involving medical domain experts, non-expert users and AI agents, and supports four core text transformation operations: elaboration, replacement, deletion and insertion, to enable controllable medical text simplification. Spanning a wide range of medical subfields, this dataset is designed to enhance the comprehensibility and accessibility of medical texts, and address the complexity challenges associated with medical textual materials.
提供机构:
斯坦福大学
创建时间:
2023-02-18
搜集汇总
数据集介绍

构建方式
MedEASi数据集的构建方式涉及专家、外行和AI的三方协作。首先,研究者选择了两个公开可用的平行语料库:SIMPWIKI和MSD,这两个语料库包含了专家级医疗文本和其简化版本。然后,研究者根据文本的复杂性,将标注任务分配给医学专家和外行众包工作者。外行工作者在标注过程中可以选择由AI生成的两个可能标注之一。而医学专家则直接提供正确的标注。最后,研究者通过Dawid-Skene聚合方法对标注结果进行处理,确保标注质量。此外,研究者还使用了SpanBERT模型来识别简单文本中与专家文本中实体相关的跨度。
特点
MedEASi数据集的特点在于其精细的标注和可控性。该数据集包含了四种文本转换类型:详细说明、替换、删除和插入。这种精细的标注使得模型能够在词或短语级别上进行可控的简化。此外,MedEASi数据集涵盖了广泛的医疗子领域,如传染病、心脏病学、神经病学等,并且包含了3,909个专家文本中的唯一医疗概念和3,304个简单文本中的唯一医疗概念。
使用方法
MedEASi数据集的使用方法主要包括两个方面:一是用于训练可控的文本简化模型,二是用于评估简化文本的质量。研究者使用T5-large模型作为基础模型,并通过多角度训练方法对其进行微调,以实现可控的文本简化。多角度训练方法允许用户选择要简化的内容,并指定所需的编辑类型。此外,研究者还使用SARI、ROUGE-L和FKGL等指标来评估简化文本的质量。
背景与挑战
背景概述
在医疗健康领域,提升健康素养对于促进患者自我护理、及时沟通健康问题以及降低住院和死亡率至关重要。然而,低数字健康素养使得消费者难以辨别可靠与不可靠的医学信息,从而加速了医疗误信息的传播。自动化的医疗文本简化技术有望缓解这一问题,但目前该领域的数据集和开源库有限。Med-EASi数据集的创建旨在解决这一问题,它是一个由专家、外行和人工智能协作标注的精细标注数据集,用于监督简化的短篇医疗文本。该数据集包含四种文本转换的标记:详细阐述、替换、删除和插入,以便于对文本简化进行控制。通过在T5大型模型上微调四种不同风格的输入输出组合,研究人员开发了两种无控制版本和两种可控版本的控制简化模型。Med-EASi数据集对医疗文本简化领域的研究产生了重要影响,为人工智能辅助的医疗文本简化研究提供了基础。
当前挑战
Med-EASi数据集面临的挑战包括:1)解决领域问题,即如何使医疗文本更易于理解,提高健康素养;2)构建过程中遇到的挑战,如如何招募具有领域专业知识的标注者,以及如何评估简化质量。为了克服这些挑战,研究人员采用了专家、外行和人工智能协作标注的方法,并开发了两种可控简化模型,以实现用户对文本简化的选择性控制。此外,研究人员还使用了多种角度的训练方法,包括位置感知和位置无关,以提高模型的学习效果。尽管取得了这些进展,但Med-EASi数据集仍然面临着进一步提高模型简化质量和可控性的挑战,以及如何更好地利用人工智能技术来辅助医疗文本简化。
常用场景
经典使用场景
MedEASi 数据集主要应用于医疗文本简化任务,其精细的标注和可控性特点使其在医疗信息传播和患者教育方面具有重要意义。通过标注四种文本转换类型:详细阐述、替换、删除和插入,MedEASi 数据集使得模型能够根据用户的指令进行文本简化,从而提高医疗文本的可读性和可理解性。此外,MedEASi 还可用于评估和比较不同文本简化模型的效果,以及研究文本简化的理论和实践问题。
实际应用
MedEASi 数据集的实际应用场景包括:1. 医疗信息传播:通过简化医疗文本,使得医疗信息更易于普通民众理解,提高公众健康素养。2. 患者教育:为患者提供简化的医疗说明和解释,帮助他们更好地理解自身病情和治疗方案。3. 医疗文本生成:利用 MedEASi 训练的模型可以生成易于理解的医疗文本,例如医疗报告、药品说明等。4. 医疗文本翻译:将专业医疗文本翻译成易于理解的语言,方便非专业人士阅读和理解。
衍生相关工作
MedEASi 数据集衍生了多个相关研究,包括可控文本简化模型、文本生成模型等。例如,基于 MedEASi 数据集,研究人员开发了 ctrlSIM 和 ctrlSIMip 两种可控文本简化模型,这些模型能够根据用户的指令进行文本简化,并取得了较好的效果。此外,MedEASi 的精细标注和可控性特点也为其他领域的文本简化研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



