five

liliya-makhmutova/medical_texts_simplification

收藏
Hugging Face2024-03-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/liliya-makhmutova/medical_texts_simplification
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Medical texts simplification,主要用于文本生成任务,涉及医学领域的文本简化。数据集包含30个三元组(约800个句子),每个三元组包括原始文本、人工简化文本和ChatGPT简化文本。原始数据来源于Medical Notes Classification dataset,涵盖了五个临床领域的医学笔记:胃肠病学、神经学、骨科、放射学和泌尿学。数据集的语言为英语,许可证为CC-BY-NC-4.0,数据规模小于1K。数据集的结构包括文件编号、行号、原始文本、人工简化文本、ChatGPT简化文本和相关的图像文件。数据集的创建动机是为了解决患者难以理解医学文本的问题,通过简化文本帮助患者更好地理解其医疗记录。数据集的创建过程包括预处理原始文本、人工简化文本以及使用ChatGPT生成简化文本。数据集的使用建议包括不应在没有医疗专业人员监督的情况下用于患者治疗,且不应用于商业用途。

该数据集名为Medical texts simplification,主要用于文本生成任务,涉及医学领域的文本简化。数据集包含30个三元组(约800个句子),每个三元组包括原始文本、人工简化文本和ChatGPT简化文本。原始数据来源于Medical Notes Classification dataset,涵盖了五个临床领域的医学笔记:胃肠病学、神经学、骨科、放射学和泌尿学。数据集的语言为英语,许可证为CC-BY-NC-4.0,数据规模小于1K。数据集的结构包括文件编号、行号、原始文本、人工简化文本、ChatGPT简化文本和相关的图像文件。数据集的创建动机是为了解决患者难以理解医学文本的问题,通过简化文本帮助患者更好地理解其医疗记录。数据集的创建过程包括预处理原始文本、人工简化文本以及使用ChatGPT生成简化文本。数据集的使用建议包括不应在没有医疗专业人员监督的情况下用于患者治疗,且不应用于商业用途。
提供机构:
liliya-makhmutova
原始信息汇总

数据集卡片:医学文本简化

数据集描述

基本信息

  • 任务类别: 文本生成
  • 语言: 英语
  • 标签: 医学, 简化
  • 名称: 医学文本简化
  • 大小类别: n<1K
  • 许可证: CC-BY-NC-4.0

数据集结构

  • file_number (int): 原始数据集中的文件名(数字)
  • line_number (int): 原始数据集中的句子编号
  • original (str): 原始文本的句子(预处理后)
  • human_simplification (str): 人工简化的文本句子
  • chatgpt_simplification (str): ChatGPT简化的文本句子
  • images (list[str]): 与句子相关的图像文件名列表,有助于理解医学文本

数据集详情

  • 数据集组成: 包含30个三元组(约800个句子),包括原始文本、人工和ChatGPT简化的文本。
  • 原始数据集来源: 医学笔记分类数据集,包含来自五个临床领域的医学笔记:胃肠病学、神经学、骨科、放射学和泌尿学,共1239个文本。

数据集创建

  • 创建动机: 医学文本对患者来说难以理解,可能导致健康问题。患者通常无法访问或理解其医疗记录,导致患者在康复过程中的部分排除和次优结果。医学文本通常包含大量专业术语、缩写、缺乏协调和解释,使得理解因果关系变得困难。
  • 数据收集和处理: 原始文本经过预处理,包括去除HTML标签、修正小错误、按句子分割并编号。简化文本由非英语母语者手动创建,使用开放资源如医学论文、手术视频和简化解释的医学文章。ChatGPT简化文本通过OpenAI聊天接口生成,使用提示“请简化文本以便非专业人士理解”。

使用建议

  • 使用限制: 不应在无医学专业人员监督的情况下用于任何形式的病人治疗。
  • 商业用途限制: 数据集不可用于商业用途。
  • 模型训练风险: 如果模型用于简化任务,可能产生幻觉。

ChatGPT输出分析

  • 优点:
    1. 能够根据上下文披露缩写。
    2. 具有良好的重写能力,包括理解和简化医学术语。
  • 缺点:
    1. 在长文本上倾向于生成摘要而非简化。
    2. 有时会编造事实,这在医学领域非常危险。
    3. 缺乏常识推理或医学“知识”。
    4. 可能遗漏重要事实或过度简化。
    5. 倾向于以任何方式重写文本,有时会改变原意。
    6. 有时使用不恰当的词汇,频繁输出简化不足的内容。

引用

@conference{ healthinf24, author={Liliya Makhmutova and Giancarlo Salton and Fernando Perez-Tellez and Robert Ross}, title={Automated Medical Text Simplification for Enhanced Patient Access}, booktitle={Proceedings of the 17th International Joint Conference on Biomedical Engineering Systems and Technologies - Volume 2: HEALTHINF}, year={2024}, pages={208-218}, publisher={SciTePress}, organization={INSTICC}, doi={10.5220/0012466100003657}, isbn={978-989-758-688-0}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作