five

FremyCompany/AGCT-Dataset

收藏
Hugging Face2023-11-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FremyCompany/AGCT-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含422,070个由计算机生成的SnomedCT概念的简短定义,涵盖了疾病、程序、药物和解剖等多个领域。这些定义是通过使用OpenAI Turbo模型(GPT 3.5的一个变体)生成的,该模型使用了高质量的口头化SnomedCT关系来定义概念。质量控制结果显示,大多数定义是事实性、洞察力和流畅的,但约30%的定义质量不达标。该数据集适用于构建检索系统,并评估大型生物医学语言模型在定义生成任务上的表现。

该数据集包含422,070个由计算机生成的SnomedCT概念的简短定义,涵盖了疾病、程序、药物和解剖等多个领域。这些定义是通过使用OpenAI Turbo模型(GPT 3.5的一个变体)生成的,该模型使用了高质量的口头化SnomedCT关系来定义概念。质量控制结果显示,大多数定义是事实性、洞察力和流畅的,但约30%的定义质量不达标。该数据集适用于构建检索系统,并评估大型生物医学语言模型在定义生成任务上的表现。
提供机构:
FremyCompany
原始信息汇总

数据集概述

数据集名称

  • Automatic Glossary of Clinical Terminology (v2023)

数据集内容

  • 包含422,070条计算机生成的定义,涵盖疾病、程序、药物和解剖学等多个领域。
  • 使用OpenAI Turbo模型(GPT 3.5的变体)生成定义,基于SnomedCT关系的高质量口头化表达。

数据集规模

  • 大小类别:100K<n<1M

数据集质量

  • 大多数定义为事实性、有洞察力和流畅的。
  • 约30%的定义未达到高标准的展示或机器学习模型使用要求。
  • 超过95%的定义适用于生物医学模型预训练。

许可证

  • 受SnomedCT和OpenAI API协议约束。

引用信息

数据集应用

  • 适用于构建基于检索的系统。
  • 评估大型生物医学语言模型在定义生成任务上的表现。
  • 用于现有语言模型的低秩微调。
搜集汇总
数据集介绍
main_image_url
构建方式
在生物医学信息学领域,构建高质量的定义数据集对于提升临床术语的可理解性至关重要。AGCT数据集通过利用SnomedCT本体中的结构化关系,采用OpenAI Turbo模型(GPT-3.5变体)自动生成定义。具体而言,该方法首先将SnomedCT概念的关系转化为高质量的自然语言描述,作为提示输入模型,进而生成涵盖疾病、程序、药物和解剖学等多个领域的422,070条简短定义。这一过程结合了本体知识的严谨性与大语言模型的生成能力,旨在为临床概念提供清晰、可读的解释。
特点
AGCT数据集展现出显著的规模与多样性,其定义平均长度为49个单词,覆盖了广泛的生物医学领域。尽管约30%的定义在事实性、洞察力或流畅性方面未达到最高标准,但超过95%的定义在生物医学模型预训练中具有实用价值。该数据集特别强调定义的质量控制,评估显示多数定义在事实性、洞察力和流畅性三个维度上平均得分超过4.5分(满分5分),确保了其在检索系统或语言模型微调中的可靠性。
使用方法
AGCT数据集适用于多种生物医学自然语言处理任务,尤其适合构建基于检索的系统或评估大型生物医学语言模型的定义生成能力。用户可将其用于模型预训练,以增强对临床术语的理解,或在低秩微调场景中优化现有语言模型。在使用前,需注意数据集受SnomedCT和OpenAI API协议的双重许可约束,建议仔细审查相关条款。此外,引用时应遵循提供的学术文献,以确保研究的规范性与可追溯性。
背景与挑战
背景概述
在生物医学信息学领域,临床术语的标准化与可解释性一直是提升医疗数据互操作性与患者健康素养的核心议题。由François Remy等人于2023年构建的AGCT数据集,依托SnomedCT这一综合性生物医学本体,旨在通过生成自动化、可读性强的概念定义,弥合专业术语与大众理解之间的鸿沟。该数据集由OpenAI Turbo模型驱动,覆盖疾病、程序、药物及解剖学等多个领域,共计42万余条定义,为电子健康记录的可访问性及生物医学语言模型预训练提供了重要资源,显著推动了临床自然语言处理技术的发展。
当前挑战
AGCT数据集所应对的领域挑战在于,SnomedCT中大量临床概念缺乏易于理解的文本定义,限制了非专业人士对医疗信息的解读。在构建过程中,尽管采用高质量的本体关系表述作为提示,但生成的定义仍面临质量不均的难题:约30%的定义在事实准确性、洞察深度或语言流畅性上未达高标准,可能影响其在需要严谨推理的场景中的应用。此外,数据集的使用需同时遵循SnomedCT与OpenAI API的许可协议,这为资源的广泛分发与合规利用增添了复杂性。
常用场景
经典使用场景
在生物医学信息学领域,AGCT数据集为临床术语标准化与知识表示提供了关键支持。该数据集通过生成超过42万条基于SnomedCT概念的自动化定义,广泛应用于生物医学语言模型的预训练任务。研究人员利用这些结构化定义,能够高效地构建检索系统,优化模型对复杂医学术语的理解能力,从而提升在电子健康记录分析、临床决策支持等场景下的性能表现。
衍生相关工作
基于AGCT数据集衍生的经典工作主要集中在生物医学语言模型优化与知识检索方向。例如,多项研究利用其大规模定义数据对BERT等预训练模型进行领域适配,显著提升了模型在临床命名实体识别、关系抽取任务上的表现。同时,该数据集也催生了新型检索增强生成框架的开发,这些框架通过结合本体知识与生成式语言模型,实现了更精准的医学术语解释系统。
数据集最近研究
最新研究方向
在临床术语标准化与生物医学自然语言处理领域,AGCT数据集作为基于SnomedCT本体知识生成的大规模自动术语词典,正推动前沿研究聚焦于生成式人工智能在医疗文本理解中的应用。该数据集通过GPT-3.5模型生成的42万余条临床概念定义,为生物医学信息检索系统提供了高质量的预训练语料,尤其在电子健康记录的可解释性增强方面展现出潜力。当前研究热点围绕如何利用此类生成式定义优化临床决策支持模型,同时探索在低资源微调场景下提升定义的事实性与流畅性,以应对约30%定义质量不足的挑战。这一进展不仅促进了生物医学语言模型向更精准的推理能力演进,也为跨语言医疗知识普及奠定了技术基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作