FremyCompany/AGCT-Dataset

Name: FremyCompany/AGCT-Dataset
Creator: FremyCompany
Published: 2023-11-28 21:32:26
License: 暂无描述

Hugging Face2023-11-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/FremyCompany/AGCT-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含422,070个由计算机生成的SnomedCT概念的简短定义，涵盖了疾病、程序、药物和解剖等多个领域。这些定义是通过使用OpenAI Turbo模型（GPT 3.5的一个变体）生成的，该模型使用了高质量的口头化SnomedCT关系来定义概念。质量控制结果显示，大多数定义是事实性、洞察力和流畅的，但约30%的定义质量不达标。该数据集适用于构建检索系统，并评估大型生物医学语言模型在定义生成任务上的表现。

提供机构：

FremyCompany

原始信息汇总

数据集概述

数据集名称

Automatic Glossary of Clinical Terminology (v2023)

数据集内容

包含422,070条计算机生成的定义，涵盖疾病、程序、药物和解剖学等多个领域。
使用OpenAI Turbo模型（GPT 3.5的变体）生成定义，基于SnomedCT关系的高质量口头化表达。

数据集规模

大小类别：100K<n<1M

数据集质量

大多数定义为事实性、有洞察力和流畅的。
约30%的定义未达到高标准的展示或机器学习模型使用要求。
超过95%的定义适用于生物医学模型预训练。

许可证

受SnomedCT和OpenAI API协议约束。

引用信息

引用文献：AGCT @ BioNLP 2023

数据集应用

适用于构建基于检索的系统。
评估大型生物医学语言模型在定义生成任务上的表现。
用于现有语言模型的低秩微调。

搜集汇总

数据集介绍

构建方式

在生物医学信息学领域，构建高质量的定义数据集对于提升临床术语的可理解性至关重要。AGCT数据集通过利用SnomedCT本体中的结构化关系，采用OpenAI Turbo模型（GPT-3.5变体）自动生成定义。具体而言，该方法首先将SnomedCT概念的关系转化为高质量的自然语言描述，作为提示输入模型，进而生成涵盖疾病、程序、药物和解剖学等多个领域的422,070条简短定义。这一过程结合了本体知识的严谨性与大语言模型的生成能力，旨在为临床概念提供清晰、可读的解释。

特点

AGCT数据集展现出显著的规模与多样性，其定义平均长度为49个单词，覆盖了广泛的生物医学领域。尽管约30%的定义在事实性、洞察力或流畅性方面未达到最高标准，但超过95%的定义在生物医学模型预训练中具有实用价值。该数据集特别强调定义的质量控制，评估显示多数定义在事实性、洞察力和流畅性三个维度上平均得分超过4.5分（满分5分），确保了其在检索系统或语言模型微调中的可靠性。

使用方法

AGCT数据集适用于多种生物医学自然语言处理任务，尤其适合构建基于检索的系统或评估大型生物医学语言模型的定义生成能力。用户可将其用于模型预训练，以增强对临床术语的理解，或在低秩微调场景中优化现有语言模型。在使用前，需注意数据集受SnomedCT和OpenAI API协议的双重许可约束，建议仔细审查相关条款。此外，引用时应遵循提供的学术文献，以确保研究的规范性与可追溯性。

背景与挑战

背景概述

在生物医学信息学领域，临床术语的标准化与可解释性一直是提升医疗数据互操作性与患者健康素养的核心议题。由François Remy等人于2023年构建的AGCT数据集，依托SnomedCT这一综合性生物医学本体，旨在通过生成自动化、可读性强的概念定义，弥合专业术语与大众理解之间的鸿沟。该数据集由OpenAI Turbo模型驱动，覆盖疾病、程序、药物及解剖学等多个领域，共计42万余条定义，为电子健康记录的可访问性及生物医学语言模型预训练提供了重要资源，显著推动了临床自然语言处理技术的发展。

当前挑战

AGCT数据集所应对的领域挑战在于，SnomedCT中大量临床概念缺乏易于理解的文本定义，限制了非专业人士对医疗信息的解读。在构建过程中，尽管采用高质量的本体关系表述作为提示，但生成的定义仍面临质量不均的难题：约30%的定义在事实准确性、洞察深度或语言流畅性上未达高标准，可能影响其在需要严谨推理的场景中的应用。此外，数据集的使用需同时遵循SnomedCT与OpenAI API的许可协议，这为资源的广泛分发与合规利用增添了复杂性。

常用场景

经典使用场景

在生物医学信息学领域，AGCT数据集为临床术语标准化与知识表示提供了关键支持。该数据集通过生成超过42万条基于SnomedCT概念的自动化定义，广泛应用于生物医学语言模型的预训练任务。研究人员利用这些结构化定义，能够高效地构建检索系统，优化模型对复杂医学术语的理解能力，从而提升在电子健康记录分析、临床决策支持等场景下的性能表现。

衍生相关工作

基于AGCT数据集衍生的经典工作主要集中在生物医学语言模型优化与知识检索方向。例如，多项研究利用其大规模定义数据对BERT等预训练模型进行领域适配，显著提升了模型在临床命名实体识别、关系抽取任务上的表现。同时，该数据集也催生了新型检索增强生成框架的开发，这些框架通过结合本体知识与生成式语言模型，实现了更精准的医学术语解释系统。

数据集最近研究