ACI-Bench

Name: ACI-Bench
Creator: ACI-Bench Dataset
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://github.com/wyim/aci-bench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集专注于医生与患者对话的概括总结，特别关注于医疗互动中的对话内容提炼。该数据集的任务是进行医生-患者对话的摘要概括。

This dataset is dedicated to the summarization of doctor-patient dialogues, with a particular focus on extracting key dialogue content from medical interactions. The primary task of this dataset is to generate abstract summaries for such dialogues.

提供机构：

ACI-Bench Dataset

搜集汇总

数据集介绍

构建方式

在医疗人工智能领域，临床笔记自动生成任务面临公开数据稀缺的挑战。ACI-BENCH数据集的构建采用角色扮演模拟真实医患对话，由医学专家团队设计三种常见临床记录生成模式：虚拟助理辅助、虚拟文书辅助以及自然对话环境。数据创建过程涉及医学专家基于症状提示进行角色扮演，生成对话录音后通过自动语音识别转换为文本，并由领域专家对自动生成的临床笔记进行人工校验与重写。为确保数据质量，研究团队实施了系统的注释流程，识别并移除了对话中未提及的临床信息，并对自动语音识别错误进行了人工校正，最终形成了包含207个完整医患对话-笔记对的高质量语料库。

特点

该数据集作为当前最大的公开临床对话-笔记生成基准，其显著特点在于系统模拟了三种不同的临床记录生成场景，覆盖了从结构化指令到自然对话的连续谱系。数据经过严格的质量控制，移除了对话中未支持的临床信息，确保了源文本与目标笔记之间的内容一致性。数据集将完整的临床笔记划分为主观描述、客观检查、客观结果及评估计划四个连续部分，这种结构划分不仅降低了数据稀疏性问题，还便于进行细粒度的模型训练与评估。与真实临床数据相比，该数据集在对话长度、笔记结构及信息对齐比例等方面展现出高度可比性，为模型性能评估提供了可靠基础。

使用方法

ACI-BENCH数据集适用于训练和评估从医患对话自动生成临床笔记的各类模型。研究人员可将数据集划分为训练集、验证集和测试集，用于模型开发与性能比较。使用时可选择全笔记生成或分部分生成两种策略：全笔记生成方法直接将完整对话映射到完整临床笔记；分部分生成方法则针对四个临床笔记分区分别训练模型，再将生成结果拼接为完整笔记。数据集支持研究自动语音识别与人工转录对笔记生成质量的影响，提供了原始自动语音识别文本与校正版本的对比数据。评估指标可综合采用ROUGE、BERTScore、BLEURT等自动度量以及基于医学术语抽取的MEDCON指标，从文本相似度、语义一致性和临床概念覆盖度等多维度全面评估模型性能。

背景与挑战

背景概述

在医疗信息学领域，临床文档自动化生成技术正逐渐成为减轻医生文书负担的关键研究方向。ACI-Bench数据集由微软、华盛顿大学及Nuance Communications的研究团队于2023年联合创建，旨在为医患对话自动生成临床笔记的任务提供标准化评估基准。该数据集模拟了三种常见的临床笔记生成场景：虚拟助手辅助、虚拟文书协助以及自然对话环境，共包含207个角色扮演的医患对话与对应笔记对。作为当前公开规模最大的此类数据集，ACI-Bench通过结构化标注与医学验证，为生成式模型在医疗文本摘要领域的性能评估提供了重要基础，推动了临床人工智能从理论探索向实际应用转化。

当前挑战

该数据集致力于解决医患对话自动生成结构化临床笔记的核心挑战，其难点主要体现在两个方面：首先，在领域问题层面，临床笔记需从冗长对话中提取关键医学实体、症状描述与诊疗计划，并转化为符合SOAP标准的半结构化文本，这要求模型具备跨模态信息融合、医学术语规范化及逻辑推理能力；其次，在构建过程中，研究团队面临医疗数据敏感性导致的公开数据稀缺问题，需通过医学专家角色扮演生成仿真数据，并设计严格的标注流程以消除对话与笔记间的不支持信息，同时应对自动语音识别误差对文本对齐带来的干扰，确保数据集的医学合理性与技术可用性。

常用场景

经典使用场景

在临床信息学与自然语言处理交叉领域，ACI-BENCH数据集作为目前规模最大的公开医患对话-临床笔记生成基准，其经典应用场景集中于评估和优化自动摘要模型在医疗环境中的表现。该数据集通过模拟真实诊疗对话，包括虚拟助理介入、虚拟文书辅助及自然对话三种模式，为研究者提供了结构化、高质量的语料，用以训练和测试模型从冗长对话中提取关键医疗信息并生成符合SOAP格式临床笔记的能力。这一场景不仅推动了对话摘要技术的发展，更直接服务于减轻临床医生的文档负担，提升医疗记录效率。

实际应用

在实际医疗场景中，ACI-BENCH数据集的应用直接指向临床文档自动化的实现。基于该数据集训练的模型可部署于电子健康记录系统，实时将医患对话转换为结构化临床笔记草稿，供医生审核与修改。这种应用不仅能显著减少医生花费在文书工作上的时间，使其更专注于患者照护，还能提升笔记的完整性与一致性，减少因手工录入导致的错误或遗漏。此外，该技术可扩展至远程医疗、临床培训与医疗质量审计等领域，通过自动化处理对话内容，支持更高效的医疗信息管理与决策。

衍生相关工作

围绕ACI-BENCH数据集，已衍生出多项经典研究工作，主要集中在模型架构优化与评估方法创新。例如，研究团队基于该数据集对比了BART、LED等预训练模型在临床笔记生成上的性能，并提出了分块生成策略以应对长文本挑战；同时，该数据集被用于MEDIQA-Chat等国际评测任务，推动了基于UMLS概念的医疗实体评估指标MEDCON的发展。这些工作不仅验证了生成式大语言模型在医疗领域的迁移潜力，还促进了针对临床笔记特性的定制化模型设计，为后续研究提供了重要的技术参照与改进方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集