ACI-Bench-MedARC

Hugging Face2025-12-24 更新2025-12-25 收录

下载链接：

https://huggingface.co/datasets/mkieffer/ACI-Bench-MedARC

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含不同的子集，捕捉了不同的临床工作流程：1) 环境临床智能（aci）：医患对话；2) 虚拟助手（virtassist）：医患对话，带有触发Dragon Copilot的队列，例如“嘿，Dragon。给我看看胸部X光片”；3) 虚拟记录员（virtscribe）：医患对话，医生在开始时对患者进行简短的口述。有三种不同的转录版本：1) `asr`：机器转录；2) `asrcorr`：对`asr`的人工修正；3) `humantrans`：人工转录。子集的转录版本如下：1) `aci`：`asr`和`asrcorr`；2) `virtassist`：仅`humantrans`；3) `virtscribe`：`asr`和`humantrans`。

创建时间：

2025-12-22

原始信息汇总

ACI-Bench 数据集概述

数据集基本信息

数据集名称: ACI-Bench
托管地址: https://huggingface.co/datasets/mkieffer/ACI-Bench-MedARC
许可证: cc-by-4.0
任务类别: 文本生成
标签: 医疗、临床、对话、摘要

数据集结构与内容

子集配置

数据集包含三个子集配置，每个子集包含多个数据分割。

virtassist (默认配置)
- 数据文件：
  - train: virtassist/train.parquet
  - valid: virtassist/valid.parquet
  - test1: virtassist/test1.parquet
  - test2: virtassist/test2.parquet
  - test3: virtassist/test3.parquet
aci
- 数据文件：
  - train: aci/train.parquet
  - valid: aci/valid.parquet
  - test1: aci/test1.parquet
  - test2: aci/test2.parquet
  - test3: aci/test3.parquet
virtscribe
- 数据文件：
  - train: virtscribe/train.parquet
  - valid: virtscribe/valid.parquet
  - test1: virtscribe/test1.parquet
  - test2: virtscribe/test2.parquet
  - test3: virtscribe/test3.parquet

数据统计

子集	转录版本	训练集	验证集	测试集1	测试集2	测试集3	总计
aci	asr	35	11	22	22	22	112
aci	asrcorr	35	11	22	22	22	112
aci	humantrans	0	0	0	0	0	0
virtassist	asr	0	0	0	0	0	0
virtassist	asrcorr	0	0	0	0	0	0
virtassist	humantrans	20	5	10	10	10	55
virtscribe	asr	12	4	8	8	8	40
virtscribe	asrcorr	0	0	0	0	0	0
virtscribe	humantrans	12	4	8	8	8	40
全部	全部	114	35	70	70	70	359

数据集描述

子集定义

数据集包含三个子集，分别代表不同的临床工作流程：

ambient clinical intelligence (aci): 医患对话
virtual assistant (virtassist): 包含触发Dragon Copilot提示的医患对话（例如："hey, dragon. show me the chest x-ray"）
virtual scribe (virtscribe): 医生在对话开始时对患者进行简短口述的医患对话

转录版本

数据集包含三种不同的转录版本：

asr: 机器转录
asrcorr: 对asr版本的人工修正（例如：将"D2N081"中的"nonsmile"修正为"ACI006"中的"non-small"）
humantrans: 人工转录

子集与转录版本对应关系

aci: 包含asr和asrcorr版本
virtassist: 仅包含humantrans版本
virtscribe: 包含asr和humantrans版本

数据集用途

主要用途

评估模型将临床对话转换为结构化临床笔记的能力。

数据来源

GitHub仓库: https://github.com/wyim/aci-bench
论文: https://www.nature.com/articles/s41597-023-02487-3

使用方式

可通过Hugging Face的datasets库加载数据，支持多种加载方式：

加载单个子集的所有分割
加载单个子集的单个分割
同时加载多个子集
加载多个分割（可合并或分开）

引用信息

@article{aci-bench, author = {Wen-wai Yim and Yujuan Fu and Asma {Ben Abacha} and Neal Snider and Thomas Lin and Meliha Yetisgen}, title = {ACI-BENCH: a Novel Ambient Clinical Intelligence Dataset for Benchmarking Automatic Visit Note Generation}, journal = {Nature Scientific Data}, year = {2023} }

搜集汇总

数据集介绍

构建方式

在临床信息学领域，ACI-Bench-MedARC数据集的构建体现了对真实医疗场景的深度模拟。该数据集通过采集三种不同的临床工作流程对话，包括环境临床智能对话、虚拟助手介入的对话以及虚拟文书辅助的对话，并采用机器转录、人工修正转录和纯人工转录三种方式生成文本，确保了数据来源的多样性和转录质量的层次性。数据划分涵盖训练集、验证集及多个测试集，为模型评估提供了严谨的结构基础。

特点

该数据集的核心特点在于其多层次的设计，能够精准反映临床对话转化为结构化病历的复杂性。每种子集对应特定的临床交互模式，例如虚拟助手子集包含触发医疗辅助系统的指令，而虚拟文书子集则融合了医生的简短口述。转录版本的分层设置，从自动语音识别到人工校对，为研究不同转录质量对生成任务的影响提供了实验条件。数据规模虽紧凑，但覆盖了多样化的医疗对话场景，具备较高的实用价值。

使用方法

在自然语言处理应用中，该数据集支持灵活的加载方式以适应不同研究需求。用户可通过HuggingFace的datasets库，按子集名称如'virtassist'或'aci'加载全部或指定分割，亦可同时加载多个子集进行对比分析。数据以parquet格式存储，确保了读取效率。研究者可依据任务目标，选择相应的转录版本和临床工作流程子集，用于训练或评估文本生成模型在医疗笔记自动生成方面的性能。

背景与挑战

背景概述

在医疗人工智能领域，临床记录的自动化生成是提升诊疗效率与准确性的关键研究方向。ACI-Bench数据集由华盛顿大学等机构的研究团队于2023年创建，旨在评估模型将临床对话转化为结构化临床笔记的能力。该数据集聚焦于环境临床智能、虚拟助理和虚拟记录员三种临床工作流程，通过包含机器转录、人工校正及人工转录等多种版本，为自动就诊笔记生成任务提供了标准化基准。其发表于《自然·科学数据》期刊，推动了临床自然语言处理技术在真实医疗场景中的应用与发展。

当前挑战

该数据集致力于解决临床笔记自动生成的领域挑战，包括医疗对话中专业术语的精确识别、非结构化语言向结构化记录的转换，以及不同临床工作流程的适应性建模。在构建过程中，研究团队面临数据采集与标注的复杂性，需协调多种转录方法以确保数据质量与一致性，同时处理医疗数据的隐私保护与伦理合规问题。此外，数据集规模相对有限，对模型泛化能力提出了更高要求，需在多样化的临床语境中保持性能稳定。

常用场景

经典使用场景

在临床信息学领域，ACI-Bench数据集为评估模型将医患对话自动转化为结构化临床笔记的能力提供了标准基准。该数据集通过模拟真实医疗场景，如环境临床智能、虚拟助理和虚拟抄写员等不同工作流程，支持研究者训练和测试自然语言处理模型，以生成准确、连贯的医疗记录，从而优化临床文档处理流程。

衍生相关工作

基于ACI-Bench数据集，衍生出多项经典研究工作，包括针对医疗对话摘要的深度学习模型优化、多模态临床信息融合方法探索以及自动语音识别纠错技术的改进。这些工作不仅扩展了数据集在医疗人工智能领域的应用范围，还为后续研究提供了可复现的基准，推动了临床自然语言处理技术的持续创新。

数据集最近研究