five

CliMedBench|医疗数据集|语言模型评估数据集

收藏
arXiv2024-10-04 更新2024-10-08 收录
医疗
语言模型评估
下载链接:
https://github.com/Optifine-TAT/CliMedBench
下载链接
链接失效反馈
资源简介:
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
提供机构:
华东师范大学
创建时间:
2024-10-04
原始信息汇总

CliMedBench

AI搜集汇总
数据集介绍
main_image_url
构建方式
CliMedBench的构建基于中国顶级三级医院的真实电子健康记录(EHR),并辅以考试练习、医学指南、教科书和人工注释的在线咨询。该数据集涵盖了多个医学专业,经过精心筛选以增强多样性。EHR数据由合作医院提供,涵盖2023年1月1日至3月31日的放射记录。考试问题源自2023年NMLEC年度考试,涵盖外科和内科领域的16个科目。数据集构建过程中,医学专家首先根据EHR中的医生笔记内容类型制定指南,将EHR分割成句子,然后由LLM1分类为问题生成组件,通过将正确答案与来自不同但主题相似的EHR段的干扰项配对形成QA对。LLM2审核数据集以检查不一致或模糊之处,标记的项目由医学专家评估,确保仅解决相关问题。通过迭代验证周期,确保至少90%的问题符合质量标准,最终获得33,735个实例,严格基于医生笔记和临床治疗记录。
特点
CliMedBench在多个方面优于现有基准:(1)真实性和独特性,通过使用顶级医院专家注释的EHR,提供最新、真实的见解,减少数据污染的可能性。(2)全面性和多维性,精心设计以符合中国临床实践,涵盖多样化的医学学科和多模态信息,提供广泛的评估视角。(3)实用性,采用基于代理的计算机化自适应测试方法,确保快速评估。
使用方法
CliMedBench适用于评估大型语言模型(LLMs)在临床场景中的医疗能力。用户可以通过提供的14个核心临床场景和33,735个问题,对模型进行全面的测试和分析。评估方法包括自动指标(如准确性、Kendall's τ)和专家级人工评估(如医学正确性、完整性、流畅性和友好性)。此外,还提供了基于代理的计算机化自适应测试方法,以实现快速评估。用户可以根据模型的表现,识别其在临床决策支持、诊断和治疗建议中的优势和局限性,从而指导进一步的研究和改进。
背景与挑战
背景概述
随着大型语言模型(LLMs)在各个领域的广泛应用,特别是在中文临床医疗场景中,对这些模型的全面评估需求日益迫切。CliMedBench数据集由华东师范大学、上海交通大学和Hasso Plattner研究所的研究团队于2023年创建,旨在为评估中文医疗大型语言模型提供一个全面的基准。该数据集包含33,735个问题,源自顶级三级医院的真实医疗报告和考试练习,涵盖14个核心临床场景,评估模型在临床问答、知识应用、推理等多个维度上的能力。CliMedBench的推出填补了中文医疗LLMs评估标准的空白,为医疗研究提供了关键的见解。
当前挑战
CliMedBench数据集在构建过程中面临多重挑战。首先,如何确保数据的真实性和多样性,避免数据污染,是一个重要问题。其次,从电子健康记录(EHRs)中提取高质量数据并进行有效的数据预处理,以确保数据的准确性和一致性,也是一个技术难题。此外,评估模型的临床推理能力和事实一致性,特别是在处理复杂医疗案例时,对模型的性能提出了更高的要求。最后,如何在有限的输入容量下,确保模型在临床场景中的实际应用能力,也是一个亟待解决的问题。
常用场景
经典使用场景
CliMedBench 数据集的经典使用场景在于评估大型语言模型(LLMs)在临床医学场景中的表现。通过包含14个核心临床场景和33,735个问题,该数据集能够全面评估模型在临床问答、知识应用、推理、信息检索、总结能力、幻觉和毒性等方面的能力。这种全面的评估有助于揭示模型在实际临床应用中的优势和局限性。
实际应用
CliMedBench 数据集在实际应用中主要用于临床决策支持、诊断和治疗建议的自动化。通过模拟真实的临床场景和病例,该数据集帮助医疗专业人员和研究人员评估和改进LLMs在实际医疗环境中的表现。此外,该数据集还可用于培训和验证医疗领域的AI系统,提高其在复杂临床环境中的可靠性和准确性。
衍生相关工作
CliMedBench 数据集的发布催生了一系列相关研究工作,特别是在中文医学LLMs的评估和改进方面。例如,基于该数据集的研究揭示了现有模型在医学推理和事实一致性方面的不足,推动了相关技术的进一步发展。此外,该数据集还启发了新的评估方法和工具的开发,如基于计算机自适应测试(CAT)的快速评估方法,这些方法在提高评估效率和准确性方面具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域地面气象要素驱动数据集 v2.0(1951-2024)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录