openlifescienceai/Med-HALT

Name: openlifescienceai/Med-HALT
Creator: openlifescienceai
Published: 2023-08-10 15:27:31
License: 暂无描述

Hugging Face2023-08-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/openlifescienceai/Med-HALT

下载链接

链接失效反馈

官方服务：

资源简介：

Med-HALT数据集用于评估大型语言模型在医疗领域的幻觉问题。该数据集包括推理和记忆两类测试，旨在评估模型的问题解决和信息检索能力。推理测试包括虚假信心测试（FCT）、无正确答案测试（Nota）和虚假问题测试（FQT），而记忆测试包括摘要到链接测试、PMID到标题测试、标题到链接测试和链接到标题测试。该数据集旨在通过提供多样化的测试模式，促进医疗领域语言模型的安全性和可靠性发展。

The Med-HALT dataset is developed to evaluate hallucination issues of large language models (LLMs) in the medical domain. This dataset includes two categories of tests: inference and memory, which aim to assess the problem-solving and information retrieval capabilities of models. The inference tests cover the False Confidence Test (FCT), No Correct Answer Test (Nota), and False Question Test (FQT). The memory tests consist of the Summary-to-Link Test, PMID-to-Title Test, Title-to-Link Test, and Link-to-Title Test. This dataset intends to advance the development of safety and reliability of language models in the medical field by offering diverse test modalities.

提供机构：

openlifescienceai

原始信息汇总

数据集概述

数据集名称

Med-HALT: Medical Domain Hallucination Test for Large Language Models

数据集用途

用于评估大型语言模型（LLMs）在医疗领域中幻觉现象的挑战。
设计用于评估LLMs的问题解决和信息检索能力，包括推理和记忆基础的幻觉测试。

数据集内容

Reasoning Hallucination Tests (RHTs)
- False Confidence Test (FCT)：评估模型在缺乏足够信息时生成答案的确定性。
- None of the Above Test (Nota)：测试模型识别无关或错误信息的能力。
- Fake Questions Test (FQT)：检验模型处理虚假或无意义医疗问题的能力。
Memory Hallucination Tests (MHTs)
- Abstract-to-Link Test：根据PubMed文章摘要生成对应链接。
- PMID-to-Title Test：根据PubMed ID生成文章标题。
- Title-to-Link Test：根据文章标题生成PubMed链接。
- Link-to-Title Test：根据PubMed链接生成文章标题。

数据集文件

IR_abstract2pubmedlink.csv
IR_pubmedlink2title.csv
IR_pmid2title.csv
IR_title2pubmedlink.csv
reasoning_fake.csv
reasoning_nota.csv
reasoning_FCT.csv

许可证

Apache-2.0

引用信息

@article{Medhalt, title={Med-HALT: Medical Domain Hallucination Test for Large Language Models}, author={Umapathi, Logesh Kumar and Pal, Ankit and Sankarasubbu, Malaikannan}, journal={arXiv preprint}, year={2023} }

搜集汇总

数据集介绍

构建方式

在医学信息学领域，评估大型语言模型的幻觉现象至关重要。Med-HALT数据集的构建采用了系统化方法，其数据源自多国医学考试资料，确保了内容的国际多样性与专业性。该数据集通过两个核心测试类别——推理幻觉测试与记忆幻觉测试——来结构化组织数据。推理测试部分，如虚假置信测试，通过人工专家与GPT-3.5混合生成虚假问题；记忆测试则基于PubMed数据库，提取文章摘要、PMID、标题及链接等真实元数据，形成多组配对任务，从而构建了一个全面且可重复的评估基准。

特点

Med-HALT数据集展现出鲜明的特点，其设计专注于医学领域的幻觉检测，覆盖了推理与记忆两大核心能力维度。数据集包含多种创新测试模式，例如在推理测试中引入“以上都不是”选项，以考察模型对无关信息的辨识力；在记忆测试中，通过摘要与链接的相互映射，检验模型的事实检索精度。这些测试不仅模拟了真实医学场景中的信息处理需求，还通过多国数据源增强了文化及临床实践的多样性，为模型评估提供了细致而严谨的框架。

使用方法

使用Med-HALT数据集时，研究者可依据其双层级测试结构进行系统评估。对于推理幻觉测试，模型需处理包含虚假答案或非常规选项的医学选择题，并生成解释性文本，以分析其置信度与逻辑一致性。在记忆幻觉测试中，模型则需完成基于PubMed标识符与文本的配对任务，如从摘要生成链接或从PMID推断标题，从而量化其信息检索的准确性。该数据集支持透明且可复现的实验设计，用户可通过配置不同数据文件灵活调用各测试模块，以全面衡量语言模型在医疗语境下的可靠性与安全性。

背景与挑战

背景概述

在人工智能与医疗健康交叉领域，大型语言模型（LLMs）的幻觉问题日益凸显，即模型生成看似合理但实则错误或虚构的信息，这在医疗应用中可能带来严重后果。为应对这一挑战，研究人员Logesh Kumar Umapathi、Ankit Pal与Malaikannan Sankarasubbu于2023年共同创建了Med-HALT（Medical Domain Hallucination Test）数据集。该数据集旨在系统评估LLMs在医疗领域的幻觉现象，其核心研究问题聚焦于如何量化模型在医学知识推理与记忆检索中的可靠性。通过整合多国医学考试数据并设计创新测试模式，Med-HALT为提升医疗AI的安全性与可信度提供了关键基准，推动了透明化研究与可重复性实践，对促进可靠医疗语言模型的发展具有深远影响力。

当前挑战

Med-HALT数据集致力于解决医疗领域大型语言模型幻觉评估的挑战，具体包括模型在医学问题解答中可能表现出过度自信的倾向，以及在信息缺失时生成错误内容的隐患。构建过程中的挑战主要源于数据集的多样性与真实性保障，例如需要从多国医学资源中采集并标准化异构数据，同时确保测试案例既涵盖人类专家精心设计的虚假问题，又利用GPT-3.5生成部分合成内容以平衡覆盖面与效率。此外，在记忆幻觉测试中，准确映射PubMed文章摘要、标识符与标题之间的复杂关联，也对数据标注的精确性与一致性提出了较高要求。

常用场景

经典使用场景

在医学人工智能领域，评估大型语言模型的幻觉现象已成为确保模型可靠性的关键环节。Med-HALT数据集通过设计推理与记忆两大测试类别，为研究者提供了系统化的评估框架。其经典使用场景集中于对模型在医学知识问答中的表现进行量化分析，例如通过虚假信心测试检测模型在信息不足时是否过度自信，或借助无正确答案测试考察模型识别无关信息的能力。这些场景广泛应用于模型预训练后的性能验证阶段，为优化模型在医疗环境中的安全性奠定基础。

实际应用

在实际医疗辅助系统中，Med-HALT的应用主要体现在提升诊断支持工具与医学信息检索服务的可靠性。例如，在临床决策支持场景中，利用该数据集的测试方法可筛查出模型可能产生的误导性建议，避免因幻觉导致医疗风险。同时，在医学教育平台中，基于其记忆测试模块能够评估模型对文献知识的准确掌握程度，确保提供的学习内容真实可信。这些应用直接关联到医疗安全与知识服务的质量保障。

衍生相关工作

自Med-HALT发布以来，其多模态测试框架已启发了一系列针对领域特异性幻觉的研究。例如，后续工作扩展至法律、金融等专业领域，构建了类似的结构化评估基准。同时，该数据集采用的虚假问题生成与无答案检测方法，被多项研究借鉴用于增强模型的抗幻觉能力训练。此外，基于其PubMed关联任务设计的评估指标，也促进了医学信息检索模型在事实一致性方面的优化工作，形成了从评估到改进的完整研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集