FaithfulnessQAC, UniqueQAC
收藏arXiv2025-01-14 更新2025-01-16 收录
下载链接:
http://arxiv.org/abs/2501.08208v1
下载链接
链接失效反馈官方服务:
资源简介:
ASTRID数据集由Ufonia Limited和约克大学的研究团队创建,旨在评估基于检索增强生成(RAG)的临床问答系统的性能。数据集包含来自真实患者的临床问题,涵盖了白内障手术后随访中的常见问题,并补充了急诊、临床和非临床领域的问题。FaithfulnessQAC数据集包含238条问题-答案-上下文三元组,UniqueQAC数据集包含132条三元组。数据集的创建过程包括从临床对话中提取问题,并由临床医生选择相关问题以增强数据集的多样性和覆盖范围。该数据集的应用领域主要集中在临床问答系统的自动评估,旨在解决现有评估指标在临床和对话场景中的不足,确保生成的回答在临床上是准确且有用的。
The ASTRID dataset was created by a research team from Ufonia Limited and the University of York, aiming to evaluate the performance of clinical question-answering systems based on Retrieval-Augmented Generation (RAG). The dataset contains clinical questions from real patients, covering common issues during post-operative follow-up after cataract surgery, supplemented by questions from emergency, clinical, and non-clinical fields. The FaithfulnessQAC dataset includes 238 question-answer-context triples, while the UniqueQAC dataset contains 132 triples. The dataset creation process involves extracting questions from clinical dialogues and having clinicians select relevant questions to enhance the diversity and scope of the dataset. The application domain of this dataset is primarily focused on the automatic evaluation of clinical question-answering systems, aiming to address the deficiencies of existing evaluation metrics in clinical and conversational scenarios, ensuring that the generated answers are accurate and useful in a clinical setting.
提供机构:
Ufonia Limited, 约克大学
创建时间:
2025-01-14
搜集汇总
数据集介绍

构建方式
FaithfulnessQAC和UniqueQAC数据集的构建基于真实世界的患者问题,这些问题来源于白内障手术后随访的临床对话。研究人员首先收集了102个独特问题,并通过三个不同的LLM(Palm-2、Mistral-7B和Llama-3-8B)生成回答,形成了306个问题-回答-上下文三元组。随后,研究人员筛选出包含对话元素的回答,最终构建了206个三元组。为了平衡数据集,研究人员进一步从开源数据集HealthSearchQA中选取了45个超出范围的问题,最终形成了包含238个三元组的FaithfulnessQAC数据集。UniqueQAC数据集则从FaithfulnessQAC中抽取了132个独特问题,确保每个问题的回答来自不同的LLM。
特点
FaithfulnessQAC和UniqueQAC数据集的特点在于其专注于临床对话的忠实性和上下文相关性。FaithfulnessQAC数据集包含了238个问题-回答-上下文三元组,其中74个回答被标记为忠实,74个为不忠实,并额外添加了45个超出范围的问题。UniqueQAC数据集则包含了132个独特问题,确保每个问题的回答来自不同的LLM。这些数据集不仅涵盖了临床场景中的常见问题,还特别关注了对话中的忠实性和上下文相关性,为临床QA系统的评估提供了丰富的测试案例。
使用方法
FaithfulnessQAC和UniqueQAC数据集主要用于评估基于RAG的临床QA系统的性能。研究人员通过这两个数据集验证了ASTRID框架中的三个指标:对话忠实性(CF)、拒绝准确性(RA)和上下文相关性(CR)。具体而言,FaithfulnessQAC数据集用于评估CF指标与人类感知的忠实性之间的对齐程度,而UniqueQAC数据集则用于验证ASTRID框架的自动化评估能力。通过使用这些数据集,研究人员能够量化临床QA系统的忠实性、拒绝准确性和上下文相关性,从而为系统的迭代开发和持续评估提供支持。
背景与挑战
背景概述
FaithfulnessQAC和UniqueQAC数据集由Ufonia Limited的研究团队于2025年创建,旨在解决基于检索增强生成(RAG)的临床问答系统的评估问题。这些数据集的核心研究问题是如何在临床环境中准确评估问答系统的回答是否忠实于知识库,同时不惩罚对话元素。数据集包含超过200个真实世界患者问题,涵盖了白内障手术后的随访问题,并扩展了急诊、临床和非临床领域的问题。这些数据集的发布为临床问答系统的自动化评估提供了重要资源,推动了该领域的研究进展。
当前挑战
FaithfulnessQAC和UniqueQAC数据集面临的挑战主要集中在两个方面。首先,临床问答系统的评估需要解决模型回答的忠实性问题,尤其是在对话场景中,现有的评估指标如RAGAS在捕捉临床对话的细微差别时表现不佳。其次,数据集的构建过程中,如何确保回答的临床相关性和拒绝回答的准确性也是一个重要挑战。现有的自动化评估方法在临床环境中表现较差,且依赖于昂贵且不可扩展的人工评估。因此,开发新的评估指标如Conversational Faithfulness(CF)和Refusal Accuracy(RA)成为解决这些挑战的关键。
常用场景
经典使用场景
FaithfulnessQAC和UniqueQAC数据集主要用于评估基于检索增强生成(RAG)的临床问答系统的性能。这些数据集通过提供真实世界的患者问题、模型生成的回答以及相关的上下文信息,帮助研究人员验证模型在临床环境中的回答是否忠实于知识库,是否具有上下文相关性,以及是否能够准确拒绝回答超出其知识范围的问题。这些数据集特别适用于测试和优化临床问答系统的自动化评估指标,如对话忠实度(CF)、拒绝准确性(RA)和上下文相关性(CR)。
实际应用
在实际应用中,FaithfulnessQAC和UniqueQAC数据集被广泛用于开发和优化基于RAG的临床问答系统。这些数据集通过提供真实世界的患者问题和临床上下文,帮助开发者在迭代开发过程中快速识别和修复系统的缺陷。例如,医院和医疗机构可以利用这些数据集来训练和评估其问答系统,确保系统在回答患者问题时既准确又安全。此外,这些数据集还可用于自动化评估管道的构建,减少对人工评估的依赖,提高系统的可扩展性和迭代效率。
衍生相关工作
FaithfulnessQAC和UniqueQAC数据集的发布推动了多个相关研究领域的发展。基于这些数据集,研究人员开发了新的自动化评估框架,如ASTRID,用于评估临床问答系统的性能。此外,这些数据集还激发了针对对话忠实度、拒绝准确性和上下文相关性等指标的进一步研究。例如,一些研究利用这些数据集探索了如何在多轮对话中保持回答的连续性和一致性,以及如何将临床风险评估与自动化评估指标相结合。这些衍生工作不仅扩展了数据集的应用范围,还为临床问答系统的安全性和可靠性提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成



