five

med_retrieved

收藏
Hugging Face2025-04-21 更新2025-04-22 收录
下载链接:
https://huggingface.co/datasets/SKIML-ICL/med_retrieved
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含问题和答案的数据集,旨在用于问答系统的研究和开发。数据集包含问题ID、标准化问题、标准化答案、原始问题、答案、提示信息、答案句子和上下文信息。上下文信息中包含是否包含答案、自然语言推理任务、段落ID、排名、得分、文本和标题等字段。数据集分为测试集,共包含18701个示例。
创建时间:
2025-04-16
搜集汇总
数据集介绍
main_image_url
构建方式
在医学信息检索领域,med_retrieved数据集通过结构化方式整合了丰富的临床问答数据。该数据集采用双配置架构,分别针对常规检索场景和冲突检测场景设计,通过标准化问题(norm_question)与答案(norm_answers)的映射关系,配合原始问题(question)和扩展答案序列(answers)构建知识单元。每个数据样本关联多个上下文片段(ctxs),这些片段包含文献来源(title)、文本内容(text)以及相关性评分(score)等元数据,并通过人工标注的hasanswer字段实现答案存在性验证。
特点
该数据集最显著的特征在于其精细的冲突检测机制设计。conflict配置额外包含实体类型(entity_type)识别、相似实体(similar_entity)匹配以及冲突语句(conflict_sentence)标注等专业字段,为医学知识一致性验证提供多维度的分析基础。数据集涵盖18,701个常规测试样本和485个冲突检测样本,每个样本平均关联多个经过质量评估的文献段落,其中冲突检测样本还包含GPT生成的对抗性文本(gpt_conflict_passage_v2)及其有效性验证标签(is_valid_gpt_conflict_passage_v2)。
使用方法
使用该数据集时,研究者可通过config_name参数选择常规检索(default)或冲突检测(conflict)模式加载数据。典型应用流程包括:解析标准化问题-答案对构建检索基准,利用ctxs中的段落排名(rank)和相关性评分(score)优化检索模型,或通过conflict_passage字段开展医学知识一致性验证实验。对于高级应用,prompt_for_answer_gen和prompt_for_conflict_gen字段提供了生成式任务的提示模板,而nli字段则支持基于自然语言推理的深度分析。数据集采用分片存储格式,支持高效流式读取大规模医学文本数据。
背景与挑战
背景概述
med_retrieved数据集是近年来医学信息检索领域的重要资源,由专业研究团队构建,旨在解决医学问答系统中的关键问题。该数据集聚焦于医学问题的规范化表示、答案生成以及冲突信息的检测,为医学自然语言处理研究提供了丰富的标注数据。其核心在于通过结构化的问题-答案对和上下文信息,促进医学知识检索系统的性能提升,对推动智能医疗助手和自动化诊断系统的发展具有显著意义。
当前挑战
med_retrieved数据集面临的挑战主要体现在两个方面:领域问题的复杂性和数据构建的严谨性。医学领域的专业术语和知识体系庞大且不断更新,如何准确捕捉问题的语义并生成可靠的答案是一大难题。数据构建过程中,确保答案的准确性和冲突信息的有效标注需要大量医学专家的参与,同时处理大规模文本数据的噪声和冗余也对数据处理技术提出了较高要求。
常用场景
经典使用场景
在医学信息检索领域,med_retrieved数据集通过其丰富的结构化字段,为研究者提供了评估检索系统性能的理想平台。该数据集特别适用于测试模型在标准化医学问题与答案匹配中的表现,其norm_question和norm_answers字段确保了语义一致性评估的可靠性,而ctxs中的多维度检索结果标注(如hasanswer、nli等)则支持细粒度的相关性分析。
实际应用
临床决策支持系统可基于该数据集构建高精度医学问答模块,其冲突检测机制能警示可能存在矛盾的医学建议。医药企业利用其检索结果排名数据优化药品说明书查询系统,而ctxs中的标题-文本结构直接适配现有搜索引擎架构,显著提升医学专业网站的检索体验。
衍生相关工作
该数据集催生了多项医学检索领域突破性研究,包括基于nli字段的跨文档一致性验证框架、融合similar_entity_score的实体链接增强模型等。其冲突检测数据被广泛用于评估大语言模型在医学矛盾陈述识别中的表现,相关成果发表在JAMIA、ACM SIGIR等顶级会议。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作