igor-eduardo-research/mirage-pt

Name: igor-eduardo-research/mirage-pt
Creator: igor-eduardo-research
Published: 2026-04-30 20:27:45
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/igor-eduardo-research/mirage-pt

下载链接

链接失效反馈

官方服务：

资源简介：

MIRAGE-PT是首个用于评估葡萄牙语临床文本检索增强生成系统的公开基准。它提供了500个涵盖6个医学专业的临床查询，并包含1,487个人工相关性判断，旨在系统评估巴西临床决策支持系统的检索策略。数据集包含查询文件（queries.jsonl）、语料库文档（corpus.jsonl）、相关性判断文件（qrels.txt）和评估脚本（evaluate.py）。语料库来源包括巴西的公开临床参考资料，如Ministério da Saúde、CONITEC、ANVISA等。数据集支持多种评估指标，如Recall@k、P@5和NDCG@5，并提供了基线系统的性能比较。数据集的语言为巴西葡萄牙语，许可证为CC BY 4.0。

MIRAGE-PT is the first public benchmark for evaluating retrieval-augmented generation systems on Portuguese clinical text. It provides 500 clinical queries across 6 medical specialties with 1,487 human relevance judgments, enabling systematic evaluation of retrieval strategies for Brazilian clinical decision support systems. The dataset includes query files (queries.jsonl), corpus documents (corpus.jsonl), relevance judgment files (qrels.txt), and an evaluation script (evaluate.py). The corpus sources include publicly available Brazilian clinical references such as Ministério da Saúde, CONITEC, ANVISA, etc. The dataset supports various evaluation metrics like Recall@k, P@5, and NDCG@5, and provides performance comparisons of baseline systems. The dataset is in Brazilian Portuguese and licensed under CC BY 4.0.

提供机构：

igor-eduardo-research

搜集汇总

数据集介绍

构建方式

MIRAGE-PT数据集是首个面向巴西葡萄牙语临床文本检索增强生成系统的基准测试资源。其构建过程严谨而系统，基于巴西卫生部（MS）、CONITEC、ANVISA及DATASUS等权威机构发布的25份临床指南文献构建语料库。研究团队精心设计了覆盖药理学、临床决策、急诊医学、定价/保险、儿科学及临床规程等6个专科领域的500个临床查询，并依据查询的认知复杂度划分为简单与复杂两类。每个查询均通过LLM-as-judge方法进行人工相关性评判，生成了1,487条查询-文档对，标注一致性高达κ=0.954，确保了数据标注的可靠性。

使用方法

使用者可通过Hugging Face的datasets库一键加载数据集，执行`load_dataset("igor-eduardo-research/mirage-pt")`即可获取查询、语料及相关性判断文件。为评估自定义检索系统，需将系统输出的检索结果以JSONL格式保存，每条记录包含query_id与排序后的doc_ids列表，随后运行`evaluate.py`脚本即可计算Recall@k、P@5及NDCG@5等核心指标。该数据集特别适用于研究和比较不同检索策略（如BM25、稠密检索及混合方法）在巴西葡萄牙语临床决策支持场景下的表现，推动RAG系统在低资源医疗语言环境中的发展。

背景与挑战

背景概述

MIRAGE-PT是由Igor Eduardo于2026年创建的葡萄牙语临床检索增强生成（RAG）基准数据集，旨在填补非英语临床文本信息检索评估的空白。该数据集涵盖药理学、临床决策、急诊等6个医学专科，包含500条临床查询与25份巴西官方临床指南文档（如巴西卫生部、CONITEC等机构发布），并提供了1,487个人工相关性判断注释。作为首个面向巴西葡萄牙语临床决策支持系统的公开基准，MIRAGE-PT为评估混合检索策略（如BM25与稠密检索的结合）提供了标准化测试平台，推动了低资源语言环境下医疗信息检索的研究进展。

当前挑战

该数据集主要面临两大挑战：其一，临床领域信息检索需解决专业术语歧义性与查询理解问题，例如巴西葡萄牙语中药物名称与诊断编码的复杂性，以及简单查询（如药理信息）与复杂查询（如临床决策推理）之间的检索难度差异；其二，构建过程中需应对临床文档数量有限（仅25份）、标注依赖LLM裁判（κ=0.954）带来的潜在偏差，以及如何在低资源场景下平衡检索精度（如BM25的Recall@5达99%但稠密检索的NDCG仅0.354）与排序质量的矛盾。

常用场景

经典使用场景

在巴西葡萄牙语临床文本的信息检索领域，MIRAGE-PT数据集凭借其精心构建的500条临床查询与1,487条人工相关性判定，成为评估检索增强生成（RAG）系统性能的标杆基准。研究团队可借助该数据集模拟真实临床决策场景，系统性地对比BM25稀疏检索、稠密向量检索及混合检索策略在六类专科问题上的检索效果。数据集中查询被划分为简单与复杂两类，结合25份巴西官方临床指南文档构成的语料库，为评估模型在有限文档集合上的精确召回能力提供了标准化测试平台。

解决学术问题

该数据集的核心学术贡献在于破解了葡萄牙语临床领域缺乏标准化检索评估基准的困境。既往研究多依赖英语言语资源，忽视了非英语医疗文本中术语差异、文档结构特殊性及检索策略互补性等关键问题。通过同时提供稀疏与稠密检索的基线结果，MIRAGE-PT实证揭示了混合检索结合权威性排序可显著提升NDCG@5指标，为后续研究探索如何将临床文档权威性、语义相似度与检索排序算法有机融合提供了理论突破口。

实际应用

在巴西公共卫生系统的实际应用中，MIRAGE-PT直接支撑了临床决策支持系统的智能化升级。当医生面对用药咨询、急救流程、医保覆盖等复杂场景时，集成了该数据集训练的检索模块可快速从巴西卫生部、CONITEC等机构发布的官方指南中精准定位相关证据。这种基于混合检索的RAG架构已在药品定价查询、儿科诊疗方案匹配等场景展现出显著效能，有效缩短了临床证据获取时间，提升了低资源地区基层医疗单位的信息服务能力。

数据集最近研究