EHRSQL|医疗信息处理数据集|自然语言处理数据集

arXiv2023-12-25 更新2024-07-30 收录

医疗信息处理

自然语言处理

下载链接：

https://github.com/glee4810/EHRSQL

下载链接

链接失效反馈

资源简介：

EHRSQL是一个针对电子健康记录（EHRs）的文本到SQL数据集。该数据集由222名医院工作人员的语音记录组成，包括医生、护士和保险审查及健康记录团队。数据集通过在一所大学医院进行调查，并使用调查结果创建种子问题，然后手动将这些问题链接到两个开源EHR数据库MIMIC-III和eICU。数据集包含各种时间表达式和无法回答的问题，这些问题也是从调查中收集的。EHRSQL数据集提出了独特的挑战：模型需要生成反映医院广泛需求的SQL查询，理解医疗保健中时间敏感问题的各种时间表达式，并区分给定问题是否可回答。

创建时间：

2023-01-16

原始信息汇总

EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records

概述

EHRSQL是一个大规模、高质量的数据集，旨在针对来自MIMIC-III和eICU的电子健康记录进行文本到SQL的问答。该数据集包括从222名医院工作人员（如医生、护士、保险审查员和健康记录团队）收集的问题。它可以用于测试问答模型的三个方面：生成医院工作场所中广泛使用的SQL查询、理解各种类型的时间表达（绝对、相对或两者）以及在模型预测不自信时拒绝回答（查询数据库）的能力。

数据集详情

问题和SQL

train.json文件包含以下字段：

db_id: 数据库ID
question: 问题的改写版本
template: 原始模板问题
query: 对应的SQL查询
value: 从数据库中采样的值
q_tag: 问题模板
t_tag: 采样的时间模板
o_tag: 采样的操作值
tag: 问题模板与时间模板和操作值的组合
department: 问题收集的医院部门
importance: 问题在医院中的重要性（高、中、低或n/a）
para_type: 改写的来源（机器或人工）
is_impossible: 问题是否可回答
split: 数据分割（训练、验证或测试）
id: 每个数据实例的唯一ID

valid.json中，可回答实例与train.json结构相同，不可回答实例字段较少。

表格

tables.json包含以下信息：

db_id: 数据库ID
table_names_original: 数据库中的原始表名
table_names: 清理和规范化的表名
column_names_original: 数据库中的原始列名
column_names: 清理和规范化的列名
column_types: 列的数据类型
foreign_keys: 数据库中的外键
primary_keys: 数据库中的主键

数据库

访问数据库需要PhysioNet的认证访问权限，下载链接如下：

下载后，运行以下代码进行数据库预处理： bash cd preprocess python3 preprocess_db.py --data_dir <path_to_mimic_iii_csv_files> --db_name mimic_iii --deid --timeshift --current_time "2105-12-31 23:59:00" --start_year 2100 --time_span 5 --cur_patient_ratio 0.1

T5 SQL生成

训练T5-base模型： bash python T5/main.py --config T5/config/ehrsql/training/ehrsql_mimic3_t5_base.yaml --CUDA_VISIBLE_DEVICES <gpu_id>

生成带有拒绝回答的SQL查询： bash python T5/main.py --config T5/config/ehrsql/eval/ehrsql_mimic3_t5_base__mimic3_valid.yaml --output_file prediction_raw.json --CUDA_VISIBLE_DEVICES <gpu_id> python T5/abstain_with_entropy.py --inference_result_path outputs/eval_ehrsql_mimic3_t5_base__mimic3_valid --input_file prediction_raw.json --output_file prediction.json --threshold 0.14923561

评估

评估生成的SQL查询： bash python evaluate.py --db_path ./dataset/ehrsql/mimic_iii/mimic_iii.sqlite --data_file dataset/ehrsql/mimic_iii/valid.json --pred_file ./outputs/eval_ehrsql_mimic3_t5_base__mimic3_valid/prediction.json

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息，数据通过爬虫技术获取并整理成CSV格式，用于音乐数据挖掘和推荐系统构建。

github 收录