PMC-Patients|医学研究数据集|数据分析数据集
收藏数据集概述
名称: PMC-Patients
描述: PMC-Patients 是一个独特的数据集,包含从PubMed Central (PMC) 提取的167k患者摘要,以及3.1M患者-文章相关性和293k患者-患者相似性注释,这些注释基于PubMed引用图定义。
数据集内容
核心文件
- PMC-Patients.json: 包含患者摘要、人口统计信息和关系注释的JSON文件。
patient_id
: 患者连续ID,从0开始。patient_uid
: 患者唯一ID,格式为PMID-x。PMID
: 源文章的PubMed标识符。file_path
: 源文章的XML文件路径。title
: 源文章标题。patient
: 患者笔记。age
: 年龄信息,格式为(值, 单位)
。gender
: 性别,M或F。relevant_articles
: 相关文章的PMID及其相关性分数。similar_patients
: 相似患者的patient_uid及其相似性分数。
ReCDS基准
- 任务: 患者到文章检索(PAR)和患者到患者检索(PPR)。
- 数据格式: 遵循BEIR基准,包括查询、语料库和qrels。
- 查询: 存储为
jsonl
文件,包含_id
和text
字段。 - 语料库: 对于PAR包含11.7M PubMed文章,对于PPR包含155.2k参考患者。
- Qrels: TREC风格的检索注释文件,格式为
tsv
,包含查询标识符、语料库标识符和分数。
- 查询: 存储为
数据下载
- 可通过Figshare或Huggingface免费下载,无需数据使用协议。
评估与提交
- 提供基于BEIR的评估代码,用于评估模型并生成检索结果。
- 提交至leaderboard需通过电子邮件发送检索分数和系统描述至zhengyun21@mails.tsinghua.edu.cn。
引用信息
-
引用格式:
@article{Zhao2023ALD, title={A large-scale dataset of patient summaries for retrieval-based clinical decision support systems.}, author={Zhengyun Zhao and Qiao Jin and Fangyuan Chen and Tuorui Peng and Sheng Yu}, journal={Scientific data}, year={2023}, volume={10 1}, pages={909}, url={https://api.semanticscholar.org/CorpusID:266360591} }

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录