PMC-Patients|医学信息检索数据集|患者数据分析数据集
收藏PMC-Patients 数据集概述
数据集描述
- 数据集名称: PMC-Patients
- 数据集类型: 患者摘要数据集
- 数据来源: PubMed Central (PMC) 中的病例报告
- 数据规模: 包含167,000个患者摘要,310万条患者-文章关联标注,293,000条患者-患者相似性标注
- 语言: 英语 (en)
- 许可证: CC BY-NC-SA 4.0
数据集结构
PMC-Patients.csv
该文件包含PMC-Patients数据集中所有患者摘要的信息,具体字段如下:
patient_id
: 字符串类型,患者的连续ID,从0开始。patient_uid
: 字符串类型,每个患者的唯一ID,格式为PMID-x,其中PMID是患者来源文章的PubMed标识符,x表示患者在来源文章中的索引。PMID
: 字符串类型,来源文章的PMID。file_path
: 字符串类型,来源文章的XML文件路径。title
: 字符串类型,来源文章的标题。patient
: 字符串类型,患者摘要。age
: 列表类型,每个条目为(value, unit)
格式,其中value为浮点数,unit为年龄单位(year, month, week, day, hour)。例如,[[1.0, year], [2.0, month]]
表示患者为1岁2个月大的婴儿。gender
: 字符串类型,M表示男性,F表示女性。relevant_articles
: 字典类型,键为相关文章的PMID,值为其相关性得分(2或1,定义见“方法”部分)。similar_patients
: 字典类型,键为相似患者的patient_uid,值为其相似性得分(2或1,定义见“方法”部分)。
支持的任务和排行榜
- 任务: 基于PMC-Patients数据集,定义了两个任务来评估基于检索的临床决策支持系统(ReCDS):患者-文章检索(PAR)和患者-患者检索(PPR)。
- 排行榜: 请参考排行榜。
引用信息
如果PMC-Patients数据集对你的研究有帮助,请引用以下文献:
@article{zhao2023large, title={A large-scale dataset of patient summaries for retrieval-based clinical decision support systems}, author={Zhao, Zhengyun and Jin, Qiao and Chen, Fangyuan and Peng, Tuorui and Yu, Sheng}, journal={Scientific Data}, volume={10}, number={1}, pages={909}, year={2023}, publisher={Nature Publishing Group UK London} }

MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录
OpenPose
OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。
github.com 收录
Movies Dataset
这个数据集包含电影的详细信息,包括电影名称、评分、类型、年份、发布日期、IMDb评分、投票数、导演、编剧、主演、制作国家、预算、总收入、制作公司和电影时长。
github 收录