five

clinical trials information|临床试验数据集|医学研究数据集

收藏
github2024-02-23 更新2024-05-31 收录
临床试验
医学研究
下载链接:
https://github.com/datasets/clinical-trials-us
下载链接
链接失效反馈
资源简介:
来自ClinicalTrials.gov的官方美国临床试验结果数据,包含公开和私人支持的全球人类参与者临床研究。

Official U.S. clinical trial results data from ClinicalTrials.gov, encompassing both publicly and privately supported clinical studies involving human participants worldwide.
创建时间:
2013-02-07
原始信息汇总

数据集概述

数据来源

  • 数据集来源于ClinicalTrials.gov,这是一个公开和私人支持的人类参与者临床研究全球注册和结果数据库。

数据获取

  • 访问ClinicalTrials.gov,搜索所有结果并下载542Mb的search_results.zip文件,解压后得到2.3Gb的临床试验XML文件。

数据结构

  • 数据格式为XML,具体结构参考XSD文件

数据样本

  • 示例文件包括data/NCT00000102.xml(无结果)和data/NCT01101477.xml(含结果)。

数据统计

  • 截至2013年2月2日,共有139,848个XML文件。
  • 截至2013年2月1日,仅有8,044个试验包含已发布的结果。

处理脚本

  • 提供了一个Node.js脚本extract.js,目前仍在开发中。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于ClinicalTrials.gov平台,该平台是一个全球范围内公开和私人支持的人类参与者临床试验的注册和结果数据库。自2007年9月起,根据FDAAA 801法规,所有适用的临床试验必须在该数据库中注册。数据集通过从该平台下载所有搜索结果构建,下载的文件为XML格式,包含大量临床试验的详细信息。
特点
数据集包含139,848个XML文件,截至2013年2月2日的数据统计,其中仅有8,044个试验包含发布的结果。每个XML文件详细记录了临床试验的各个方面,包括试验设计、参与者信息、干预措施和结果等。数据集的XML结构遵循特定的XSD模式,确保了数据的标准化和一致性。
使用方法
使用该数据集时,用户首先需访问ClinicalTrials.gov网站,通过无查询搜索获取所有结果,并下载包含所有数据的ZIP文件。解压后,用户将获得2.3GB的XML文件。为进一步处理数据,可使用提供的Node.js脚本extract.js,该脚本仍在开发中,但已能帮助用户提取和分析XML文件中的关键信息。
背景与挑战
背景概述
临床实验信息数据集源自ClinicalTrials.gov,这是一个全球范围内公开和私人支持的人类参与者临床研究的注册和结果数据库。自2007年9月起,根据FDAAA 801法案,所有适用的临床试验都必须在该数据库中注册。该数据集由大量XML文件组成,截至2013年2月2日,共包含139,848个文件,其中仅有8,044个试验包含了发布的结果。这一数据集的创建旨在为研究人员、医疗专业人员和政策制定者提供全面、透明的临床试验信息,从而促进医学研究的透明度和可访问性。
当前挑战
临床实验信息数据集在解决临床试验透明度和可访问性问题方面面临多重挑战。首先,尽管数据集规模庞大,但仅有少数试验包含了发布的结果,这限制了数据的完整性和实用性。其次,数据的XML格式虽然结构化,但其复杂性增加了数据解析和处理的难度,尤其是在需要自动化处理和分析时。此外,数据集的更新频率和实时性也是一个重要问题,因为临床试验的进展和结果发布需要及时反映在数据库中。最后,数据集的构建和维护需要跨学科合作,包括医学、信息技术和法律等多个领域的专业知识,这对数据集的持续发展和优化提出了更高的要求。
常用场景
经典使用场景
在医学研究领域,clinical trials information数据集被广泛用于分析全球范围内的临床试验数据。研究者通过该数据集可以获取关于药物疗效、治疗方案比较以及患者安全性的关键信息。这些数据对于验证新药的有效性和安全性至关重要,同时也为医学研究提供了丰富的实证基础。
衍生相关工作
基于clinical trials information数据集,许多经典的研究工作得以展开。例如,研究者开发了新的数据分析工具和算法,用于更高效地处理和分析大规模的临床试验数据。此外,该数据集还催生了一系列关于临床试验透明度和数据共享的学术讨论,推动了医学研究领域的开放科学运动。
数据集最近研究
最新研究方向
在医学研究领域,clinical trials information数据集为全球范围内的临床试验提供了详尽的注册与结果数据。近年来,随着精准医疗和个性化治疗理念的兴起,该数据集在药物研发、治疗方案优化及患者分层研究中的应用日益广泛。研究者们通过分析这些数据,能够更深入地理解不同治疗方案的效果与安全性,进而推动新药的快速审批与上市。此外,随着人工智能与大数据技术的融合,该数据集在预测模型构建、临床试验设计优化及患者招募策略改进等方面展现出巨大潜力。特别是在COVID-19疫情期间,该数据集为疫苗与治疗药物的快速研发提供了重要支持,进一步凸显了其在公共卫生事件中的关键作用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

Global Livestock Geo-Wiki

Global Livestock Geo-Wiki是一个全球牲畜分布数据集,旨在提供全球范围内牲畜分布的详细信息。该数据集包括不同类型的牲畜(如牛、羊、猪等)的分布情况,以及相关的环境和社会经济数据。

livestock.geo-wiki.org 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录

FMA (Free Music Archive)

免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集

OpenDataLab 收录