Therapeutic Data Commons (TDC)|药物发现数据集|治疗研究数据集

tdcommons.ai2024-10-26 收录

药物发现

治疗研究

下载链接：

https://tdcommons.ai/

下载链接

链接失效反馈

资源简介：

Therapeutic Data Commons (TDC) 是一个综合性的数据平台，旨在为药物发现和治疗研究提供高质量的数据集。该数据集包括多种类型的数据，如分子结构、生物活性、药物相互作用、疾病关联等，涵盖了从基础研究到临床应用的多个领域。TDC 的目标是通过整合和标准化这些数据，促进药物研发和治疗策略的创新。

提供机构：

tdcommons.ai

AI搜集汇总

数据集介绍

构建方式

Therapeutic Data Commons (TDC) 数据集的构建基于对多种治疗相关数据的系统性整合与标准化处理。该数据集涵盖了从药物发现到临床应用的广泛领域，包括药物分子结构、生物活性、临床试验数据等。通过采用先进的数据挖掘技术和机器学习算法，TDC 数据集实现了对海量数据的精准分类和高效检索，为研究人员提供了全面且易于访问的治疗相关数据资源。

特点

TDC 数据集的显著特点在于其多源数据的集成性和高度的可扩展性。该数据集不仅包含了传统的药物化学数据，还纳入了基因组学、蛋白质组学等多维度信息，极大地丰富了数据的内容和深度。此外，TDC 数据集采用了统一的数据格式和标准化的数据处理流程，确保了数据的一致性和可靠性，为跨学科研究提供了坚实的基础。

使用方法

TDC 数据集的使用方法灵活多样，适用于不同层次和领域的研究需求。研究人员可以通过 TDC 提供的在线平台直接访问和下载所需数据，进行定制化的数据分析和模型构建。同时，TDC 还提供了丰富的数据处理工具和可视化接口，帮助用户快速理解和利用数据。对于高级用户，TDC 支持 API 接口，允许用户将数据集成到自定义的分析流程中，实现更深层次的数据挖掘和应用。

背景与挑战

背景概述

Therapeutic Data Commons (TDC) 是一个专注于药物发现和治疗领域的大型数据集，由多个国际知名研究机构和制药公司联合创建。该数据集的构建始于2020年，旨在整合和标准化来自不同来源的生物医学数据，以支持药物研发中的机器学习和数据驱动的决策。TDC的核心研究问题包括药物-靶标相互作用预测、药物再利用、以及新药发现等，其影响力在于为学术界和工业界提供了一个统一的数据平台，极大地促进了跨学科合作和创新。

当前挑战

尽管TDC在药物发现领域具有重要意义，但其构建和应用过程中仍面临诸多挑战。首先，数据整合的标准化和质量控制是一个主要难题，不同来源的数据格式和质量差异较大，增加了数据预处理的复杂性。其次，数据隐私和安全问题也是一大挑战，尤其是在涉及患者数据和知识产权保护方面。此外，如何有效地利用TDC进行大规模机器学习模型的训练和验证，以提高药物发现的准确性和效率，也是当前研究的重点和难点。

发展历史

创建时间与更新

Therapeutic Data Commons (TDC) 数据集于2020年首次发布，旨在整合和标准化多种治疗相关数据，以促进药物发现和开发的研究。自发布以来，TDC持续进行更新，最新版本于2023年发布，引入了更多高质量的数据源和功能，以满足不断增长的科研需求。

重要里程碑

TDC的一个重要里程碑是其在2021年成功整合了超过50个公开数据集，涵盖了药物-靶点相互作用、药物副作用、疾病基因关联等多个领域。这一整合不仅极大地丰富了数据集的内容，还显著提高了数据的可访问性和可用性。此外，TDC在2022年推出了首个基于机器学习的预测模型库，为研究人员提供了强大的工具，以加速药物发现和评估过程。

当前发展情况

当前，TDC已成为药物发现和治疗研究领域的重要资源，其数据集和工具被广泛应用于学术界和工业界。TDC不仅提供了丰富的数据资源，还通过持续的技术创新和社区合作，推动了数据驱动的药物研发方法的发展。未来，TDC计划进一步扩展其数据集的覆盖范围，引入更多类型的治疗相关数据，并开发更先进的分析工具，以支持更高效和精准的药物发现过程。

发展历程

Therapeutic Data Commons (TDC) 首次发表，标志着该数据集的正式推出，旨在为药物发现和治疗研究提供一个综合性的数据平台。
2020年
TDC 首次应用于多个药物发现项目，展示了其在加速新药研发过程中的潜力和价值。
2021年
TDC 发布了其首个重大更新，增加了新的数据集和功能，进一步丰富了其内容和应用范围。
2022年

常用场景

经典使用场景

在药物研发领域，Therapeutic Data Commons (TDC) 数据集被广泛用于药物相互作用预测、药物靶点识别以及药物副作用分析等经典场景。通过整合多源异构的生物医学数据，TDC 提供了丰富的药物相关信息，使得研究人员能够构建更为精准的药物作用模型，从而加速新药的发现与开发进程。

衍生相关工作

基于 TDC 数据集，研究人员开发了多种药物预测模型和算法，如基于深度学习的药物相互作用预测模型、药物靶点网络分析工具等。这些衍生工作不仅丰富了药物研发的方法论，还推动了相关领域的技术进步。例如，一些研究团队利用 TDC 数据集开发了新的药物筛选平台，显著提高了药物发现的效率和成功率。

数据集最近研究

相关研究论文

1
Therapeutic Data Commons: Machine Learning Datasets for TherapeuticsMIT · 2021年
2
Deep learning for drug repurposing: methods, databases, and applicationsElsevier · 2020年
3
A comprehensive review of machine learning applications in drug discoveryElsevier · 2021年
4
Machine learning in drug discovery: challenges and opportunitiesNature · 2020年
5
Deep learning for drug discovery and developmentElsevier · 2019年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取；气象实测数据从气象站获取，气象站建于电站30号箱变附近，每5分钟将采集的数据通过光纤传输到机房；数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统（包括30TF计算刀片机、250TB并行存储）进行中尺度模式计算后输出预报产品，每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心收录

光伏电站发电量预估数据

1、准确预测一个地区分布式光伏场站的整体输出功率，可以提高电网的稳定性，增加电网消纳光电能量的能力，在降低能源消耗成本的同时促进低碳能源发展，实现动态供需状态预测的方法，为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量，可以自动发现一些有故障的设备或者低效电站，提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理，用累计发电量矫正小时平均发电功率，剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作，剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据，其中误差率=(发电量-预估发电量)/发电量，当误差率低于一定阈值时，该数据预测为准确。预测准确率=预测准确数量/预测数据总量。

浙江省数据知识产权登记平台收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

UAV-VisLoc - 用于无人机视觉定位的大规模数据集

UAV-VisLoc数据集由北京邮电大学、中科院和香港城市大学联合构建，旨在解决无人机在失去全球导航卫星系统信号时的精确定位问题。该数据集涵盖了中国11个不同地点的无人机图像，捕获了多样化的地形特征，包括固定翼无人机和多地形无人机在不同高度和方向上拍摄的6742张图像以及11幅卫星地图。每张图像均附有经纬度、高度、拍摄日期和航向角等元数据，为模型的训练与测试提供了丰富多元的数据支持。UAV-VisLoc数据集用于支持无人机视觉定位任务，为无人机视觉定位任务提供了训练和测试样本，通过匹配无人机拍摄的地面向下视角图像与正射卫星地图，实现无人机的自主视觉定位。

github 收录

中国高分辨率高质量PM2.5数据集（2000-2023）

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集（ChinaHighAirPollutants, CHAP）中PM2.5数据集。该数据集利用人工智能技术，使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值，结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92，均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区，空间分辨率为1 km，时间分辨率为日、月、年，单位为µg/m3。注意：该数据集持续更新，如需要更多数据，请发邮件联系作者（weijing_rs@163.com; weijing@umd.edu）。数据文件中包含NC转GeoTiff的四种代码（Python、Matlab、IDL和R语言）nc2geotiff codes。

国家青藏高原科学数据中心收录