Therapeutic Data Commons (TDC)|药物发现数据集|治疗研究数据集
收藏
- Therapeutic Data Commons (TDC) 首次发表,标志着该数据集的正式推出,旨在为药物发现和治疗研究提供一个综合性的数据平台。
- TDC 首次应用于多个药物发现项目,展示了其在加速新药研发过程中的潜力和价值。
- TDC 发布了其首个重大更新,增加了新的数据集和功能,进一步丰富了其内容和应用范围。
- 1Therapeutic Data Commons: Machine Learning Datasets for TherapeuticsMIT · 2021年
- 2Deep learning for drug repurposing: methods, databases, and applicationsElsevier · 2020年
- 3A comprehensive review of machine learning applications in drug discoveryElsevier · 2021年
- 4Machine learning in drug discovery: challenges and opportunitiesNature · 2020年
- 5Deep learning for drug discovery and developmentElsevier · 2019年
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
光伏电站发电量预估数据
1、准确预测一个地区分布式光伏场站的整体输出功率,可以提高电网的稳定性,增加电网消纳光电能量的能力,在降低能源消耗成本的同时促进低碳能源发展,实现动态供需状态预测的方法,为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量,可以自动发现一些有故障的设备或者低效电站,提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理,用累计发电量矫正小时平均发电功率,剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作,剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据,其中误差率=(发电量-预估发电量)/发电量,当误差率低于一定阈值时,该数据预测为准确。预测准确率=预测准确数量/预测数据总量。
浙江省数据知识产权登记平台 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
UAV-VisLoc - 用于无人机视觉定位的大规模数据集
UAV-VisLoc数据集由北京邮电大学、中科院和香港城市大学联合构建,旨在解决无人机在失去全球导航卫星系统信号时的精确定位问题。该数据集涵盖了中国11个不同地点的无人机图像,捕获了多样化的地形特征,包括固定翼无人机和多地形无人机在不同高度和方向上拍摄的6742张图像以及11幅卫星地图。每张图像均附有经纬度、高度、拍摄日期和航向角等元数据,为模型的训练与测试提供了丰富多元的数据支持。UAV-VisLoc数据集用于支持无人机视觉定位任务,为无人机视觉定位任务提供了训练和测试样本,通过匹配无人机拍摄的地面向下视角图像与正射卫星地图,实现无人机的自主视觉定位。
github 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录