smiles-molecules-chembl|药物发现数据集|分子生成数据集
收藏ChEMBL Molecule Generation Dataset
数据集描述
ChEMBL 是一个人工 curated 的生物活性分子数据库,具有药物样特性。它汇集了化学、生物活性和基因组数据,以促进基因组信息转化为有效的新药物。
任务描述
适用于基于分布学习和目标导向的分子生成任务。即生成具有某些预定义属性的新分子。
数据集统计
- 总共包含 1,941,405 个分子
- 训练集:1,358,980 个分子
- 验证集:194,123 个分子
- 测试集:388,302 个分子
数据集由 Therapeutics Data Commons 进行随机分割,并移除了缺失值。
参考文献
- Mendez, David, et al. “ChEMBL: towards direct deposition of bioassay data.” Nucleic acids research 47.D1 (2019): D930-D940.
- Davies, Mark, et al. “ChEMBL web services: streamlining access to drug discovery data and utilities.” Nucleic acids research 43.W1 (2015): W612-W620.

典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
TPTP
TPTP(Thousands of Problems for Theorem Provers)是一个包含大量逻辑问题的数据集,主要用于定理证明器的测试和评估。它包含了多种逻辑形式的问题,如一阶逻辑、高阶逻辑、命题逻辑等。
www.tptp.org 收录
Chinese-Roleplay-Novel
该数据集旨在填补中文角色扮演领域中交互游戏方向的开源数据空白。基于4500条小说文本,构建了约260条酒馆风格的多轮对话数据,每轮对话均包含详细的状态数据,如时间、角色状态、任务进度等。数据集结构包括世界观、场景、角色、对话内容等,状态信息以列表、表格、JSON等多种格式呈现。
huggingface 收录