ANI-1|分子模拟数据集|计算化学数据集
收藏数据集概述
- 名称: ANI-1数据集
- 用途: 提供2000万个计算得到的非平衡构象的有机分子数据,用于开发具有DFT精度且计算成本接近力场方法的神经网络势能模型。
数据集内容
- 数据格式: 存储于HDF5文件格式中,包含8个HDF5文件,文件名为ani_gdb_s0x.h5,其中x表示分子中重原子(CNO)的数量。
- 数据内容: 包含分子的坐标(单位:埃)和能量(单位:哈特里)。
数据集引用
- 引用文献1: Justin S. Smith, Olexandr Isayev, Adrian E. Roitberg. ANI-1: An extensible neural network potential with DFT accuracy at force field computational cost. Chemical Science, 2017, DOI: 10.1039/C6SC05720A
- 引用文献2: Justin S. Smith, Olexandr Isayev, Adrian E. Roitberg. ANI-1, A data set of 20 million calculated off-equilibrium conformations for organic molecules. Scientific Data, 4, Article number: 170193, DOI: 10.1038/sdata.2017.193
数据集使用
- 软件要求: Python3.5及以上版本,Numpy,H5PY。
- 提取软件: 包含
pyanitools.py和example_data_sampler.py,用于加载和解析ANI-1数据集。 - 安装与测试: 需将
ANI-1_release/readers/lib/添加到PYTHONPATH,并通过运行example_data_sampler.py进行测试。
数据集详细信息
- 文件提取: 使用命令
tar -xzf ani-1_dataset.tar.gz在Unix系统上提取数据集。 - 数据单位: 坐标单位为埃,能量单位为哈特里。
- 自相互作用原子能量: H = -0.500607632585, C = -37.8302333826, N = -54.5680045287, O = -75.0362229210。

LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
rule34lol-images-part2
该数据集'rule34lol-images-part2'是'rule34lol-images'数据集的第二部分,包含来自rule34.lol图像板的77,000个图像文件的元数据。数据集包括每个图像的URL、图像URL、文件路径和标签等字段。图像存储在zip存档中,并提供索引文件以便于访问。该数据集采用CC0许可,允许无限制使用、修改和分发。
huggingface 收录
TongueDx Dataset
TongueDx数据集是一个专为远程舌诊研究设计的综合性舌象图像数据集,由香港理工大学和新加坡管理大学的研究团队创建。该数据集包含5109张图像,涵盖了多种环境条件下的舌象,图像通过智能手机和笔记本电脑摄像头采集,具有较高的多样性和代表性。数据集不仅包含舌象图像,还提供了详细的舌面属性标注,如舌色、舌苔厚度等,并附有受试者的年龄、性别等人口统计信息。数据集的创建过程包括图像采集、舌象分割、标准化处理和多标签标注,旨在解决远程医疗中舌诊图像质量不一致的问题。该数据集的应用领域主要集中在远程医疗和中医诊断,旨在通过自动化技术提高舌诊的准确性和可靠性。
arXiv 收录
O*NET
O*NET(Occupational Information Network)是一个综合性的职业信息数据库,提供了关于各种职业的详细描述,包括技能要求、工作活动、知识领域、工作环境等。该数据集被广泛用于职业分析、教育和劳动力市场研究。
www.onetonline.org 收录
