Colour Science - Datasets|颜色科学数据集|数据集管理数据集
收藏数据集概述
数据集描述
Colour - Datasets 是一个用于颜色科学的数据集集合,适用于 Colour
或其他处理颜色的 Python 包。这些数据集托管在 Zenodo
的 Colour Science - Datasets
社区下。该数据集集合是开源的,遵循 BSD-3-Clause
许可证。
数据集特点
Colour - Datasets 旨在解决以下常见问题:
- 数据集内容没有直接的导入路径。
- 数据集内容没有简单的加载机制。
- 数据集不可用,例如下载链接失效,数据集内容通过手对手传递。
- 没有关于数据集确切来源的信息。
Colour - Datasets 提供了解决方案:允许用户通过单个函数调用导入和加载颜色科学数据集。数据集信息托管在 Zenodo
上,通常包含以下内容:
- 描述数据集文件来源的 urls.txt 文件。
- 在源文件不可用或内容更改时,提供这些文件的副本。
- 关于作者、内容和许可的信息。
如果没有明确的许可信息,数据集采用 Other (Not Open) 许可方案,使用条件的评估由用户自行决定。
数据集示例
Colour - Datasets 可以通过 Google Colab
在线使用。大多数对象可以从 colour_datasets
命名空间访问:
python import colour_datasets
可用数据集可以通过 colour_datasets.datasets()
定义列出:
python print(colour_datasets.datasets())
输出示例:
text colour-science-datasets
Datasets : 23 Synced : 1 URL : https://zenodo.org/communities/colour-science-datasets/
Datasets
[ ] 3269926 : Agfa IT8.7/2 Set - Marszalec (n.d.) [ ] 8314702 : Camera Dataset - Solomatov and Akkaynak (2023) [ ] 3245883 : Camera Spectral Sensitivity Database - Jiang et al. (2013) [ ] 3367463 : Constant Hue Loci Data - Hung and Berns (1995) [ ] 3362536 : Constant Perceived-Hue Data - Ebner and Fairchild (1998) [ ] 3270903 : Corresponding-Colour Datasets - Luo and Rhodes (1999) [ ] 3269920 : Forest Colors - Jaaskelainen et al. (1994) [ ] 4394536 : LUTCHI Colour Appearance Data - Luo and Rhodes (1997) [x] 3245875 : Labsphere SRS-99-020 - Labsphere (2019) [ ] 3269924 : Lumber Spectra - Hiltunen (n.d.) [ ] 4051012 : Measured Commercial LED Spectra - Brendel (2020) [ ] 3269918 : Munsell Colors Glossy (All) (Spectrofotometer Measured) - Orava (n.d.) [ ] 3269916 : Munsell Colors Glossy (Spectrofotometer Measured) - Haanpalo (n.d.) [ ] 3269914 : Munsell Colors Matt (AOTF Measured) - Hauta-Kasari (n.d.) [ ] 3269912 : Munsell Colors Matt (Spectrofotometer Measured) - Hauta-Kasari (n.d.) [ ] 3245895 : New Color Specifications for ColorChecker SG and Classic Charts - X-Rite (2016) [ ] 3252742 : Observer Function Database - Asano (2015) [ ] 3269922 : Paper Spectra - Haanpalo (n.d.) [ ] 6590768 : Physlight - Camera Spectral Sensitivity Curves - Winquist et al. (2022) [ ] 3372171 : RAW to ACES Utility Data - Dyer et al. (2017) [ ] 4642271 : Spectral Database of Commonly Used Cine Lighting - Karge et al. (2015) [ ] 4297288 : Spectral Sensitivity Database - Zhao et al. (2009) [ ] 4050598 : Spectral Upsampling Coefficient Tables - Jakob and Hanika. (2019)
勾选的复选框表示该数据集已本地同步。数据集可以通过其唯一编号加载,例如:
python print(colour_datasets.load("3245895").keys())
输出示例:
text odict_keys([ColorChecker24 - After November 2014, ColorChecker24 - Before November 2014, ColorCheckerSG - After November 2014, ColorCheckerSG - Before November 2014])
数据集也可以通过其完整标题加载。
用户指南
安装
Colour - Datasets 需要以下依赖项:
python >= 3.9, < 4
cachetools
colour-science >= 4.3
imageio >= 2, < 3
numpy >= 1.22, < 2
scipy >= 1.8, < 2
tqdm
xlrd
可以通过 pip
安装:
shell pip install --user colour-datasets
开发依赖项可以通过以下命令安装:
shell pip install --user colour-datasets[development]
贡献
如果您想为 Colour - Datasets
做出贡献,请参考 Colour
的贡献指南。
参考文献
参考文献以 BibTeX
格式提供。
API 参考
Colour - Datasets
的主要技术参考是 API 参考文档。
行为准则
行为准则基于 Contributor Covenant 1.4
。
联系方式
Colour Developers 可以通过以下方式联系:
- 电子邮件
- Github Discussions
- Gitter
关于
Colour - Datasets 由 Colour Developers 开发,遵循 BSD-3-Clause
许可证。

金庸语料库
从金庸15部小说中收集了1373个人名、292个地名、384个武功名称、119种武器名称、97个门派名称。
github 收录
中国区域地面气象要素驱动数据集 v2.0(1951-2024)
中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。
国家青藏高原科学数据中心 收录
Comparative Toxicogenomics Database (CTD)
Comparative Toxicogenomics Database(CTD)是一个公开的综合性数据库,专注于研究环境暴露与人类健康之间的关系。该数据库整合了化学物质、基因、疾病、通路等多维度信息,支持用户查询基因与疾病、化学物质与疾病以及化学物质与基因之间的相互作用,为毒理学研究和环境健康效应研究提供了重要资源。其最新成果包括2025年发布的20周年更新版本,进一步扩展了数据内容和功能。
ctdbase.org 收录
MIMIC-IV数据库
MIMIC全称是Medical Information Mart for Intensive Care, 是一个重症医学数据库。2003年,在NIH的资助下,来自贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)、麻省理工(MIT)、牛津大学和麻省总医院(MGH)的急诊科医生、重症科医生、计算机科学专家等共同建立的一个数据库。
github 收录
Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录