CalCOFI 1110NH Cruise Data. In California Cooperative Oceanic Fisheries Investigations (CalCOFI): Acoustic and Trawl Data|海洋生态学数据集|声学遥感数据集
收藏Tara Oceans
Tara Oceans数据集包含了全球海洋微生物的宏基因组和宏转录组数据,涵盖了从极地到热带的多个海洋生态系统。数据包括微生物的DNA和RNA序列,以及相关的环境元数据。
www.ebi.ac.uk 收录
EcoInvent
EcoInvent是一个生命周期评估(LCA)数据库,包含了大量产品的环境影响数据。它提供了详细的产品生命周期数据,包括原材料提取、生产、使用和废弃处理等各个阶段的环境影响信息。
www.ecoinvent.org 收录
USGS Water Data for the Nation
该数据集包含了美国全国范围内的水文数据,包括河流流量、水质、地下水位等。数据由美国地质调查局(USGS)定期更新,覆盖了多个州和地区。
waterdata.usgs.gov 收录
中国逐日格点降水数据集V2(1960–2024,0.1°)
CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。
国家青藏高原科学数据中心 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
