fridayai_smart_datasets|人工智能数据集|机器学习数据集
收藏Friday AI Dataset Collection 概述
基本信息
- 许可证: creativeml-openrail-m
- 任务类别: 文本分类
- 数据集名称: smartest_dataset
- 数据规模: 10M<n<100M
数据集内容
数据集名称 | 描述 |
---|---|
AlgoDiscovery.json |
用于算法发现和问题解决任务的结构化数据。 |
Friendslovelyconv.zip |
可能包含对话或文本数据的归档数据集。 |
Instructionsfollowcop.csv |
用于指令跟随和代码相关任务的综合数据集。 |
Olympiad_combinatorics_number_theory.json |
专注于组合数学和数论的数学问题,用于机器学习训练。 |
Oneofcodetraindata.jsonl |
JSONL格式的代码训练数据,适用于编程模型开发。 |
Symbolic_differentiation.json |
用于数学建模中的符号微分任务的数据。 |
financial_risk20-25_compliance.csv |
用于分析和预测的金融风险和合规数据(2020-2025)。 |
multi_variable_optimization.json |
多变量优化问题,适用于高级机器学习模型。 |
scbusinessconsultingtune.json |
用于微调领域特定模型的商业咨询数据集。 |
zfc_theory_aimath.json |
用于高级数学推理任务的ZFC集合论数据。 |
应用领域
- 数学推理: 使用
Olympiad_combinatorics_number_theory.json
,Symbolic_differentiation.json
,multi_variable_optimization.json
, 和zfc_theory_aimath.json
训练复杂数学任务模型。 - 代码和指令跟随: 使用
Oneofcodetraindata.jsonl
和Instructionsfollowcop.csv
进行代码生成和基于指令的模型训练。 - 商业和金融: 使用
scbusinessconsultingtune.json
和financial_risk20-25_compliance.csv
进行商业咨询和金融风险分析。 - 算法发现: 使用
AlgoDiscovery.json
开发创新算法。 - 对话数据:
Friendslovelyconv.zip
可能包含对话数据。

中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
M3PDB
M3PDB是一个大规模、多模态、多标签和多语言的提示数据库,旨在解决语音生成中高质量语音提示缺乏的问题。该数据集包含10个标签的语音和视觉模态的注释,涵盖18种语言,拥有约15k说话者和总计400k小时的语音数据。M3PDB通过引入一个多模态、多代理的标注框架,实现精确且分层的跨模态标注。此外,该数据集还提出了一个轻量级的实时、资源受限的推理设置下的提示选择策略。
arXiv 收录
中国近海地形数据集(渤海,黄海,东海,南海)
本数据集包含历年来通过收集和实测方法取得的中国近海水深点数据、地形图数据(ArcGIS格式),以及黄河口、莱州湾东部、辽东湾、山东南部沿海、南海部分海域的单波束、多波束水深测量数据,包括大尺度的低密度水深数据与局部高密度水深数据。
地球大数据科学工程 收录
Tox21
Tox21数据集包含超过12,000种化学物质的生物活性数据,主要用于评估化学物质对12种不同生物学终点的毒性,包括核受体活性和应激反应。
tripod.nih.gov 收录
OpenStreetMap (OSM)
OpenStreetMap (OSM) 是一个由志愿者创建和维护的全球性地图数据集。它包含了详细的地理信息,如道路、建筑物、水体、公园等。数据集以开放数据的形式提供,允许用户自由使用、修改和分享。
www.openstreetmap.org 收录