fridayai_smart_datasets|人工智能数据集|机器学习数据集

huggingface2025-08-07 更新2025-08-08 收录

人工智能

机器学习

下载链接：

https://huggingface.co/datasets/fridayaibytecore/fridayai_smart_datasets

下载链接

链接失效反馈

资源简介：

Friday AI数据集集合是一个由多个面向高级机器学习任务的数据集组成的集合，包括数学推理、算法发现、代码生成、金融合规和商业咨询等。这些数据集适用于训练和微调尖端模型。

创建时间：

2025-08-06

原始信息汇总

Friday AI Dataset Collection 概述

基本信息

许可证: creativeml-openrail-m
任务类别: 文本分类
数据集名称: smartest_dataset
数据规模: 10M<n<100M

数据集内容

数据集名称	描述
`AlgoDiscovery.json`	用于算法发现和问题解决任务的结构化数据。
`Friendslovelyconv.zip`	可能包含对话或文本数据的归档数据集。
`Instructionsfollowcop.csv`	用于指令跟随和代码相关任务的综合数据集。
`Olympiad_combinatorics_number_theory.json`	专注于组合数学和数论的数学问题，用于机器学习训练。
`Oneofcodetraindata.jsonl`	JSONL格式的代码训练数据，适用于编程模型开发。
`Symbolic_differentiation.json`	用于数学建模中的符号微分任务的数据。
`financial_risk20-25_compliance.csv`	用于分析和预测的金融风险和合规数据（2020-2025）。
`multi_variable_optimization.json`	多变量优化问题，适用于高级机器学习模型。
`scbusinessconsultingtune.json`	用于微调领域特定模型的商业咨询数据集。
`zfc_theory_aimath.json`	用于高级数学推理任务的ZFC集合论数据。

应用领域

数学推理: 使用 Olympiad_combinatorics_number_theory.json, Symbolic_differentiation.json, multi_variable_optimization.json, 和 zfc_theory_aimath.json 训练复杂数学任务模型。
代码和指令跟随: 使用 Oneofcodetraindata.jsonl 和 Instructionsfollowcop.csv 进行代码生成和基于指令的模型训练。
商业和金融: 使用 scbusinessconsultingtune.json 和 financial_risk20-25_compliance.csv 进行商业咨询和金融风险分析。
算法发现: 使用 AlgoDiscovery.json 开发创新算法。
对话数据: Friendslovelyconv.zip 可能包含对话数据。

AI搜集汇总

数据集介绍

构建方式

在人工智能与机器学习研究领域，高质量数据集的构建是模型性能提升的关键基石。Friday AI Dataset Collection采用多源异构数据整合策略，通过专业领域知识筛选与结构化处理，将数学推理、算法发现、代码生成等多元智能任务数据转化为标准化的JSON、CSV及JSONL格式。数据集构建过程特别注重领域深度与广度平衡，例如数学分支覆盖组合数学、数论到ZFC集合论，金融数据则横跨2020-2025年合规风险指标，体现了严谨的时空维度设计。

特点

该数据集最显著的特征在于其跨学科的专业纵深布局。数学模块包含奥林匹克竞赛级组合数学与符号微分问题，计算科学方向提供代码训练数据与多变量优化案例，商业金融板块则整合了风险合规与咨询调优数据。各子集均采用轻量化格式存储，10M-100M的中等规模既保证训练效率又满足模型深度学习需求，特别适合作为专业领域大语言模型的微调素材。数据标注体系遵循机器学习任务分类标准，文本分类与指令跟随等任务可直接对接主流算法框架。

使用方法

研究者可根据目标领域选择对应子集进行端到端应用。数学推理任务推荐加载Olympiad_combinatorics_number_theory.json与multi_variable_optimization.json联合训练，代码生成领域可采用JSONL格式的Oneofcodetraindata.jsonl实现增量式学习。金融模型开发者可直接解析financial_risk20-25_compliance.csv的时间序列结构，而AlgoDiscovery.json的树状数据结构则需要特殊预处理。所有数据集均兼容Hugging Face生态系统，支持transformers库的直接调用与流水线集成。

背景与挑战

背景概述

Friday AI Dataset Collection是由Friday AI团队精心构建的一系列高质量数据集，旨在为机器学习领域的研究人员与开发者提供多样化且专业的数据支持。该数据集集合涵盖了数学推理、算法发现、代码生成、金融合规及商业咨询等多个前沿领域，其数据格式丰富，包括JSON、CSV、JSONL等，适用于训练和微调先进的机器学习模型。该数据集的构建反映了当前人工智能研究中对跨领域、多任务学习的需求，为复杂任务的模型开发提供了坚实的基础。

当前挑战

Friday AI Dataset Collection面临的挑战主要体现在两个方面：领域问题的复杂性与数据构建的技术难度。在领域问题方面，数据集需解决诸如数学推理中的符号微分、组合数学问题，以及金融合规中的动态风险评估等高难度任务，这些任务要求模型具备极强的抽象与逻辑推理能力。在数据构建过程中，挑战包括如何确保数据的多样性与代表性，尤其是在数学与金融领域，需平衡专业性与普适性；同时，数据标注的准确性与一致性也是关键，特别是在处理复杂的多变量优化或算法发现任务时，需依赖领域专家的深度参与。

常用场景

经典使用场景

在人工智能与机器学习领域，Friday AI Dataset Collection以其多样化的数据集成为研究者的重要资源。该数据集特别适用于数学推理、代码生成和金融分析等任务。例如，Olympiad_combinatorics_number_theory.json和Symbolic_differentiation.json被广泛用于训练模型解决复杂的数学问题，而financial_risk20-25_compliance.csv则为金融风险预测提供了可靠的数据支持。

解决学术问题

Friday AI Dataset Collection解决了多个学术研究中的关键问题，尤其是在数学推理和算法发现领域。通过提供高质量的结构化数据，如multi_variable_optimization.json和zfc_theory_aimath.json，研究者能够更高效地开发出能够处理复杂数学问题的模型。此外，该数据集还为代码生成和指令跟随任务提供了丰富的训练材料，填补了相关领域的数据空白。

衍生相关工作

基于Friday AI Dataset Collection，研究者们已经开发出多项经典工作。例如，使用AlgoDiscovery.json的算法发现研究推动了自动化问题解决的进展，而Oneofcodetraindata.jsonl则成为代码生成模型的重要训练基础。这些衍生工作不仅扩展了数据集的应用范围，还为相关领域的研究提供了新的方向。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2024）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2024.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

M3PDB

M3PDB是一个大规模、多模态、多标签和多语言的提示数据库，旨在解决语音生成中高质量语音提示缺乏的问题。该数据集包含10个标签的语音和视觉模态的注释，涵盖18种语言，拥有约15k说话者和总计400k小时的语音数据。M3PDB通过引入一个多模态、多代理的标注框架，实现精确且分层的跨模态标注。此外，该数据集还提出了一个轻量级的实时、资源受限的推理设置下的提示选择策略。

arXiv 收录

中国近海地形数据集（渤海，黄海，东海，南海）

本数据集包含历年来通过收集和实测方法取得的中国近海水深点数据、地形图数据（ArcGIS格式），以及黄河口、莱州湾东部、辽东湾、山东南部沿海、南海部分海域的单波束、多波束水深测量数据，包括大尺度的低密度水深数据与局部高密度水深数据。

地球大数据科学工程收录

Tox21

Tox21数据集包含超过12,000种化学物质的生物活性数据，主要用于评估化学物质对12种不同生物学终点的毒性，包括核受体活性和应激反应。

tripod.nih.gov 收录

OpenStreetMap (OSM)

OpenStreetMap (OSM) 是一个由志愿者创建和维护的全球性地图数据集。它包含了详细的地理信息，如道路、建筑物、水体、公园等。数据集以开放数据的形式提供，允许用户自由使用、修改和分享。