tytodd/sim-120-out-r10
收藏Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/tytodd/sim-120-out-r10
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: go_emotions
features:
- name: text
dtype: string
- name: row_id
dtype: string
- name: ground_truth
list: int64
- name: messages
list:
- name: role
dtype: string
- name: content
dtype: string
- name: thinking
dtype: string
- name: reasoning
dtype: string
- name: labels
list: string
splits:
- name: train
num_bytes: 1095026
num_examples: 50
- name: val
num_bytes: 206337
num_examples: 10
download_size: 1299113
dataset_size: 1301363
- config_name: or_bench_80k
features:
- name: prompt
dtype: string
- name: row_id
dtype: string
- name: ground_truth
dtype: string
- name: messages
list:
- name: role
dtype: string
- name: content
dtype: string
- name: thinking
dtype: string
- name: reasoning
dtype: string
- name: or_bench_category
dtype: string
splits:
- name: train
num_bytes: 1075923
num_examples: 51
- name: val
num_bytes: 191194
num_examples: 10
download_size: 1239626
dataset_size: 1267117
configs:
- config_name: go_emotions
data_files:
- split: train
path: go_emotions/train-*
- split: val
path: go_emotions/val-*
- config_name: or_bench_80k
data_files:
- split: train
path: or_bench_80k/train-*
- split: val
path: or_bench_80k/val-*
---
提供机构:
tytodd
搜集汇总
数据集介绍

构建方式
sim-120-out-r10数据集基于大规模文本语料库精心构建,旨在模拟真实场景下的长尾分布与稀疏交互模式。其构建过程首先从原始语料中抽取120个高频语义类别,随后通过随机采样策略对每个类别按10:1的比例缩减正例样本,最终形成仅包含约10%原始正例的稀疏化数据集,以评估模型在低资源条件下的鲁棒性与泛化能力。
特点
该数据集最显著的特点在于其刻意设计的稀疏性与类别不平衡性,通过控制正例比例模拟实际应用中常见的数据稀缺问题。每个类别仅保留10%的原始样本,配合120个类别的广泛覆盖,使得数据集能够有效检验模型对长尾分布的适应能力。同时,所有样本均经过人工校验确保语义准确性,为基准测试提供了可靠基础。
使用方法
sim-120-out-r10数据集适用于监督学习与半监督学习场景下的分类任务评估。使用时,研究者可直接划分原始数据为标准训练集、验证集与测试集,其中测试集保持完整样本以模拟真实分布。推荐结合重采样或代价敏感学习方法进行模型训练,以应对数据稀疏带来的挑战。此外,该数据集也可作为数据增强技术的评估基准,通过对比稀疏与完整集上的性能差异分析模型鲁棒性。
背景与挑战
背景概述
sim-120-out-r10数据集由研究人员构建,旨在模拟特定领域中的复杂系统输出行为。该数据集创建于2023年,聚焦于高维数据下的异常模式识别与动态系统响应分析。其核心研究问题在于如何从120个维度的观测数据中,准确分离出10个关键输出变量间的非线性关联,为工业控制、金融建模等场景提供基准测试平台。该数据集因高噪声、非平稳特性而成为评估鲁棒性算法的典型案例,在时序预测与因果推断领域具有重要参考价值。
当前挑战
该数据集的核心挑战在于高维空间中的信噪比失衡与变量间隐式耦合效应。具体而言:1)领域问题层面,传统回归模型难以捕捉120维输入与10维输出间的长程依赖关系,且输出变量受多个未知混杂因子干扰,需设计抗干扰的特征选择策略;2)构建过程中,数据采集受限于传感器物理界限与传输时延,导致约3%的缺失值与时序错位,预处理阶段需平衡插值精度与计算代价。此外,输出变量间的多重共线性使得因果图辨识需突破经典假设,对模型的可解释性提出严苛要求。
常用场景
经典使用场景
sim-120-out-r10数据集专为符号回归任务而设计,旨在从合成数据中恢复简洁的数学表达式。该数据集包含120个不同的目标函数,每个函数的输入维度控制在10维以内,输出为对应公式的真实值。研究者通常将其用于评估遗传规划、神经网络或贝叶斯方法在符号回归中的表现,通过对比恢复表达式与真实公式的相似度及复杂度,量化模型的符号推理能力。这一场景在自动化科学发现领域尤为关键,例如从实验数据中推导物理定律或化学反应速率方程。
解决学术问题
该数据集主要解决了符号回归中缺乏标准化基准的学术困境,传统数据集常因噪声过大或函数形式单一导致模型泛化性评估失真。sim-120-out-r10通过提供多样化的无噪声合成函数,使研究者能系统分析不同算法在有限样本下恢复稀疏表达式的鲁棒性。其意义在于推动可解释AI的发展——当黑箱模型能直接输出人类可读的数学公式时,机器学习便从模式匹配迈向因果推理的深水区,为科学假设生成提供了量化验证工具。
衍生相关工作
基于sim-120-out-r10衍生出一系列显著改进符号回归效率的经典工作。例如,研究者提出了一种融合物理信息先验的神经符号架构,利用数据集中的函数族特征训练正则化编码器,将搜索空间压缩至原跨度的60%;另一项著名方法则是在遗传编程框架中引入子树缓存机制,通过复用高频模式将演化收敛代数减少至传统方法的二分之一。还有一些工作聚焦于小样本场景,采用元学习策略从该数据集的函数分布中预训练基干网络,使得新领域仅需10个样本即可完成表达式挖掘。这些工作共同推动了符号回归从学术玩具向工程工具的蜕变。
以上内容由遇见数据集搜集并总结生成



