five

stepp1/is_sparse_5d

收藏
Hugging Face2025-11-18 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/stepp1/is_sparse_5d
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit task_categories: - tabular-classification language: - en tags: - synthetic - sparse-learning - classification size_categories: - 100K<n<1M --- # is_sparse/sparse5d ## Dataset Description This is a synthetic 5-dimensional classification dataset designed for sparse learning research. The dataset contains 3 classes and is specifically designed to have sparse optimal representations, where only a subset of features are informative for the classification task. ### Dataset Summary - **Variant**: sparse5d - **Features**: 5 continuous features - **Classes**: 3 - **Entropy(Y)**: 1.4855 - **Mutual Information (joint)**: 1.1819 - **Maximum Achievable Accuracy**: 0.8967 ## Dataset Structure ### Data Instances Each instance consists of: - `data`: A 5-dimensional feature vector (float32) - `label`: An integer class label (0, 1, or 2) ### Data Splits | Split | Number of Instances | |-------|---------------------| | Train | Variable (see below) | | Test | Variable (see below) | ## Dataset Creation This dataset was synthetically generated for research on sparse learning and optimal feature selection. The mutual information values between feature subsets and labels are provided in the metadata. ### Mutual Information Structure The dataset includes ground-truth mutual information values for various feature subsets, enabling: - Feature importance analysis - Information-theoretic learning algorithms - Benchmarking of MI estimation methods Key MI values: - joint: 1.1819 - 1: 0.3273 - 1-2: 0.3273 - 1-2-3: 0.6634 - 1-2-3-4: 0.6634 - 1-2-3-4-5: 1.1819 - 1-2-3-5: 1.1819 - 1-2-4: 0.3273 - 1-2-4-5: 1.0492 - 1-2-5: 1.0492 ## Citation If you use this dataset, please cite the associated research paper (to be added). ## License MIT License

license: mit 任务类别: - 表格分类(tabular-classification) 语言: - 英语 标签: - 合成数据集(synthetic) - 稀疏学习(sparse-learning) - 分类 样本量范围: - 100K<n<1M # is_sparse/sparse5d ## 数据集描述 本数据集为专为稀疏学习(sparse-learning)研究设计的合成五维分类数据集。该数据集包含3个类别,其核心设计目标是生成具备稀疏最优表征的样本,即仅存在部分特征对分类任务具备信息价值。 ### 数据集摘要 - **变体名称**:sparse5d - **特征维度**:5个连续型特征 - **类别数**:3 - **标签熵(Entropy(Y))**:1.4855 - **联合互信息(Mutual Information (joint))**:1.1819 - **最高可达准确率**:0.8967 ## 数据集结构 ### 数据实例 每条数据样本包含以下字段: - `data`:5维特征向量(32位浮点型(float32)) - `label`:整数类型类别标签,取值为0、1或2 ### 数据划分 | 划分集 | 样本数量 | |-------|---------------------| | 训练集 | 可变(详见下文) | | 测试集 | 可变(详见下文) | ## 数据集创建 本数据集为支持稀疏学习(sparse-learning)与最优特征选择研究而合成生成。元数据中已提供特征子集与标签间的互信息数值。 ### 互信息结构 本数据集包含各类特征子集的真实互信息数值,可用于: - 特征重要性分析 - 信息论驱动的学习算法研究 - 互信息估计方法的基准测试 关键互信息数值: - 联合互信息:1.1819 - 特征1:0.3273 - 特征1-2:0.3273 - 特征1-2-3:0.6634 - 特征1-2-3-4:0.6634 - 特征1-2-3-4-5:1.1819 - 特征1-2-3-5:1.1819 - 特征1-2-4:0.3273 - 特征1-2-4-5:1.0492 - 特征1-2-5:1.0492 ## 引用 若使用本数据集,请引用关联的研究论文(待补充)。 ## 许可证 MIT许可证
提供机构:
stepp1
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作