five

Synthetic Heterogeneous Datasets

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/jplobo1313/G-Bic/
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一组使用G-bic工具生成的异构综合数据集,包含21种数据配置,分为五大类,每类都针对医疗应用中数据集的独特方面进行评估。每个数据集包含1000行和500列,其中有五个植入的双簇。该数据集根据异质程度、双簇数量、双簇大小、数据集规模以及噪声水平的不同配置,进行了评估。规模上,从21种配置中创建了315个异构数据问题,每种配置都具有不同的属性和特征。所执行的任务是双簇分析。

This dataset suite is a collection of heterogeneous synthetic datasets generated using the G-bic tool. It encompasses 21 data configurations, divided into five categories, each of which targets the evaluation of distinct aspects of datasets for medical applications. Each individual dataset consists of 1000 rows and 500 columns, with five implanted biclusters. The suite is assessed under varying configurations of heterogeneity degree, number of biclusters, bicluster size, dataset scale, and noise level. A total of 315 heterogeneous data problems are generated from the 21 configurations, each possessing distinct attributes and characteristics. The task conducted herein is bicluster analysis.
提供机构:
G-bic tool
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作