dataset-iq
收藏dataset-iq 数据集概述
数据集简介
Dataset-IQ 是一个用于组织机器学习数据集的系统,具备自动化统计信息生成、验证和标准化元数据功能。它将原始数据集转换为包含计算分析的自包含单元,旨在确保数据的一致性、可重复性,并便于数据集比较。
核心特性
- 通过
core/stats.py自动生成数据集统计信息。 - 每个数据集采用标准化元数据模式。
- 提供机器可读的数据集描述。
- 支持 CSV 和 Excel 格式的数据集。
- 基于 Flask 的 Web 界面,支持数据集浏览和详情查看。
- 数据质量评分与问题检测(缺失值、重复项、高相关性)。
- 通过 GitHub Actions 工作流在推送时自动生成统计信息。
数据集结构
数据集以扁平结构存储在 data/ml/ 目录下:
data/ml/ ├── <dataset_name>.csv / .xlsx └── <dataset_name>.stats.json
每个自动生成的 .stats.json 文件包含以下内容:
json
{
"summary": { "rows": ..., "columns": ..., "data_quality_score": ..., "problem_type": ..., "target": ... },
"issues": { "missing_values_total": ..., "duplicate_rows": ..., "highly_correlated_columns": [...], "columns_with_high_missing": [...] },
"schema": [ { "name": ..., "type": ..., "missing_pct": ..., "unique_values": ..., "stats": { "min": ..., "max": ..., "mean": ... } } ]
}
生成统计信息
每个数据集包含以下统计信息:
- 行数和列数。
- 数据质量评分(0–100)。
- 问题类型检测(分类/回归)。
- 目标列识别。
- 每列的缺失值数量和百分比。
- 重复记录数量。
- 高相关性的列对(阈值 > 0.90)。
- 缺失值超过 30% 的列。
使用方式
本地运行 Web 应用: bash pip install -r requirements.txt python app.py
然后访问 http://localhost:5000。
手动生成统计信息: bash python -c "from stats import run_all; run_all()"
统计信息也可通过 GitHub Actions 自动生成,每次推送修改 data/ml/ 下的文件时触发。
项目目标
为机器学习工作流创建一个统一、可重复且机器可读的数据集注册表。
贡献方式
Fork 仓库,将您的数据集(CSV 或 Excel 格式)添加到 data/ml/ 目录中,然后提交 Pull Request。合并后,统计信息将自动生成。这确保了数据集版本化、可追溯且安全集成,同时允许无写入权限的贡献者提交工作。每个添加的数据集都会改进注册表,并使得重用结构化 ML 数据变得更加容易,无需从头开始重建。
许可证
MIT 许可证 - 详见 License




