maze-dataset|迷宫生成数据集|机器学习数据集
收藏数据集概述
数据集名称
maze-dataset
数据集功能
- 提供迷宫生成、过滤、解决、可视化和处理的工具。
- 支持多种迷宫生成算法,如随机深度优先搜索、Wilson算法和渗透算法。
- 允许根据长度、复杂度或自定义属性过滤迷宫。
- 提供多种输出格式,适用于可视化和训练机器学习模型。
数据集使用
- 主要通过
notebooks/
文件夹中的IPython笔记本展示功能。demo_dataset.ipynb
: 展示如何创建迷宫数据集及基本可视化。demo_tokenization.ipynb
: 展示迷宫文本表示的转换。demo_latticemaze.ipynb
: 展示LatticeMaze
和SolvedMaze
对象的内部结构及高级可视化。
数据集创建
- 使用
MazeDatasetConfig
配置迷宫数据集的参数,如名称、网格大小、迷宫数量和生成算法。 - 通过
MazeDataset.from_config
方法根据配置创建数据集。
数据格式转换
- 迷宫数据集的元素为
SolvedMaze
对象,可转换为多种格式:- ASCII艺术
- RGB图像
- 文本格式,适用于自回归变换器
- 高级可视化格式
安装
- 可通过
pip install maze-dataset
从PyPI安装。
引用
- 如在研究中使用此代码,请引用相关论文。

Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
FSDD
FSDD(Free Spoken Digit Dataset)是一个开源的语音数据集,包含由不同说话者朗读的数字0到9的音频文件。该数据集旨在用于语音识别和机器学习算法的训练和测试。
github.com 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录