2D Geometric Shapes Dataset|计算机视觉数据集|图像识别数据集
收藏2D Geometric Shapes Dataset
描述
该仓库包含一个用于生成2D几何形状数据集的Python脚本,以及数据集本身。数据集包括16种不同的几何形状,每个形状在224x224像素的图像中随机定向和定位。
包含的形状
- 圆
- 半圆
- 椭圆
- 三角形
- 正方形
- 矩形
- 平行四边形
- 菱形
- 梯形
- 风筝形
- 五边形
- 六边形
- 七边形
- 八边形
- 九边形
- 十边形
数据集结构
shapes_dataset/
: 包含每个形状的子目录,每个形状有100张PNG图像。circle/
circle_1.png
circle_2.png
- ...
semicircle/
- ...
- 总图像数: 1,600 (100张图像 * 16种形状)
安装
要在自己的环境中生成数据集,请克隆此仓库并运行脚本:
bash git clone https://github.com/Khalid1G/shapes-dataset.git cd shapes-dataset pip install pillow python generate_shapes_dataset.py
许可证
该数据集在MIT许可证下发布。
用途
该数据集可用于各种目的,例如训练用于形状分类或目标检测任务的机器学习模型。图像以PNG格式保存,背景透明,便于叠加在其他图像上。
贡献
欢迎对该仓库进行贡献。一些贡献的想法包括:
- 向数据集中添加新形状
- 改进脚本以生成更多样化的形状
- 创建额外的脚本来预处理或增强数据集
- 使用数据集进行机器学习项目并分享结果
如果您想贡献,请打开一个issue或pull request。
致谢
该数据集由Khalid1G作为个人项目创建。形状使用Python Imaging Library (PIL)生成并保存为PNG图像。
联系
如果您对该数据集有任何疑问,请随时通过以下方式联系我:
- khalid.boussaroual@gmail.com
- kboussaroual@insea.ac.ma
- 或在此仓库中打开一个issue。

BaiJia
BaiJia是一个由中国北京邮电大学创建的大规模历史角色扮演数据集,旨在为大语言模型提供低资源的历史角色扮演数据。该数据集包含19281个中国历史人物的信息,涵盖了唐、宋、元、明、清五个朝代。数据集的内容包括人物的传记、文学作品、家庭关系、历史事件等,数据来源广泛,包括历史文献、古籍、艺术作品、民间传说和口述传统。数据集的创建过程包括从多个来源收集人物简历、生成对话以及构建评估问题。该数据集的应用领域主要是增强大语言模型在历史角色扮演任务中的表现,旨在解决历史文本碎片化和多模态数据整合的挑战。
arXiv 收录
CFBenchmark
CFBenchmark是一个专为评估大型语言模型在中文金融助理领域性能而设计的数据集。由同济大学和上海人工智能实验室联合创建,该数据集包含3917个金融文本,覆盖金融识别、分类和生成三大方面,共计八个任务。数据集内容丰富,包括金融新闻和研究报告,文本长度从50字到超过1800字不等,旨在全面测试模型在金融文本处理中的基本能力。创建过程中,专业研究人员对文本进行了严格的筛选和标注,确保数据质量。CFBenchmark的应用领域广泛,主要用于提升金融决策的自动化和智能化水平,解决金融文本处理中的关键问题。
arXiv 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
mstz/speeddating
Speed dating数据集来自OpenML,主要用于二分类任务,即判断两个人是否会约会。数据集的规模在1K到10K之间,包含多个特征,如性别、年龄、种族、兴趣等。
hugging_face 收录