GDP-29K 数据集概述
基本信息
- 数据集名称: GDP-29K
- 许可协议: MIT
- 任务类型: 图像分类、问答
- 语言: 英语
- 标签: 几何、多模态、图解解析、平面几何、立体几何
- 数据规模: 10K < n < 100K
数据集规模
| 子集 |
印刷体PGDP |
手写体PGDP |
SGDP |
总计 |
| 训练集 |
13,350 |
4,516 |
8,021 |
25,887 |
| 测试集 |
1,599 |
500 |
896 |
2,996 |
| 总计 |
14,949 |
5,016 |
8,917 |
28,882 |
数据集结构
GDP-29K/
├── PGDP/
│ ├── printed/
│ │ └── image/
│ ├── handwritten/
│ │ └── image/
│ ├── PGDP_train.json
│ └── PGDP_test.json
├── SGDP/
│ ├── image/
│ ├── SGDP_train.json
│ └── SGDP_test.json
├── GDP_train.json
├── GDP_test.json
└── README.md
标注格式
平面几何 - 印刷体
json
{
"diagram": "PGDP/printed/image/xxx.png",
"style": "printed",
"split": "train",
"category": "plane geometry",
"points": ["A", "B", "C"],
"lines": ["line A B C"],
"circles": ["\odot O lieson A B C"],
"semantics": ["AB \perp CD on E", "AB = 5", "m \angle ABC = 60"]
}
平面几何 - 手写体
json
{
"diagram": "PGDP/handwritten/image/xxx.png",
"style": "handwritten",
"split": "train",
"category": "plane geometry",
"points": ["A", "B", "C"],
"lines": ["line A B C"],
"circles": ["\odot O lieson A B C"],
"semantics": ["AB \parallel CD", "AB = 5", "m \angle ABC = 60"]
}
立体几何
json
{
"diagram": "SGDP/image/xxx.png",
"split": "train",
"category": "solid geometry",
"structure": ["Pyramid P-ABCD"],
"points": ["P", "A", "B", "C", "D"],
"lines": ["line A B", "line B C", "line P A"],
"planes": ["plane A B C D", "plane P A B", "plane P B C"],
"circles": [],
"semantics": []
}
字段说明
通用字段
| 字段 |
类型 |
描述 |
| diagram |
string |
图像文件的相对路径 |
| split |
string |
数据集划分:train 或 test |
| category |
string |
几何类型:plane geometry 或 solid geometry |
| points |
list |
点标识符 |
| lines |
list |
线定义 |
| circles |
list |
圆定义 |
| semantics |
list |
几何约束和度量关系 |
PGDP特有字段
| 字段 |
类型 |
描述 |
| style |
string |
图解风格:printed 或 handwritten |
SGDP特有字段
| 字段 |
类型 |
描述 |
| structure |
list |
顶层立体类型 |
| planes |
list |
立体结构的平面面 |
形式化语言规范
基本图元
| 语法 |
描述 |
line A B C |
经过点A、B、C的直线(按顺序) |
line k lieson A B C |
经过点A、B、C的命名直线 |
odot O lieson A B C |
圆心为O,经过点A、B、C的圆 |
plane A B C D |
由顶点A、B、C、D定义的平面 |
Pyramid P-ABCD |
顶点为P、底面为ABCD的棱锥 |
Cube ABCD-A1B1C1D1 |
由底面和顶面定义的立方体 |
Prism ABC-A1B1C1 |
由底面和顶面定义的棱柱 |
语义关系
| 语法 |
描述 |
AB perp CD on E |
AB垂直于CD,交于E |
AB parallel CD |
AB平行于CD |
AB = 5 |
线段AB的长度为5 |
m angle ABC = 60 |
角ABC的度数为60° |
m widehat{AB} = 90 |
弧AB的度数为90° |