Exam-Question-Bank-Dataset-zh|教育数据集|考试数据集
收藏Exam-Question-Bank-Dataset-zh
数据集概述
- 类型: 通用考试题库数据集,包含选择题、填空题和简答题。
数据处理流程
- 格式转换: 将所有
.doc
文件转换为.docx
格式。 - 格式对齐: 将所有
.docx
文件转换为markdown
格式,并将图片、公式等解码后的资源统一存放在资源文件夹内。 - 文件类型统计: 统计文件是否为试卷。
- 答案存在性统计: 统计试卷中是否含有答案。
- 答案对齐处理: 对含有答案的试卷进行切分和对齐处理。
代码使用
- 环境安装: 安装
pypandoc
库,用于格式转换。 - 文件解压: 使用
zip2.py
脚本解压含有中文字符的.zip
数据集,避免乱码。 - 格式转换: 使用
docx2markdown2.py
脚本将.docx
文件转换为markdown
格式,并保存静态资源。 - 试卷分类: 使用
examination_paper_classifier.py
脚本对文件进行试卷及试卷类型的分类,结果保存到classifier.csv
。 - 答案统计: 使用
判断是否有答案.py
脚本统计试卷中是否含有答案,结果分别保存到rows_with_answers.csv
和rows_without_answers.csv
。 - 答案对齐: 使用
有答案试卷切分-对齐.py
脚本对含有答案的试卷进行切分和对齐,结果保存到rows_with_keywords.csv
。

UAVDT
UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。
arXiv 收录
中国裁判文书网
中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。
wenshu.court.gov.cn 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录