清华大学飞跃数据库|出国留学数据集|教育数据集
收藏清华大学飞跃数据库概述
数据集描述
清华大学飞跃数据库是一个专门收集和展示清华大学学生出国申请案例的数据库。该数据库的目的是为在校学生提供往届学生的申请信息,以便他们为自己的出国申请做准备。
数据存储与访问
- 数据存储: 数据集信息存储于SeaTable中,通过API进行数据读取和网页或PDF的生成。
- 数据访问: 数据库通过API进行数据访问,需要SeaTable的API Key。管理员拥有访问权限。
数据集更新与发布
- 网页更新: 网页每6小时自动更新一次,并每周通过Internet Archive的Wayback Machine进行文档快照。
- PDF发布: 每年申请季开始前,会在Release页面发布PDF版本。
构建与预览
- 构建方式: 支持构建为MkDocs网页或LaTeX文档(PDF)。
- 预览与编译:
- MkDocs预览: 使用
mkdocs serve
命令在output
目录启动预览服务器。 - LaTeX编译: 使用
latexmk -xelatex -file-line-error -shell-escape -halt-on-error -interaction=nonstopmode main.tex
命令在output/latex
目录编译PDF。
- MkDocs预览: 使用
项目结构
- 主要代码: 位于
feiyue
目录。 - 构建脚本:
maker.py
。 - 资源文件: 存储在
resources
目录,构建时直接复制。 - 脚本: 位于
scripts
目录。 - 模版: 用于生成网页的模版,存储在
templates
目录。

Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
China Groundgroundwater Monitoring Network
该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。
www.ngac.org.cn 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录