math-eval/TAL-SCQ5K|数学竞赛数据集|教育技术数据集
收藏数据集概述
数据集名称:TAL-SCQ5K
语言:TAL-SCQ5K-EN为英语,TAL-SCQ5K-CN为中文。
问题数量:每个版本包含5000个问题,其中训练集3000个,测试集2000个。
问题类型:均为单选题,覆盖小学、初中和高中的数学知识点。
数据集结构:
- 数据实例:每个实例包含问题ID、难度、问题类型、问题描述、答案选项列表、知识点路径、答案解析和正确答案。
- 数据字段:
difficulty
:难度级别,范围0-4。qtype
:问题类型,均为"single_choice"。problem
:数学竞赛问题描述。answer_option_list
:答案选项。knowledge_point_routes
:知识点路径。answer_analysis
:答案解析,用于CoT训练。answer_value
:正确答案。
数据分割:
名称 | 训练集 | 测试集 |
---|---|---|
TAL-SCQ5K-EN | 3K | 2K |
TAL-SCQ5K-CN | 3K | 2K |
使用方法:通过load_dataset()
函数加载数据集,可选择加载TAL-SCQ5K-EN或TAL-SCQ5K-CN子集。
许可证:MIT License。

Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
ICESat-2 Data
ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。
icesat-2.gsfc.nasa.gov 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录