five

math-eval/TAL-SCQ5K|数学竞赛数据集|教育技术数据集

收藏
hugging_face2023-09-15 更新2024-03-04 收录
数学竞赛
教育技术
下载链接:
https://hf-mirror.com/datasets/math-eval/TAL-SCQ5K
下载链接
链接失效反馈
资源简介:
TAL-SCQ5K是由TAL教育集团创建的高质量数学竞赛数据集,包含英文(TAL-SCQ5K-EN)和中文(TAL-SCQ5K-CN)两个版本,每个版本包含5000个题目(3000个训练题和2000个测试题)。题目为选择题形式,涵盖小学、初中和高中的数学主题,并提供详细的解题步骤以促进CoT训练。所有数学表达式均以标准文本模式的Latex呈现。
提供机构:
math-eval
原始信息汇总

数据集概述

数据集名称:TAL-SCQ5K

语言:TAL-SCQ5K-EN为英语,TAL-SCQ5K-CN为中文。

问题数量:每个版本包含5000个问题,其中训练集3000个,测试集2000个。

问题类型:均为单选题,覆盖小学、初中和高中的数学知识点。

数据集结构

  • 数据实例:每个实例包含问题ID、难度、问题类型、问题描述、答案选项列表、知识点路径、答案解析和正确答案。
  • 数据字段
    • difficulty:难度级别,范围0-4。
    • qtype:问题类型,均为"single_choice"。
    • problem:数学竞赛问题描述。
    • answer_option_list:答案选项。
    • knowledge_point_routes:知识点路径。
    • answer_analysis:答案解析,用于CoT训练。
    • answer_value:正确答案。

数据分割

名称 训练集 测试集
TAL-SCQ5K-EN 3K 2K
TAL-SCQ5K-CN 3K 2K

使用方法:通过load_dataset()函数加载数据集,可选择加载TAL-SCQ5K-EN或TAL-SCQ5K-CN子集。

许可证:MIT License。

AI搜集汇总
数据集介绍
main_image_url
构建方式
TAL-SCQ5K数据集由TAL教育集团精心构建,涵盖了英语和中文两个版本,每个版本包含5000道高质量的数学竞赛题目。这些题目分为小学、初中和高中三个层次,均以多项选择题的形式呈现,并附有详细的解答步骤。所有数学表达式均以标准文本模式的LaTeX格式展示,旨在支持思维链(CoT)训练。数据集被划分为3000道训练题和2000道测试题,确保了数据集的多样性和实用性。
使用方法
使用TAL-SCQ5K数据集时,用户可以通过HuggingFace的datasets库加载数据。数据集被分为两个子集:TAL-SCQ5K-EN和TAL-SCQ5K-CN,分别对应英语和中文版本。用户可以根据需要选择加载特定的子集,使用load_dataset()函数并指定data_dir参数即可。这种灵活的加载方式使得数据集适用于不同的语言和应用场景,为数学竞赛题目的研究和模型训练提供了便利。
背景与挑战
背景概述
TAL-SCQ5K数据集由TAL教育集团创建,旨在为英语和中文的数学竞赛提供高质量的训练和测试数据。该数据集包含5000道选择题,涵盖小学、初中和高中的数学主题,并提供了详细的解答步骤,以支持思维链(CoT)训练。所有数学表达式均以标准文本模式LaTeX呈现,确保了数据的专业性和准确性。TAL-SCQ5K的创建不仅丰富了数学竞赛领域的数据资源,还为相关研究提供了宝贵的基准数据,推动了教育技术的发展。
当前挑战
TAL-SCQ5K数据集在构建过程中面临多项挑战。首先,确保数据的高质量和多样性,涵盖不同难度和知识点的题目,是一项复杂任务。其次,提供详细的解答步骤,以便于CoT训练,要求对每道题目进行深入解析,增加了数据处理的复杂性。此外,跨语言的数据集创建,特别是中英文双语版本,需要克服语言表达和数学符号转换的难题。这些挑战不仅提升了数据集的构建难度,也对其在实际应用中的有效性提出了更高的要求。
常用场景
经典使用场景
TAL-SCQ5K数据集在数学竞赛领域中被广泛用于训练和评估数学问题解决模型。其高质量的多项选择题形式,涵盖了小学、初中和高中的数学知识点,使得该数据集成为开发和测试数学推理模型的理想选择。通过详细的解答步骤,该数据集还支持思维链(CoT)训练,有助于提升模型的推理能力。
解决学术问题
TAL-SCQ5K数据集解决了数学教育领域中模型训练数据不足的问题。其丰富的数学问题和详细的解答步骤,为研究人员提供了一个标准化的基准,用于评估和改进数学问题解决算法。此外,该数据集的多语言版本(中文和英文)进一步扩展了其应用范围,促进了跨语言数学推理研究的发展。
实际应用
在实际应用中,TAL-SCQ5K数据集被广泛用于开发智能教育系统,特别是那些需要自动生成和评估数学问题的系统。例如,教育科技公司可以利用该数据集训练模型,以自动生成个性化的数学练习题,帮助学生提高数学能力。此外,该数据集还可用于构建在线数学竞赛平台,提供多样化的题目和详细的解答分析。
数据集最近研究
最新研究方向
在数学教育领域,TAL-SCQ5K数据集的最新研究方向主要集中在利用机器学习技术提升数学竞赛题目的自动解答能力。通过引入详细的解答步骤(CoT),研究者们致力于开发能够理解复杂数学表达式并生成逐步推理过程的模型。此外,该数据集还促进了跨语言数学问题解答模型的研究,特别是在中英文数学竞赛题目之间的转换与解答策略的比较。这些研究不仅提升了教育技术的智能化水平,也为全球数学教育资源的共享与优化提供了新的可能性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

ICESat-2 Data

ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。

icesat-2.gsfc.nasa.gov 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录