math-eval/TAL-SCQ5K
收藏Hugging Face2023-09-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/math-eval/TAL-SCQ5K
下载链接
链接失效反馈官方服务:
资源简介:
TAL-SCQ5K是由TAL教育集团创建的高质量数学竞赛数据集,包含英文(TAL-SCQ5K-EN)和中文(TAL-SCQ5K-CN)两个版本,每个版本包含5000个题目(3000个训练题和2000个测试题)。题目为选择题形式,涵盖小学、初中和高中的数学主题,并提供详细的解题步骤以促进CoT训练。所有数学表达式均以标准文本模式的Latex呈现。
TAL-SCQ5K is a high-quality mathematical competition dataset developed by TAL Education Group. It includes two versions: TAL-SCQ5K-EN (English) and TAL-SCQ5K-CN (Chinese), each containing 5000 questions in total, with 3000 training questions and 2000 test questions respectively. All questions are multiple-choice items covering mathematical topics from primary, junior high and senior high school curricula. Detailed step-by-step solution explanations are provided to facilitate Chain-of-Thought (CoT) training. All mathematical expressions are presented in standard plain-text LaTeX format.
提供机构:
math-eval
原始信息汇总
数据集概述
数据集名称:TAL-SCQ5K
语言:TAL-SCQ5K-EN为英语,TAL-SCQ5K-CN为中文。
问题数量:每个版本包含5000个问题,其中训练集3000个,测试集2000个。
问题类型:均为单选题,覆盖小学、初中和高中的数学知识点。
数据集结构:
- 数据实例:每个实例包含问题ID、难度、问题类型、问题描述、答案选项列表、知识点路径、答案解析和正确答案。
- 数据字段:
difficulty:难度级别,范围0-4。qtype:问题类型,均为"single_choice"。problem:数学竞赛问题描述。answer_option_list:答案选项。knowledge_point_routes:知识点路径。answer_analysis:答案解析,用于CoT训练。answer_value:正确答案。
数据分割:
| 名称 | 训练集 | 测试集 |
|---|---|---|
| TAL-SCQ5K-EN | 3K | 2K |
| TAL-SCQ5K-CN | 3K | 2K |
使用方法:通过load_dataset()函数加载数据集,可选择加载TAL-SCQ5K-EN或TAL-SCQ5K-CN子集。
许可证:MIT License。
搜集汇总
数据集介绍

构建方式
TAL-SCQ5K数据集由TAL教育集团精心构建,涵盖了英语和中文两个版本,每个版本包含5000道高质量的数学竞赛题目。这些题目分为小学、初中和高中三个层次,均以多项选择题的形式呈现,并附有详细的解答步骤。所有数学表达式均以标准文本模式的LaTeX格式展示,旨在支持思维链(CoT)训练。数据集被划分为3000道训练题和2000道测试题,确保了数据集的多样性和实用性。
使用方法
使用TAL-SCQ5K数据集时,用户可以通过HuggingFace的datasets库加载数据。数据集被分为两个子集:TAL-SCQ5K-EN和TAL-SCQ5K-CN,分别对应英语和中文版本。用户可以根据需要选择加载特定的子集,使用load_dataset()函数并指定data_dir参数即可。这种灵活的加载方式使得数据集适用于不同的语言和应用场景,为数学竞赛题目的研究和模型训练提供了便利。
背景与挑战
背景概述
TAL-SCQ5K数据集由TAL教育集团创建,旨在为英语和中文的数学竞赛提供高质量的训练和测试数据。该数据集包含5000道选择题,涵盖小学、初中和高中的数学主题,并提供了详细的解答步骤,以支持思维链(CoT)训练。所有数学表达式均以标准文本模式LaTeX呈现,确保了数据的专业性和准确性。TAL-SCQ5K的创建不仅丰富了数学竞赛领域的数据资源,还为相关研究提供了宝贵的基准数据,推动了教育技术的发展。
当前挑战
TAL-SCQ5K数据集在构建过程中面临多项挑战。首先,确保数据的高质量和多样性,涵盖不同难度和知识点的题目,是一项复杂任务。其次,提供详细的解答步骤,以便于CoT训练,要求对每道题目进行深入解析,增加了数据处理的复杂性。此外,跨语言的数据集创建,特别是中英文双语版本,需要克服语言表达和数学符号转换的难题。这些挑战不仅提升了数据集的构建难度,也对其在实际应用中的有效性提出了更高的要求。
常用场景
经典使用场景
TAL-SCQ5K数据集在数学竞赛领域中被广泛用于训练和评估数学问题解决模型。其高质量的多项选择题形式,涵盖了小学、初中和高中的数学知识点,使得该数据集成为开发和测试数学推理模型的理想选择。通过详细的解答步骤,该数据集还支持思维链(CoT)训练,有助于提升模型的推理能力。
解决学术问题
TAL-SCQ5K数据集解决了数学教育领域中模型训练数据不足的问题。其丰富的数学问题和详细的解答步骤,为研究人员提供了一个标准化的基准,用于评估和改进数学问题解决算法。此外,该数据集的多语言版本(中文和英文)进一步扩展了其应用范围,促进了跨语言数学推理研究的发展。
实际应用
在实际应用中,TAL-SCQ5K数据集被广泛用于开发智能教育系统,特别是那些需要自动生成和评估数学问题的系统。例如,教育科技公司可以利用该数据集训练模型,以自动生成个性化的数学练习题,帮助学生提高数学能力。此外,该数据集还可用于构建在线数学竞赛平台,提供多样化的题目和详细的解答分析。
数据集最近研究
最新研究方向
在数学教育领域,TAL-SCQ5K数据集的最新研究方向主要集中在利用机器学习技术提升数学竞赛题目的自动解答能力。通过引入详细的解答步骤(CoT),研究者们致力于开发能够理解复杂数学表达式并生成逐步推理过程的模型。此外,该数据集还促进了跨语言数学问题解答模型的研究,特别是在中英文数学竞赛题目之间的转换与解答策略的比较。这些研究不仅提升了教育技术的智能化水平,也为全球数学教育资源的共享与优化提供了新的可能性。
以上内容由遇见数据集搜集并总结生成



