amc_turkish

Hugging Face2025-04-06 更新2025-04-07 收录

下载链接：

https://huggingface.co/datasets/barandinho/amc_turkish

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含AMC 8、10和12数学竞赛问题的土耳其语翻译数据集，其中删除了原数据集中的解决方案列，并未进行翻译。数据集中的问题经过去重处理，并创建了答案列。为了确保答案的一致性和可验证性，只保留了整数、浮点数和分数答案，并重新表述了问题。

创建时间：

2025-04-03

搜集汇总

数据集介绍

构建方式

在数学竞赛领域，AMC土耳其语数据集源自对AMC 8/10/12竞赛题目的系统采集与处理。原始英文试题通过专业爬虫技术从权威数学竞赛平台获取，经Jaccard相似度算法进行去重处理后，构建了标准化的解题答案字段。为确保数据质量，研究团队采用claude-3-7-sonnet模型完成专业数学术语的土耳其语批量翻译，并严格筛选保留数值型答案条目，剔除文本类应答以维持验证一致性。

特点

该数据集呈现鲜明的跨语言数学能力评估特征，包含1700条经过专业翻译的土耳其语数学题目及其对应解答。每个条目均包含原始问题链接、标准化答案以及双语对照文本，特别保留了分数和浮点数等数学表达形式。数据经过严格的去重和格式统一处理，题目表述根据翻译需求进行了专业调整，确保其适用于土耳其语环境的数学推理研究。

使用方法

研究者可基于该双语数据集开展跨语言数学理解能力的对比分析，测试机器学习模型在不同语言环境下的数学推理表现。使用时应充分注意原始问题与翻译文本的对应关系，建议通过URL字段溯源验证题目完整性。数据集采用标准化的测试集划分，可直接加载用于机器翻译质量评估、数学问题求解等任务的基准测试，但需注意其不包含原始选择题选项的特殊设计。

背景与挑战

背景概述

AMC土耳其语数据集是基于AMC 8、10和12竞赛题目构建的专业数学问题解答数据集，由研究团队通过系统化数据采集与处理流程创建。该数据集源自艺术问题解决网站（Art of Problem Solving）的公开题库，经过数据去重、答案提取及土耳其语翻译等关键步骤处理。数据集构建过程中采用了先进的Jaccard相似度算法进行去重处理，并运用Claude-3语言模型完成专业数学内容的精准翻译，体现了跨语言数学教育资源的开发趋势。该数据集的建立为土耳其语数学教育研究提供了重要资源，促进了非英语数学教育资源的标准化发展。

当前挑战

该数据集面临的核心挑战体现在数学问题跨语言转换的准确性保障，特别是在保留数学表达严谨性的同时完成自然语言转换。数据构建过程中需克服原始题目格式不一致、数学符号系统转换等技术难题，同时确保翻译后的土耳其语表述与原始数学概念保持语义等价。另一挑战在于答案验证系统的可靠性建设，需要处理分数、小数等多种数学表达形式的标准化问题。数据集还面临着数学专业术语在低资源语言中的表达规范化挑战，这对后续模型的数学推理能力评估提出了更高要求。

常用场景

经典使用场景

在数学教育领域，amc_turkish数据集作为AMC竞赛试题的土耳其语翻译版本，为研究跨语言数学问题理解提供了重要素材。该数据集特别适用于探索非英语母语学习者在解决数学问题时的认知模式差异，研究者可通过对比分析原始英语题目与土耳其语翻译版本，揭示语言转换对数学思维过程的影响机制。

衍生相关工作

基于该数据集已衍生出多项跨语言数学认知研究，包括《土耳其语数学问题表述的语义等效性研究》等经典论文。在自然语言处理领域，研究者利用其构建了首个土耳其语数学问题理解评估基准TurkMATH，推动了低资源语言数学NLP模型的发展。

数据集最近研究