TuringQ
收藏arXiv2024-10-09 更新2024-10-11 收录
下载链接:
https://huggingface.co/datasets, https://github.com
下载链接
链接失效反馈官方服务:
资源简介:
TuringQ是由伊朗谢里夫理工大学和卡塔尔计算研究所联合创建的数据集,专门用于评估大型语言模型在计算理论中的推理能力。该数据集包含4,006个本科和研究生级别的问题-答案对,涵盖四个难度级别和七个核心理论领域。数据集的内容来源于全球29所顶尖大学的公开考试和作业解决方案,以及通过Claude 3 Sonnet模型生成的核心理论问题。创建过程包括精心挑选和生成问题,确保数据集的高质量和广泛覆盖。TuringQ的应用领域主要集中在提升大型语言模型在复杂计算推理任务中的表现,旨在解决计算理论中的深度理解和逻辑推理问题。
TuringQ is a dataset jointly created by Sharif University of Technology in Iran and the Qatar Computing Research Institute, specifically designed to evaluate the reasoning capabilities of large language models in computational theory. This dataset contains 4,006 question-answer pairs at undergraduate and graduate levels, covering four difficulty tiers and seven core theoretical domains. The content of the dataset is sourced from public exams and assignment solutions from 29 top-tier universities worldwide, as well as core theoretical questions generated using the Claude 3 Sonnet model. The dataset creation process involves meticulous selection and generation of questions to ensure its high quality and broad coverage. The primary application scenarios of TuringQ focus on enhancing the performance of large language models in complex computational reasoning tasks, aiming to address deep understanding and logical reasoning problems in computational theory.
提供机构:
伊朗谢里夫理工大学计算机工程系,卡塔尔计算研究所
创建时间:
2024-10-09
搜集汇总
数据集介绍

构建方式
TuringQ数据集的构建基于全球顶尖大学的公开考试和作业解答,确保了数据的高质量和广泛覆盖。该数据集包含4,006个本科和研究生级别的问题-答案对,涵盖了四个难度级别和七个核心理论领域。数据收集过程包括从29所顶级大学精选的2,155个问题,以及从非大学资源中整合的61个问题。此外,利用Claude 3 Sonnet模型生成了1,790个问题-答案对,以补充学术问题,确保数据集的全面性和深度。
特点
TuringQ数据集的特点在于其全面性和多样性。它不仅涵盖了理论计算领域的多个核心概念,还通过四个难度级别的设计,确保了数据集的层次性和挑战性。此外,数据集中的问题类型包括客观题、分析题和主观题,这种多样性使得数据集能够全面评估语言模型在不同认知任务中的表现。
使用方法
TuringQ数据集主要用于评估和微调大型语言模型(LLMs)在理论计算领域的推理能力。研究者可以使用该数据集对LLMs进行训练和测试,通过Chain of Thought提示和专家人工评估来验证模型的性能。此外,数据集还支持自动化LLM评估系统的开发,通过定义AutoGrade-TQ提示,实现对模型输出的自动评分,从而提高评估效率和准确性。
背景与挑战
背景概述
TuringQ数据集由伊朗Sharif大学和卡塔尔计算研究所的研究人员于2024年创建,旨在评估大型语言模型(LLMs)在计算理论中的推理能力。该数据集包含了4,006个本科和研究生级别的问题-答案对,涵盖了七个核心理论领域和四个难度级别。TuringQ不仅作为一个基准,还作为一个资源,用于提升LLMs在复杂计算推理任务中的性能。通过评估多个开源LLMs和GPT-4,研究人员展示了这些模型在理论计算问题上的表现,并提出了一个基于LLMs的自动化评估系统,该系统在与人类评估相比时表现出竞争性的准确性。
当前挑战
TuringQ数据集面临的挑战包括:1) 评估LLMs在计算理论中的理解能力,这是一个需要深度理解和逻辑推理的领域;2) 在构建过程中,确保数据集的广泛覆盖和高质量,涵盖了从基础概念到高级理论的多个层次。此外,自动化评估系统的开发也面临挑战,如确保LLMs作为评估者的可信度和准确性,以及在不同难度级别和类别上的表现一致性。
常用场景
经典使用场景
TuringQ数据集在评估大型语言模型(LLMs)在计算理论中的推理能力方面具有经典应用。通过包含4,006个本科和研究生级别的问题-答案对,该数据集覆盖了四个难度级别和七个核心理论领域。研究者利用TuringQ来评估多种开源LLMs以及GPT-4,采用思维链提示和专家人工评估,以全面衡量模型在复杂计算推理任务中的表现。
解决学术问题
TuringQ数据集解决了在计算理论领域中评估LLMs推理能力的学术研究问题。它填补了现有多任务基准(如BIG-Bench)在评估LLMs在理论计算概念和问题上的空白。通过提供一个全面的平台,TuringQ推动了LLMs在处理计算复杂概念方面的技能提升,有助于开发更可靠和高效的AI系统。
衍生相关工作
TuringQ数据集的引入催生了多项相关研究工作。例如,研究者探索了利用LLMs自身作为TuringQ的评估者,提出了自动化LLM评估系统。此外,通过对Llama3-8B模型的微调,研究展示了在计算理论领域中LLMs性能的显著提升。这些工作不仅推动了LLMs在计算理论中的应用,还为其他领域的模型评估和优化提供了新的思路。
以上内容由遇见数据集搜集并总结生成



