five

Chain-of-Thought Hub|链式思维数据集|复杂推理数据集

收藏
github2023-05-01 更新2025-02-07 收录
链式思维
复杂推理
下载链接:
https://github.com/FranxYao/chain-of-thought-hub
下载链接
链接失效反馈
资源简介:
链式思维中心(Chain-of-Thought Hub)数据集整合了八个开源数据集,构建了一个涵盖复杂推理任务的全面资源库,这些任务涉及数学(GSM8K)、科学(MATH、TheoremQA)、符号(BBH)、知识(MMLU、C-Eval)、编码(HumanEval)以及事实(SummEdits)等领域。评估采用少样本链式思维(few-shot CoT)提示的方法。

The Chain-of-Thought Hub dataset integrates eight open-source datasets to construct a comprehensive repository encompassing complex reasoning tasks, spanning across domains such as mathematics (GSM8K), science (MATH, TheoremQA), symbolism (BBH), knowledge (MMLU, C-Eval), coding (HumanEval), and factual information (SummEdits). Evaluation is conducted using the few-shot Chain-of-Thought (CoT) prompting approach.
提供机构:
University of Edinburgh et al.
创建时间:
2023-05-01
原始信息汇总

Chain-of-Thought Hub 数据集概述

数据集简介

Chain-of-Thought Hub 是一个专注于评估大型语言模型(LLMs)在复杂推理任务上性能的数据集集合。该数据集由来自爱丁堡大学、华盛顿大学、艾伦人工智能研究所和滑铁卢大学的研究团队创建,旨在衡量模型在数学、科学、符号推理、知识、编码、事实推理和长上下文理解等领域的表现。

数据集分类

主要数据集(Main)

  • GSM8K:8K个小学水平数学问题
  • MATH:12K个竞赛级数学和科学问题
  • MMLU:15K个问题,涵盖57个学科的高中和大学知识
  • BBH:6.5K个问题,包含23个子集的符号和文本推理
  • HumanEval:164个手写Python编程问题
  • C-Eval:13K个中文多选题,涵盖52个学科知识

实验性数据集(Experimental)

  • TheoremQA:800个QA对,涵盖350+个数学、EE&CS、物理和金融定理
  • SummEdits:6.3K个事实一致性推理问题,涵盖10个领域

长上下文数据集(Long Context)

  • Qspr:研究论文上的问答
  • QALT:长篇文章和故事的多选题
  • BkSS:小说部分摘要的重新排序

数据集特点

  • 专注于复杂推理任务,作为LLMs能力的关键区分指标
  • 包含稳定且广泛使用的基准数据集(Main)
  • 包含具有测试未来LLM能力潜力的实验性数据集
  • 特别关注长上下文推理能力评估

评估方法

  • 使用思维链(Chain-of-Thought)提示方法进行评估
  • 主要评估指标为准确率
  • 提供详细的评估脚本和运行说明

数据来源

  • GSM8K:https://arxiv.org/abs/2201.11903
  • MMLU:https://arxiv.org/abs/2210.11416
  • MATH:https://arxiv.org/abs/2206.14858
  • BBH:https://arxiv.org/abs/2210.09261
  • HumanEval:https://github.com/openai/human-eval
  • C-Eval:https://cevalbenchmark.com/
  • TheoremQA:https://github.com/wenhuchen/TheoremQA
  • SummEdits:https://github.com/salesforce/factualNLG

更新记录

  • 2023年12月10日:添加Gemini、Yi-34B、DeepSeek 67B模型结果
  • 2023年6月20日:分离主榜单和实验性榜单,添加长上下文部分
  • 早期更新包括添加评估脚本、新数据集和模型

相关资源

  • 论文:https://arxiv.org/abs/2305.17306
  • 博客:https://yaofu.notion.site/Towards-Complex-Reasoning-the-Polaris-of-Large-Language-Models-c2b4a51355b44764975f88e6a42d4e75
  • Twitter讨论:https://twitter.com/Francis_YAO_/status/1663472109299937280
AI搜集汇总
数据集介绍
main_image_url
构建方式
Chain-of-Thought Hub数据集的构建基于对复杂推理任务的精心挑选,涵盖了数学、科学、符号推理、知识、编码、事实推理及长上下文等多个领域。这些任务被分为主要、实验性和长上下文三类,旨在全面评估大型语言模型(LLMs)在复杂任务中的表现。数据集的构建过程注重任务的多样性和挑战性,确保能够有效区分不同模型的推理能力。
特点
Chain-of-Thought Hub数据集的特点在于其专注于复杂推理任务,这些任务能够显著区分不同模型的性能。数据集包含多个子集,如GSM8K、MATH、MMLU等,每个子集都针对特定的推理能力进行设计。此外,数据集还引入了长上下文任务,如Qspr和QALT,这些任务要求模型在极长的文本中进行推理,进一步挑战模型的极限。
使用方法
Chain-of-Thought Hub数据集的使用方法包括通过提供的脚本和API对模型进行评估。用户可以通过运行特定的Python脚本来测试模型在不同任务上的表现,如MMLU、GSM8K和BBH等。这些脚本支持多种模型,包括GPT-3.5、Claude和LLaMA等,用户可以根据需要选择不同的模型和任务进行测试。此外,数据集还提供了详细的文档和示例,帮助用户快速上手并进行有效的模型评估。
背景与挑战
背景概述
Chain-of-Thought Hub是由来自爱丁堡大学、华盛顿大学、艾伦人工智能研究所和滑铁卢大学的研究团队于2023年创建的一个专注于评估大型语言模型(LLMs)复杂推理能力的基准数据集。该数据集的核心研究问题在于如何准确衡量LLMs在处理复杂任务(如数学、科学、符号推理、知识问答、编程等)时的表现。通过精心挑选的多个子数据集(如GSM8K、MATH、MMLU等),Chain-of-Thought Hub旨在为LLMs的推理能力提供一个全面的评估框架。该数据集不仅推动了LLMs在复杂推理任务上的研究进展,还为未来的LLM应用生态系统奠定了基础。
当前挑战
Chain-of-Thought Hub面临的挑战主要体现在两个方面。首先,在领域问题方面,尽管LLMs在简单对话任务上表现出色,但在复杂推理任务(如数学证明、长文本理解等)上的表现仍有待提升。这些任务要求模型具备更高的逻辑推理能力和上下文理解能力,而当前的模型在这些方面仍存在显著差距。其次,在数据集构建过程中,研究人员需要确保所选任务的多样性和难度,以全面评估模型的推理能力。此外,如何在不同模型之间进行公平比较也是一个挑战,因为模型的训练数据、提示工程和评估方法可能存在差异,导致结果的可比性受到影响。
常用场景
经典使用场景
Chain-of-Thought Hub数据集广泛应用于评估大型语言模型(LLMs)在复杂推理任务中的表现。通过整合多个领域的复杂任务,如数学(GSM8K)、科学(MATH)、符号推理(BBH)、知识(MMLU)、编程(HumanEval)等,该数据集为研究人员提供了一个全面的基准,用于衡量模型在不同推理场景下的能力。
实际应用
在实际应用中,Chain-of-Thought Hub数据集被广泛用于开发和优化智能助手、教育工具、自动化编程系统等领域。例如,通过评估模型在GSM8K上的表现,可以优化教育类应用中的数学问题解答能力;而在HumanEval上的测试则有助于提升编程辅助工具的性能。这些应用直接推动了LLMs在现实场景中的落地。
衍生相关工作
Chain-of-Thought Hub数据集衍生了许多经典研究工作,如基于其评估框架的模型优化算法、新型推理任务的设计以及长上下文推理能力的探索。例如,研究者利用该数据集开发了更高效的提示工程技术,并提出了针对长上下文推理的新基准任务(如Qspr和QALT)。这些工作进一步拓展了LLMs的应用边界,推动了人工智能领域的前沿发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

yahoo-finance-data

该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。

huggingface 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

DAT

DAT是一个统一的跨场景跨领域基准,用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景,以评估算法的跨场景和跨领域泛化能力,并具有高保真度的现实机器人动力学建模。

github 收录