Chain-of-Thought Hub|链式思维数据集|复杂推理数据集
收藏Chain-of-Thought Hub 数据集概述
数据集简介
Chain-of-Thought Hub 是一个专注于评估大型语言模型(LLMs)在复杂推理任务上性能的数据集集合。该数据集由来自爱丁堡大学、华盛顿大学、艾伦人工智能研究所和滑铁卢大学的研究团队创建,旨在衡量模型在数学、科学、符号推理、知识、编码、事实推理和长上下文理解等领域的表现。
数据集分类
主要数据集(Main)
- GSM8K:8K个小学水平数学问题
- MATH:12K个竞赛级数学和科学问题
- MMLU:15K个问题,涵盖57个学科的高中和大学知识
- BBH:6.5K个问题,包含23个子集的符号和文本推理
- HumanEval:164个手写Python编程问题
- C-Eval:13K个中文多选题,涵盖52个学科知识
实验性数据集(Experimental)
- TheoremQA:800个QA对,涵盖350+个数学、EE&CS、物理和金融定理
- SummEdits:6.3K个事实一致性推理问题,涵盖10个领域
长上下文数据集(Long Context)
- Qspr:研究论文上的问答
- QALT:长篇文章和故事的多选题
- BkSS:小说部分摘要的重新排序
数据集特点
- 专注于复杂推理任务,作为LLMs能力的关键区分指标
- 包含稳定且广泛使用的基准数据集(Main)
- 包含具有测试未来LLM能力潜力的实验性数据集
- 特别关注长上下文推理能力评估
评估方法
- 使用思维链(Chain-of-Thought)提示方法进行评估
- 主要评估指标为准确率
- 提供详细的评估脚本和运行说明
数据来源
- GSM8K:https://arxiv.org/abs/2201.11903
- MMLU:https://arxiv.org/abs/2210.11416
- MATH:https://arxiv.org/abs/2206.14858
- BBH:https://arxiv.org/abs/2210.09261
- HumanEval:https://github.com/openai/human-eval
- C-Eval:https://cevalbenchmark.com/
- TheoremQA:https://github.com/wenhuchen/TheoremQA
- SummEdits:https://github.com/salesforce/factualNLG
更新记录
- 2023年12月10日:添加Gemini、Yi-34B、DeepSeek 67B模型结果
- 2023年6月20日:分离主榜单和实验性榜单,添加长上下文部分
- 早期更新包括添加评估脚本、新数据集和模型
相关资源
- 论文:https://arxiv.org/abs/2305.17306
- 博客:https://yaofu.notion.site/Towards-Complex-Reasoning-the-Polaris-of-Large-Language-Models-c2b4a51355b44764975f88e6a42d4e75
- Twitter讨论:https://twitter.com/Francis_YAO_/status/1663472109299937280

yahoo-finance-data
该数据集包含从Yahoo! Finance、Nasdaq和U.S. Department of the Treasury获取的财务数据,旨在用于研究和教育目的。数据集包括公司详细信息、高管信息、财务指标、历史盈利、股票价格、股息事件、股票拆分、汇率和每日国债收益率等。每个数据集都有其来源、简要描述以及列出的列及其数据类型和描述。数据定期更新,并以Parquet格式提供,可通过DuckDB进行查询。
huggingface 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
CMAB
CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。
arXiv 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
DAT
DAT是一个统一的跨场景跨领域基准,用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景,以评估算法的跨场景和跨领域泛化能力,并具有高保真度的现实机器人动力学建模。
github 收录