five

camel-ai/math

收藏
Hugging Face2023-06-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/camel-ai/math
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由50K个问题-解决方案对组成,这些对是通过GPT-4生成的。数据集的问题-解决方案对来自25个数学主题,每个主题有25个子主题,每个“主题,子主题”对有80个问题。数据文件`math50k.zip`中的数据字段包括`role_1`(助手角色)、`topic`(数学主题)、`sub_topic`(属于主题的数学子主题)、`message_1`(助手被要求解决的问题)和`message_2`(助手提供的解决方案)。

This dataset comprises 50,000 question-solution pairs generated by GPT-4. The question-solution pairs are sourced from 25 mathematical topics, each encompassing 25 sub-topics, with 80 questions available for each "topic, sub-topic" pair. The data fields in the archive `math50k.zip` include `role_1` (assistant role), `topic` (mathematical topic), `sub_topic` (mathematical sub-topic belonging to the corresponding main topic), `message_1` (the problem that the assistant is requested to solve), and `message_2` (the solution provided by the assistant).
提供机构:
camel-ai
原始信息汇总

数据集概述

数据集名称

CAMEL Math

数据集描述

CAMEL Math 数据集包含50,000个问题-解答对,这些问题和解答是通过GPT-4生成的。数据集涵盖了25个数学主题,每个主题下有25个子主题,每个“主题-子主题”对下有80个问题。

数据集结构

数据集文件为 math50k.zip,包含以下字段:

  • role_1: 助手角色
  • topic: 数学主题
  • sub_topic: 属于主题的数学子主题
  • message_1: 助手需要解决的问题
  • message_2: 助手提供的解答

文件命名格式为 {topic_index}_{subtopic_index}_{problem_number}

许可证

数据集遵循 CC-BY-NC-4.0 许可证。

使用声明

使用此数据集需遵守以下声明:仅用于研究目的,数据集可能包含因通过ChatGPT人工生成的错误信息。

下载方式

可通过以下Python代码从Hugging Face Hub下载数据集: python from huggingface_hub import hf_hub_download hf_hub_download(repo_id="camel-ai/math", repo_type="dataset", filename="math50k.zip", local_dir="datasets/", local_dir_use_symlinks=False)

引用信息

@misc{li2023camel, title={CAMEL: Communicative Agents for "Mind" Exploration of Large Scale Language Model Society}, author={Guohao Li and Hasan Abed Al Kader Hammoud and Hani Itani and Dmitrii Khizbullin and Bernard Ghanem}, year={2023}, eprint={2303.17760}, archivePrefix={arXiv}, primaryClass={cs.AI} }

搜集汇总
数据集介绍
main_image_url
构建方式
CAMEL Math数据集通过GPT-4生成,包含了50,000个问题-解答对,涵盖25个数学主题及其各自的25个子主题,每个主题与子主题组合生成80个问题。数据集的构建方式体现了大规模语言模型在生成高质量数学问题及其解答方面的潜力,尽管其准确性可能受到模型生成过程的影响。
特点
该数据集的显著特点在于其大规模和多样性,涵盖了广泛的数学主题和子主题,提供了丰富的训练和测试资源。此外,数据集的生成方式使其具有高度的可扩展性和灵活性,适用于多种自然语言处理任务,如指令微调和文本生成。
使用方法
使用CAMEL Math数据集时,用户可以通过HuggingFace Hub进行下载,使用提供的Python代码即可轻松获取数据。数据集的结构清晰,包含角色、主题、子主题、问题和解答等字段,便于直接应用于各种机器学习和深度学习模型中,进行数学问题的生成和解答任务的训练与评估。
背景与挑战
背景概述
CAMEL Math数据集由Guohao Li等人于2023年创建,旨在通过大规模语言模型探索数学问题的解决能力。该数据集包含了50,000个问题-解决方案对,这些对是通过GPT-4生成的,涵盖了25个数学主题及其各自的25个子主题,每个主题和子主题对包含80个问题。CAMEL Math数据集的发布不仅为研究者提供了一个丰富的资源来测试和微调语言模型在数学问题上的表现,还为探索人工智能在教育领域的应用提供了新的视角。
当前挑战
CAMEL Math数据集在构建过程中面临的主要挑战包括:首先,通过GPT-4生成的问题和解决方案可能存在不准确性,这要求研究者在利用该数据集时需谨慎验证其内容的正确性。其次,数据集的生成依赖于人工智能模型,这可能导致某些问题的表述或解决方案的逻辑不够严谨。此外,数据集的使用仅限于研究目的,限制了其在实际应用中的推广和使用范围。
常用场景
经典使用场景
CAMEL Math数据集以其丰富的数学问题与解决方案对,成为自然语言处理领域中指令微调的经典资源。该数据集通过GPT-4生成,涵盖了25个数学主题及其子主题,每个主题下包含80个问题与解答对,共计50,000对。这些数据对研究者进行模型微调、评估和测试提供了宝贵的资源,特别是在数学推理和文本生成任务中,展现了其独特的应用价值。
解决学术问题
CAMEL Math数据集解决了自然语言处理领域中数学推理与生成模型的关键问题。通过提供大规模、多样化的数学问题与解答对,该数据集为研究者提供了一个标准化的测试平台,用以评估和提升模型在复杂数学问题上的推理能力。这不仅推动了数学相关任务的模型性能提升,也为跨学科研究提供了新的可能性,特别是在人工智能与数学教育的结合方面。
衍生相关工作
CAMEL Math数据集的发布激发了大量相关研究工作,特别是在数学推理和自然语言生成领域。许多研究者利用该数据集进行模型微调和性能评估,提出了多种改进的数学推理模型和生成算法。此外,该数据集还促进了跨学科研究,如将数学教育与人工智能结合,开发出更加智能化的教育工具。这些衍生工作不仅丰富了学术研究的内容,也为实际应用提供了技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作