camel-ai/chemistry

Name: camel-ai/chemistry
Creator: camel-ai
Published: 2023-05-23 21:12:52
License: 暂无描述

Hugging Face2023-05-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/camel-ai/chemistry

下载链接

链接失效反馈

官方服务：

资源简介：

CAMEL Chemistry数据集是一个由GPT-4生成的化学领域的问题-解决方案对数据集。该数据集包含20,000个问题-解决方案对，涵盖了25个化学主题，每个主题下有25个子主题，每个子主题下有32个问题。数据集的文件结构包括角色、主题、子主题、问题和解决方案等字段。数据集的使用仅限于研究目的，并且可能包含由于GPT-4生成而导致的错误信息。

提供机构：

camel-ai

原始信息汇总

CAMEL Chemistry 数据集概述

数据集总结

CAMEL Chemistry 数据集包含 20,000 个问题-解决方案对，这些对是通过使用 GPT-4 生成的。数据集中的问题-解决方案对来自 25 个化学主题，每个主题有 25 个子主题，每个“主题,子主题”对有 32 个问题。

数据集文件位于 chemistry.zip 中。

数据字段

chemistry.zip 文件中的数据字段如下：

role_1: 助手角色
topic: 化学主题
sub_topic: 属于主题的化学子主题
message_1: 指助手被要求解决的问题
message_2: 指助手提供的解决方案

下载方法

python from huggingface_hub import hf_hub_download hf_hub_download(repo_id="camel-ai/chemistry", repo_type="dataset", filename="chemistry.zip", local_dir="datasets/", local_dir_use_symlinks=False)

引用

@misc{li2023camel, title={CAMEL: Communicative Agents for "Mind" Exploration of Large Scale Language Model Society}, author={Guohao Li and Hasan Abed Al Kader Hammoud and Hani Itani and Dmitrii Khizbullin and Bernard Ghanem}, year={2023}, eprint={2303.17760}, archivePrefix={arXiv}, primaryClass={cs.AI} }

免责声明

该数据集是由 GPT-4 合成生成的，可能包含不正确的信息。数据集仅用于研究目的。

搜集汇总

数据集介绍

构建方式

在化学领域知识体系日益复杂的背景下，CAMEL化学数据集通过精心设计的结构化方法构建而成。该数据集利用GPT-4模型生成了两万条问题-解决方案对，其构建过程遵循层级化主题框架：首先确立了二十五个核心化学主题，每个主题进一步细分为二十五个子主题，最终在每个“主题-子主题”组合下生成三十二个具体问题。这种分层抽样策略确保了数据在化学知识空间中的系统性和代表性，为语言模型提供了结构化的化学推理训练素材。

特点

该数据集的核心特征体现在其高度结构化的知识组织与人工合成数据的双重属性。数据条目包含明确的角色定义、主题层级标签以及完整的问题-解决对话对，形成了多维度标注体系。尽管数据通过大语言模型生成，但其覆盖了从基础概念到专业应用的广泛化学领域，呈现出知识深度与广度的平衡。值得注意的是，数据集明确标注了可能存在的生成误差，体现了对合成数据局限性的科学严谨态度，为研究者提供了透明可靠的数据质量评估基础。

使用方法

在化学信息学与计算语言学交叉研究领域，该数据集主要服务于语言模型的指令微调任务。研究者可通过HuggingFace Hub提供的下载接口获取压缩数据文件，解压后获得包含角色、主题、子主题及对话序列的结构化文本。典型应用场景包括构建化学专业对话系统、评估模型在特定领域的推理能力，或作为跨学科知识表示研究的基准数据。使用时应遵循研究用途限制，并注意结合人工验证以校正可能存在的生成偏差。

背景与挑战

背景概述

在人工智能与化学交叉研究领域，CAMEL化学数据集于2023年由阿卜杜拉国王科技大学的研究团队创建，其核心研究问题聚焦于通过大规模语言模型社会中的通信代理探索化学知识推理与问题求解能力。该数据集基于GPT-4生成，涵盖25个化学主题及其子主题，构建了2万条问题-解决方案对，旨在推动指令微调与文本生成任务的发展，为化学教育、药物发现等领域的智能化应用提供了重要的数据基础。

当前挑战

该数据集旨在解决化学领域复杂问题自动求解的挑战，包括多步骤推理、专业术语理解及跨主题知识整合等难点。在构建过程中，面临合成数据可能存在的准确性不足、主题覆盖的均衡性控制以及生成内容与真实化学知识的一致性验证等挑战，这些因素对数据集的可靠性与应用范围构成了潜在限制。

常用场景

经典使用场景

在化学信息学与人工智能交叉领域，CAMEL Chemistry数据集以其20K个由GPT-4生成的化学问题-解决方案对，为研究者提供了丰富的指令微调资源。该数据集覆盖25个化学主题及其子主题，每个主题下包含32个具体问题，常用于训练和评估大型语言模型在化学知识推理、问题解答及概念解释方面的能力。通过模拟化学专家与助手之间的对话交互，它能够有效支撑模型在复杂化学语境下的逻辑思维与知识整合研究。

解决学术问题

该数据集主要针对化学领域自然语言处理中的知识表示与推理难题，为学术界提供了系统性的基准测试平台。它有助于解决化学教育中自动化问答系统的构建、化学文献的智能解析以及分子性质预测等任务的数据稀缺问题。通过合成数据生成，数据集弥补了真实化学数据获取成本高、标注困难的局限，推动了化学人工智能在低资源场景下的可扩展性研究，并对跨模态化学知识融合产生了积极影响。

衍生相关工作

基于CAMEL Chemistry数据集，衍生出多项经典研究工作，包括化学专用语言模型的指令微调框架、化学对话系统的多轮交互优化以及化学知识图谱的自动构建方法。这些工作进一步拓展了数据集的潜力，例如在化学反应预测、分子合成规划等任务中实现了更高精度的模型性能。相关成果不仅丰富了化学人工智能的学术文献，也为后续的跨学科合作，如化学与计算科学的深度融合，奠定了坚实的数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集