camel-ai/physics
收藏Hugging Face2023-05-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/camel-ai/physics
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-nc-4.0
language:
- en
tags:
- instruction-finetuning
pretty_name: CAMEL Physics
task_categories:
- text-generation
arxiv: 2303.17760
extra_gated_prompt: "By using this data, you acknowledge and agree to utilize it solely for research purposes, recognizing that the dataset may contain inaccuracies due to its artificial generation through ChatGPT."
extra_gated_fields:
Name: text
Email: text
I will adhere to the terms and conditions of this dataset: checkbox
---
# **CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society**
- **Github:** https://github.com/lightaime/camel
- **Website:** https://www.camel-ai.org/
- **Arxiv Paper:** https://arxiv.org/abs/2303.17760
## Dataset Summary
Physics dataset is composed of 20K problem-solution pairs obtained using gpt-4. The dataset problem-solutions pairs generating from 25 physics topics, 25 subtopics for each topic and 32 problems for each "topic,subtopic" pairs.
We provide the data in `physics.zip`.
## Data Fields
**The data fields for files in `physics.zip` are as follows:**
* `role_1`: assistant role
* `topic`: physics topic
* `sub_topic`: physics subtopic belonging to topic
* `message_1`: refers to the problem the assistant is asked to solve.
* `message_2`: refers to the solution provided by the assistant.
**Download in python**
```
from huggingface_hub import hf_hub_download
hf_hub_download(repo_id="camel-ai/physics", repo_type="dataset", filename="physics.zip",
local_dir="datasets/", local_dir_use_symlinks=False)
```
### Citation
```
@misc{li2023camel,
title={CAMEL: Communicative Agents for "Mind" Exploration of Large Scale Language Model Society},
author={Guohao Li and Hasan Abed Al Kader Hammoud and Hani Itani and Dmitrii Khizbullin and Bernard Ghanem},
year={2023},
eprint={2303.17760},
archivePrefix={arXiv},
primaryClass={cs.AI}
}
```
## Disclaimer:
This data was synthetically generated by GPT4 and might contain incorrect information. The dataset is there only for research purposes.
---
license: cc-by-nc-4.0
---
许可证:CC BY-NC 4.0
语言:英语
标签:指令微调(instruction-finetuning)
展示名称:CAMEL Physics
任务类别:文本生成
arXiv编号:2303.17760
额外 gated 提示:"使用本数据集即表示您承认并同意仅将其用于研究目的,并知晓该数据集因通过ChatGPT人工生成,可能存在不准确之处。"
额外 gated 字段:
姓名:文本输入框
电子邮箱:文本输入框
我将遵守本数据集的条款与条件:复选框
---
# **CAMEL:面向大语言模型(Large Language Model)社群“思维”探索的对话智能体**
- **GitHub 仓库:** https://github.com/lightaime/camel
- **官方网站:** https://www.camel-ai.org/
- **ArXiv 论文:** https://arxiv.org/abs/2303.17760
## 数据集概览
本物理数据集包含20000组由GPT-4生成的问题-解答对。该数据集的问题-解答对源自25个物理主题,每个主题下设25个子主题,且每个“主题-子主题”组合对应32个问题。我们已将数据打包为`physics.zip`供您获取。
## 数据字段说明
`physics.zip` 内文件的数据字段如下:
* `role_1`:助手角色
* `topic`:物理主题
* `sub_topic`:归属该主题的物理子主题
* `message_1`:指代要求助手解答的问题
* `message_2`:指代助手提供的解答内容
## Python 下载代码
from huggingface_hub import hf_hub_download
hf_hub_download(repo_id="camel-ai/physics", repo_type="dataset", filename="physics.zip",
local_dir="datasets/", local_dir_use_symlinks=False)
## 引用
@misc{li2023camel,
title={CAMEL: Communicative Agents for "Mind" Exploration of Large Scale Language Model Society},
author={Guohao Li and Hasan Abed Al Kader Hammoud and Hani Itani and Dmitrii Khizbullin and Bernard Ghanem},
year={2023},
eprint={2303.17760},
archivePrefix={arXiv},
primaryClass={cs.AI}
}
## 免责声明
本数据集由GPT-4人工合成生成,可能包含错误信息,仅可用于研究用途。
---
许可证:CC BY-NC 4.0
---
提供机构:
camel-ai
原始信息汇总
数据集概述
名称: CAMEL Physics
任务类别: 文本生成
数据集组成: 包含20,000个问题-解答对,涉及25个物理主题,每个主题下有25个子主题,每个“主题-子主题”对有32个问题。
数据格式: 压缩文件 physics.zip
数据字段
role_1: 助手角色topic: 物理主题sub_topic: 属于某个主题的物理子主题message_1: 助手需要解决的问题message_2: 助手提供的解答
下载方式
python from huggingface_hub import hf_hub_download hf_hub_download(repo_id="camel-ai/physics", repo_type="dataset", filename="physics.zip", local_dir="datasets/", local_dir_use_symlinks=False)
许可证
许可证: CC-BY-NC-4.0
搜集汇总
数据集介绍

构建方式
在人工智能与物理学交叉研究领域,CAMEL-Physics数据集通过系统性方法构建而成。该数据集利用GPT-4模型,围绕25个物理学主题及其各自25个子主题,针对每个“主题-子主题”组合生成了32个问题-解答对,最终汇集了总计20,000条数据条目。这种分层主题结构确保了数据在物理学知识体系中的广泛覆盖,同时通过大规模语言模型生成内容,为研究提供了丰富的合成数据资源。
使用方法
该数据集主要面向文本生成任务,适用于指令微调、语言模型评估及物理学知识推理等研究方向。用户可通过HuggingFace Hub提供的下载接口获取数据文件,具体使用Python代码从指定仓库下载压缩包至本地目录。在实际应用中,研究者可依据角色、主题、消息等字段进行数据解析与实验设计,但需遵循仅用于科研目的的许可条款,并注意数据可能存在的合成误差,确保使用过程的严谨性与合规性。
背景与挑战
背景概述
在人工智能与自然语言处理领域,大规模语言模型的社会化交互研究逐渐成为前沿热点。CAMEL-Physics数据集于2023年由阿卜杜拉国王科技大学的研究团队创建,其核心研究问题聚焦于通过模拟智能体间的协作对话,探索复杂学科问题求解的机制。该数据集基于GPT-4生成,涵盖了物理学中25个主题及其子主题下的两万条问题-解决方案对,为语言模型在科学推理与教育辅助等领域的应用提供了重要资源,推动了多智能体通信与知识探索研究的发展。
当前挑战
该数据集旨在应对物理学领域问题求解的挑战,特别是模拟智能体对复杂科学概念的理解与推理能力,这要求模型不仅掌握知识,还需进行逻辑推导与错误修正。在构建过程中,主要挑战源于合成数据的生成:尽管使用GPT-4确保了规模与多样性,但自动生成的内容可能存在事实不准确或逻辑不一致,这影响了数据的可靠性;同时,数据覆盖的物理主题虽广,但在深度与实时性上仍有限制,需进一步验证以支撑稳健的研究应用。
常用场景
经典使用场景
在物理学教育智能化领域,CAMEL-Physics数据集以其20K个由GPT-4生成的问题-解决方案对,为语言模型在物理学科中的推理能力评估提供了标准化的测试平台。该数据集覆盖25个物理主题及其子主题,每个主题下包含32个具体问题,常用于训练和验证模型在解决经典力学、电磁学等复杂物理问题时的逻辑连贯性与准确性。研究者通过分析模型生成的解决方案,能够深入探究语言模型在结构化知识领域的理解深度与泛化能力。
解决学术问题
该数据集主要针对语言模型在专业学科知识应用中存在的幻觉问题与推理局限性。通过提供大规模、细粒度的物理问题对,它使研究者能够系统评估模型在跨主题知识迁移、多步骤逻辑推导等方面的表现,从而推动可解释人工智能与领域自适应方法的发展。其意义在于为物理教育智能化建立了可量化的基准,促进了语言模型与专业学科知识的深度融合。
实际应用
在实际应用中,该数据集为智能教育辅助系统的开发提供了核心数据支持。基于其生成的问题-解决方案对,可构建自适应物理学习平台,为学生提供个性化习题推荐与分步解答。同时,在科研自动化领域,它能够协助研究者快速生成物理实验的假设推演方案,或作为专业问答系统的知识库,提升科技文献分析与知识服务的效率。
数据集最近研究
最新研究方向
在人工智能与物理学交叉领域,CAMEL-Physics数据集凭借其由GPT-4生成的20K问题-解决方案对,正成为探索大语言模型在科学推理能力评估与增强方面的关键资源。当前前沿研究聚焦于利用该数据集训练和微调模型,以提升其在复杂物理概念理解和多步骤问题求解中的表现,同时推动基于指令微调的代理通信框架发展。相关热点事件包括将此类合成数据用于弥补真实科学数据稀缺性,以及研究生成式模型在知识密集型任务中的幻觉缓解策略。这一趋势不仅深化了语言模型在STEM教育辅助工具开发中的应用,也为构建可解释、可信赖的AI科学助手奠定了数据基础,对促进科学发现自动化具有深远意义。
以上内容由遇见数据集搜集并总结生成



