five

Celestia2

收藏
魔搭社区2025-12-05 更新2025-07-12 收录
下载链接:
https://modelscope.cn/datasets/sequelbox/Celestia2
下载链接
链接失效反馈
官方服务:
资源简介:
**Celestia 2** is a multi-turn agent-instruct dataset containing science data. This dataset focuses on challenging multi-turn conversations and contains: - 176k rows of synthetic multi-turn science-instruct data, using [Microsoft's AgentInstruct style.](https://huggingface.co/datasets/microsoft/orca-agentinstruct-1M-v1) All prompts and responses are synthetically generated using [Llama 3.1 405b Instruct.](https://huggingface.co/meta-llama/Meta-Llama-3.1-405B-Instruct) Primary subjects are physics, chemistry, biology, and computer science; secondary subjects include Earth science, astronomy, and information theory. This dataset contains synthetically generated data and has not been subject to manual review.

**Celestia 2** 是一款包含科学数据的多轮智能体指令(agent-instruct)数据集。本数据集聚焦于具有挑战性的多轮对话场景,具体包含以下内容: - 共计17.6万条合成多轮科学指令数据,采用微软(Microsoft)的AgentInstruct风格,相关风格数据集可参考链接:https://huggingface.co/datasets/microsoft/orca-agentinstruct-1M-v1。所有提示词与回复均通过Llama 3.1 405B Instruct模型合成生成,对应模型的官方链接为:https://huggingface.co/meta-llama/Meta-Llama-3.1-405B-Instruct。数据集的核心学科涵盖物理学、化学、生物学与计算机科学,次要学科包括地球科学、天文学与信息论。 本数据集仅包含合成生成的数据,未经过人工审核。
提供机构:
maas
创建时间:
2025-07-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作