knowrohit07/saraswati-stem

Name: knowrohit07/saraswati-stem
Creator: knowrohit07
Published: 2024-01-31 12:00:01
License: 暂无描述

Hugging Face2024-01-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/knowrohit07/saraswati-stem

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一系列与STEM（科学、技术、工程、数学）主题相关的问答对，旨在训练和评估对话代理模型，特别是在教育和信息提供场景中。数据以多轮对话形式呈现，包含用户提问和助手提供详细且科学准确的回答。数据集采用ChatML-ish格式，由GPT-4和自定义的Saraswati LLM合成，比例为75:25。每个记录包含一个do_train布尔标志，指示是否应外推用于奖励模型训练。数据集来源包括精选的医学对话、NCERT范例和Google Scholar文章。未来计划使用nougat和layoutlmv3解析大量富含LaTeX的文本和学术文章以扩展数据集。数据集推荐用于训练LLMs，特别是在STEM领域提供教育和信息帮助的模型。局限性在于数据集专注于STEM主题，可能不涵盖一般对话或非STEM领域。伦理方面，所有数据均来自模拟互动，不包含个人信息，并致力于在科学解释中保持无偏见。

提供机构：

knowrohit07

原始信息汇总

数据集目的

该数据集包含一系列与STEM（科学、技术、工程、数学）主题相关的问题和答案对。数据集旨在训练和评估对话代理模型，特别是在教育和信息传递环境中。

数据收集和标注

数据样本被转换为多轮对话格式，用户提出问题，助手提供详细、科学准确的答案。

关键特征

格式：ChatML-ish。
合成：GPT-4与自定义微调的Saraswati LLM混合，比例为75:25。
训练标志：每条记录包含一个do_train布尔标志，指示是否应外推用于奖励模型训练。
种子任务：包含高度精选的医学对话样本，以及来自NCERT范例和Google Scholar文章的结构化样本。
未来计划：计划使用nougat和layoutlmv3解析大量富含LaTeX的文本和学者文章，以扩展“Saraswati”数据集系列。

使用和限制

推荐用途：该数据集适用于训练LLMs，特别是那些专注于在STEM领域提供教育和信息辅助的模型。也适用于角色扮演和图像模型投影，即VLM模型。
限制：数据集专注于STEM主题，可能不会广泛覆盖一般对话方面或非STEM领域。然而，如果与Python或代码推理结合训练，它有可能超越开源领导者。

伦理考虑

数据隐私和同意：所有收集的数据来自模拟交互，不包含任何个人信息。
偏见和公平性：数据集专注于STEM中的事实信息，力求在科学解释中保持无偏见。然而，重要的是要持续评估基于此数据训练的模型是否存在任何意外偏见，特别是在解释和响应生成方面。

5,000+

优质数据集

54 个

任务类型

进入经典数据集