knowrohit07/saraswati-stem
收藏Hugging Face2024-01-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/knowrohit07/saraswati-stem
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含一系列与STEM(科学、技术、工程、数学)主题相关的问答对,旨在训练和评估对话代理模型,特别是在教育和信息提供场景中。数据以多轮对话形式呈现,包含用户提问和助手提供详细且科学准确的回答。数据集采用ChatML-ish格式,由GPT-4和自定义的Saraswati LLM合成,比例为75:25。每个记录包含一个do_train布尔标志,指示是否应外推用于奖励模型训练。数据集来源包括精选的医学对话、NCERT范例和Google Scholar文章。未来计划使用nougat和layoutlmv3解析大量富含LaTeX的文本和学术文章以扩展数据集。数据集推荐用于训练LLMs,特别是在STEM领域提供教育和信息帮助的模型。局限性在于数据集专注于STEM主题,可能不涵盖一般对话或非STEM领域。伦理方面,所有数据均来自模拟互动,不包含个人信息,并致力于在科学解释中保持无偏见。
该数据集包含一系列与STEM(科学、技术、工程、数学)主题相关的问答对,旨在训练和评估对话代理模型,特别是在教育和信息提供场景中。数据以多轮对话形式呈现,包含用户提问和助手提供详细且科学准确的回答。数据集采用ChatML-ish格式,由GPT-4和自定义的Saraswati LLM合成,比例为75:25。每个记录包含一个do_train布尔标志,指示是否应外推用于奖励模型训练。数据集来源包括精选的医学对话、NCERT范例和Google Scholar文章。未来计划使用nougat和layoutlmv3解析大量富含LaTeX的文本和学术文章以扩展数据集。数据集推荐用于训练LLMs,特别是在STEM领域提供教育和信息帮助的模型。局限性在于数据集专注于STEM主题,可能不涵盖一般对话或非STEM领域。伦理方面,所有数据均来自模拟互动,不包含个人信息,并致力于在科学解释中保持无偏见。
提供机构:
knowrohit07
原始信息汇总
数据集目的
该数据集包含一系列与STEM(科学、技术、工程、数学)主题相关的问题和答案对。数据集旨在训练和评估对话代理模型,特别是在教育和信息传递环境中。
数据收集和标注
数据样本被转换为多轮对话格式,用户提出问题,助手提供详细、科学准确的答案。
关键特征
- 格式:ChatML-ish。
- 合成:GPT-4与自定义微调的Saraswati LLM混合,比例为75:25。
- 训练标志:每条记录包含一个do_train布尔标志,指示是否应外推用于奖励模型训练。
- 种子任务:包含高度精选的医学对话样本,以及来自NCERT范例和Google Scholar文章的结构化样本。
- 未来计划:计划使用nougat和layoutlmv3解析大量富含LaTeX的文本和学者文章,以扩展“Saraswati”数据集系列。
使用和限制
- 推荐用途:该数据集适用于训练LLMs,特别是那些专注于在STEM领域提供教育和信息辅助的模型。也适用于角色扮演和图像模型投影,即VLM模型。
- 限制:数据集专注于STEM主题,可能不会广泛覆盖一般对话方面或非STEM领域。然而,如果与Python或代码推理结合训练,它有可能超越开源领导者。
伦理考虑
- 数据隐私和同意:所有收集的数据来自模拟交互,不包含任何个人信息。
- 偏见和公平性:数据集专注于STEM中的事实信息,力求在科学解释中保持无偏见。然而,重要的是要持续评估基于此数据训练的模型是否存在任何意外偏见,特别是在解释和响应生成方面。



