five

geraldOslo/RadProtDataSet

收藏
Hugging Face2024-01-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/geraldOslo/RadProtDataSet
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含与挪威牙科和牙科卫生学生课程相关的提示/答案对,特别是辐射物理、辐射防护和放射技术。数据来源于商业可用的大型语言模型(LLMs),如OpenAI GPT-4和Anthropic Claude 2,并基于一系列源文档生成。数据集用于微调开源LLMs,格式为UTF-8编码的;分隔的CSV文件,包含两列:prompt和prediction。

该数据集包含与挪威牙科和牙科卫生学生课程相关的提示/答案对,特别是辐射物理、辐射防护和放射技术。数据来源于商业可用的大型语言模型(LLMs),如OpenAI GPT-4和Anthropic Claude 2,并基于一系列源文档生成。数据集用于微调开源LLMs,格式为UTF-8编码的;分隔的CSV文件,包含两列:prompt和prediction。
提供机构:
geraldOslo
原始信息汇总

数据集概述

概览

该数据集包含与挪威牙科和牙科卫生学生课程相关的提示/答案对,特别关注辐射物理学、辐射防护和放射技术。

数据文件

  • data.csv - 原始数据集,如下面所述生成并手动校对
  • syntetic_5k_gemini.csv - 使用Google Gemini Pro生成的原始数据增强版本

数据来源

该数据集中的提示/答案对使用商业可用的大型语言模型(LLMs)生成,包括OpenAI GPT-4和Anthropic Claude 2。这些对是基于输入到这些LLMs的文档分析生成的。随后,删除了一些不相关的对,一些进行了准确性和清晰度的编辑,所有对都进行了错误校对。

来源文档

数据集的创建使用了多种来源文档,主要包括:

目的

该数据集用于开源LLMs的微调。

格式

数据集是UTF-8格式的";"分隔的csv文件。包含两列:prompt, prediction。

警告

数据集提供供自行负责使用。如果发现严重错误,请提供反馈。

待办事项

  • 添加更多相关的提示/响应对
  • 进一步校对和调整
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作