ejbejaranos/ScienticDatasetArxiv-openAI-FormatV4
收藏Hugging Face2024-05-29 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ejbejaranos/ScienticDatasetArxiv-openAI-FormatV4
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含为与OpenAI模型一起使用而转换的科学数据。它包括为机器学习应用设计的详细描述和结构。数据集的结构包括一个训练分割,具有为科学文档处理定制的综合特征。特征包括Messages,其中包含Content和Role两个字段。数据集的使用可以通过`datasets`库加载。数据集发布在Apache-2.0许可证下,任务类别为问答,语言为英语,标签为Papers和Scientific,大小类别为10K < n < 100K。
该数据集包含为与OpenAI模型一起使用而转换的科学数据。它包括为机器学习应用设计的详细描述和结构。数据集的结构包括一个训练分割,具有为科学文档处理定制的综合特征。特征包括Messages,其中包含Content和Role两个字段。数据集的使用可以通过`datasets`库加载。数据集发布在Apache-2.0许可证下,任务类别为问答,语言为英语,标签为Papers和Scientific,大小类别为10K < n < 100K。
提供机构:
ejbejaranos
原始信息汇总
数据集概述
数据集基本信息
- 名称: Scientific Dataset Arxiv OpenAI Format Version 4
- 来源: 原始数据集来自 "taesiri/arxiv_qa"
- 大小: 409,911,619 bytes
- 下载大小: 128,200,822 bytes
- 训练集示例数: 210,580 examples
- 许可证: Apache-2.0 License
数据集结构
- 训练集:
- 大小: 409,911,619 bytes
- 示例数: 210,580 examples
- 下载大小: 128,200,822 bytes
- 特征:
- Messages:
- Content: String
- Role: String
- Messages:
配置信息
- 默认配置:
- 数据文件:
- 训练集路径: data/train-*
- 数据文件:
使用方法
- 使用
datasets库加载数据集: python from datasets import load_dataset dataset = load_dataset("ejbejaranos/ScienticDatasetArxiv-openAI-FormatV3")



