hanyueshf/ml-arxiv-papers-qa
收藏Hugging Face2024-05-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hanyueshf/ml-arxiv-papers-qa
下载链接
链接失效反馈官方服务:
资源简介:
该机器学习问答数据集包含43,713个样本,每个样本包括问题、上下文(标题+摘要)和答案三个字段。数据集基于机器学习领域ArXiv论文的标题和摘要创建,通过调用gpt-3.5-turbo API生成问答对,并排除了低质量的问答样本。Llama-2-7B-Chat模型已经使用该数据集进行了微调,并且检查点已公开。
该机器学习问答数据集包含43,713个样本,每个样本包括问题、上下文(标题+摘要)和答案三个字段。数据集基于机器学习领域ArXiv论文的标题和摘要创建,通过调用gpt-3.5-turbo API生成问答对,并排除了低质量的问答样本。Llama-2-7B-Chat模型已经使用该数据集进行了微调,并且检查点已公开。
提供机构:
hanyueshf
原始信息汇总
数据集概述
数据集名称
ML Q&A 数据集
数据集大小
包含43,713个样本
数据集结构
每个样本包含三个字段:
- 问题 (question)
- 上下文 (context):包括标题和摘要
- 答案 (answer)
数据来源
基于 aalksii/ml-arxiv-papers 数据集,该数据集包含机器学习ArXiv论文的标题和摘要。
数据生成方法
使用 gpt-3.5-turbo API 生成问题-答案对,具体步骤如下:
- 系统角色设定为“有帮助的助手”。
- 用户角色提供论文的标题和摘要。
- 生成的问题不超过25个令牌,答案长度在100到200个令牌之间。
数据集用途
已用于微调 Llama-2-7B-Chat,相关模型检查点可访问 Hugging Face 获取。
贡献者
- 王欣宇 (Xinyu Wang)
- 李林泽 (Linze Li)



