five

hanyueshf/ml-arxiv-papers-qa

收藏
Hugging Face2024-05-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hanyueshf/ml-arxiv-papers-qa
下载链接
链接失效反馈
官方服务:
资源简介:
该机器学习问答数据集包含43,713个样本,每个样本包括问题、上下文(标题+摘要)和答案三个字段。数据集基于机器学习领域ArXiv论文的标题和摘要创建,通过调用gpt-3.5-turbo API生成问答对,并排除了低质量的问答样本。Llama-2-7B-Chat模型已经使用该数据集进行了微调,并且检查点已公开。

该机器学习问答数据集包含43,713个样本,每个样本包括问题、上下文(标题+摘要)和答案三个字段。数据集基于机器学习领域ArXiv论文的标题和摘要创建,通过调用gpt-3.5-turbo API生成问答对,并排除了低质量的问答样本。Llama-2-7B-Chat模型已经使用该数据集进行了微调,并且检查点已公开。
提供机构:
hanyueshf
原始信息汇总

数据集概述

数据集名称

ML Q&A 数据集

数据集大小

包含43,713个样本

数据集结构

每个样本包含三个字段:

  • 问题 (question)
  • 上下文 (context):包括标题和摘要
  • 答案 (answer)

数据来源

基于 aalksii/ml-arxiv-papers 数据集,该数据集包含机器学习ArXiv论文的标题和摘要。

数据生成方法

使用 gpt-3.5-turbo API 生成问题-答案对,具体步骤如下:

  1. 系统角色设定为“有帮助的助手”。
  2. 用户角色提供论文的标题和摘要。
  3. 生成的问题不超过25个令牌,答案长度在100到200个令牌之间。

数据集用途

已用于微调 Llama-2-7B-Chat,相关模型检查点可访问 Hugging Face 获取。

贡献者

  • 王欣宇 (Xinyu Wang)
  • 李林泽 (Linze Li)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作