hanyueshf/ml-arxiv-papers-qa

Name: hanyueshf/ml-arxiv-papers-qa
Creator: hanyueshf
Published: 2024-05-24 11:54:42
License: 暂无描述

Hugging Face2024-05-24 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/hanyueshf/ml-arxiv-papers-qa

下载链接

链接失效反馈

官方服务：

资源简介：

该机器学习问答数据集包含43,713个样本，每个样本包括问题、上下文（标题+摘要）和答案三个字段。数据集基于机器学习领域ArXiv论文的标题和摘要创建，通过调用gpt-3.5-turbo API生成问答对，并排除了低质量的问答样本。Llama-2-7B-Chat模型已经使用该数据集进行了微调，并且检查点已公开。

提供机构：

hanyueshf

原始信息汇总

数据集概述

数据集名称

ML Q&A 数据集

数据集大小

包含43,713个样本

数据集结构

每个样本包含三个字段：

问题 (question)
上下文 (context)：包括标题和摘要
答案 (answer)

数据来源

基于 aalksii/ml-arxiv-papers 数据集，该数据集包含机器学习ArXiv论文的标题和摘要。

数据生成方法

使用 gpt-3.5-turbo API 生成问题-答案对，具体步骤如下：

系统角色设定为“有帮助的助手”。
用户角色提供论文的标题和摘要。
生成的问题不超过25个令牌，答案长度在100到200个令牌之间。

数据集用途

已用于微调 Llama-2-7B-Chat，相关模型检查点可访问 Hugging Face 获取。

贡献者

王欣宇 (Xinyu Wang)
李林泽 (Linze Li)

5,000+

优质数据集

54 个

任务类型

进入经典数据集