ArtifactAI/arxiv-cs-ml-instruct-tune-50k
收藏Hugging Face2023-06-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ArtifactAI/arxiv-cs-ml-instruct-tune-50k
下载链接
链接失效反馈官方服务:
资源简介:
数据集arxiv-cs-ml-instruct-tune-50k包含从ArXiv摘要中生成的问题-答案对,问题由t5-base模型生成,答案由GPT-3.5-turbo模型生成。数据集主要用于文本生成任务,特别是语言建模和掩码语言建模。数据集的规模在1M到10M之间,包含50,063个训练样本。数据集的语言为英语,且不包含任何注释。
数据集arxiv-cs-ml-instruct-tune-50k包含从ArXiv摘要中生成的问题-答案对,问题由t5-base模型生成,答案由GPT-3.5-turbo模型生成。数据集主要用于文本生成任务,特别是语言建模和掩码语言建模。数据集的规模在1M到10M之间,包含50,063个训练样本。数据集的语言为英语,且不包含任何注释。
提供机构:
ArtifactAI
原始信息汇总
数据集概述
基本信息
- 名称: arxiv-cs-ml-instruct-tune-50k
- 语言: 英语
- 许可证: cc0-1.0
- 多语言性: 单语种
- 大小: 1M<n<10M
- 来源: 原始数据
- 任务类别: 文本生成
- 任务ID:
- 语言建模
- 掩码语言建模
- 论文代码链接ID: arxiv-cs-ml-instruct-tune-50k
数据集内容
数据集概要
- 内容: 该数据集包含从ArXiv抽象中提取的问题-答案对,涉及以下类别:"cs.CL", "cs.AI", "cs.CV", "cs.HC", "cs.IR", "cs.RO", "cs.NE", "stat.ML"。
- 生成方式:
- 问题: 使用t5-base模型生成。
- 答案: 使用GPT-3.5-turbo模型生成。
数据结构
数据实例
-
训练集大小: 50,063个问题-答案对
-
示例:
{ "question": "What is multitask learning?", "answer": "Multitask learning is a technique in machine learning that allows a single model to simultaneously learn multiple related tasks. Instead of training separate models for each task, multitask learning leverages shared patterns across tasks to improve overall performance. This can lead to faster training, better accuracy, and more efficient use of computational resources. For example, a model might be trained to simultaneously predict the sentiment of customer reviews and categorize them by topic. Both tasks require analyzing natural language, so the shared knowledge can help improve performance on both tasks." }
数据字段
- question: 字符串类型,表示问题。
- answer: 字符串类型,表示答案。
数据划分
- 训练集: 50,063个问题-答案对
数据来源
- 原始数据: 来自ArXiv的抽象。
注释
- 注释情况: 无注释
个人和敏感信息
- 信息情况: 无个人和敏感信息



