five

ArtifactAI/arxiv-math-instruct-50k

收藏
Hugging Face2023-06-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ArtifactAI/arxiv-math-instruct-50k
下载链接
链接失效反馈
官方服务:
资源简介:
数据集arxiv-math-instruct-50k包含从ArXiv数学类别的摘要中生成的问题-答案对。问题使用t5-base模型生成,答案使用GPT-3.5-turbo模型生成。数据集包含50,488个问题-答案对,数据字段包括question和answer。数据集为单语种(英语),未包含注释,且不涉及个人和敏感信息。

The dataset arxiv-math-instruct-50k comprises question-answer pairs generated from abstracts belonging to the Mathematics category on ArXiv. The questions were generated using the t5-base model, whereas the answers were produced with the GPT-3.5-turbo model. This dataset contains a total of 50,488 question-answer pairs, with its data fields including `question` and `answer`. It is a monolingual English dataset, contains no additional annotations, and does not involve any personal or sensitive information.
提供机构:
ArtifactAI
原始信息汇总

数据集概述

基本信息

  • 名称: arxiv-math-instruct-50k
  • 语言: 英语
  • 许可证: CC0-1.0
  • 多语言性: 单语种
  • 大小: 1M<n<10M
  • 来源: 原始数据
  • 任务类别: 文本生成
  • 任务ID: 语言建模, 掩码语言建模
  • Paperswithcode ID: arxiv-math-instruct-50k

数据集描述

数据集概要

"ArtifactAI/arxiv-math-instruct-50k"数据集包含从ArXiv数学类别摘要中提取的问题-答案对,涉及的数学类别包括但不限于:"math.AC", "math.AG", "math.AP", "math.AT", "math.CA", "math.CO", "math.CT", "math.CV", "math.DG", "math.DS", "math.FA", "math.GM", "math.GN", "math.GR", "math.GT", "math.HO", "math.IT", "math.KT", "math.LO", "math.MG", "math.MP", "math.NA", "math.NT", "math.OA", "math.OC", "math.PR", "math.QA", "math.RA", "math.RT", "math.SG", "math.SP", "math.ST", "math-ph"。

数据生成

数据集结构

数据实例

  • 训练集大小: 50,488个问题-答案对
  • 下载数据集文件大小: 38.4 MB

数据字段

  • question: 字符串类型,表示问题。
  • answer: 字符串类型,表示答案。

数据分割

  • train: 包含50,488个问题-答案对。

数据来源

  • 原始数据: 来自ArXiv的摘要,生成问题-答案对。

注释

  • 注释状态: 无注释

个人和敏感信息

  • 信息状态: 无个人和敏感信息
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作