five

tomg-group-umd/GenQA

收藏
Hugging Face2024-06-21 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/tomg-group-umd/GenQA
下载链接
链接失效反馈
官方服务:
资源简介:
GenQA数据集包含超过1000万个经过清理和去重的指令样本,这些样本是通过精心设计的提示生成的。数据集的特征包括文本、提示、模板、索引和类别等字段。数据集分为多个部分,如代码、对话、通用、数学、mmlu、多项选择、写作、学术和任务等,每个部分都有详细的字节数和示例数。数据集适用于大规模语言模型微调的研究,但不适用于需要验证事实准确性的应用。数据集的创建目的是展示自主编写的指令数据集的有效性,并生成与商业指令集规模相当的研究指令数据集。

GenQA数据集包含超过1000万个经过清理和去重的指令样本,这些样本是通过精心设计的提示生成的。数据集的特征包括文本、提示、模板、索引和类别等字段。数据集分为多个部分,如代码、对话、通用、数学、mmlu、多项选择、写作、学术和任务等,每个部分都有详细的字节数和示例数。数据集适用于大规模语言模型微调的研究,但不适用于需要验证事实准确性的应用。数据集的创建目的是展示自主编写的指令数据集的有效性,并生成与商业指令集规模相当的研究指令数据集。
提供机构:
tomg-group-umd
原始信息汇总

数据集概述

数据集信息

特征

  • text: 包含对话内容和角色
    • content: 字符串类型
    • role: 字符串类型
  • prompt: 字符串类型
  • template: 字符串类型
  • idx: 整数类型
  • category: 字符串类型

数据分割

  • code: 868523270 字节,513483 样本
  • dialog: 2699180502 字节,819154 样本
  • general: 389512191 字节,304920 样本
  • math: 944242317 字节,515509 样本
  • mmlu: 4603359859 字节,2409841 样本
  • multiple_choice: 570290204 字节,372610 样本
  • writing: 2998330544 字节,932362 样本
  • academic: 8753888424 字节,4210076 样本
  • task: 2222907706 字节,1004179 样本

数据大小

  • 下载大小: 10125117516 字节
  • 数据集大小: 24050235017 字节

配置

  • default: 包含多个分割的数据文件路径

数据集详情

数据集描述

  • 语言: 英语
  • 许可证: Creative Commons NonCommercial (CC BY-NC 4.0)

用途

  • 直接使用: 适用于工业规模微调实践的开放研究
  • 超出范围使用: 不适用于需要验证事实准确性、关键决策或任何恶意或不道德活动的应用

数据集结构

  • 字段:
    • text: 包含训练文本(输入和输出)
    • prompt: 指定指令生成的要求
    • template: 可选的提示模板类型描述
    • category: 将代码数据分为编码、库和 Markdown

数据集创建

  • 创建理由: 展示自主编写指令数据集的有效性,并生成与商业指令集相当的研究指令数据集
  • 源数据: 包含用户和助手之间的问答对模拟对话
  • 数据收集和处理: 使用 Gemini 语言模型编写问题并去重,所有阶段使用 Python 完成

偏差、风险和限制

  • 潜在事实不准确性: 数据集可能包含事实不准确性,未手动检查事实正确性

推荐

  • 使用注意事项: 用户应意识到潜在的事实不准确性,并在使用数据集时验证关键信息,减轻任何潜在偏差和错误
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作