tomg-group-umd/GenQA

Name: tomg-group-umd/GenQA
Creator: tomg-group-umd
Published: 2024-06-21 15:36:50
License: 暂无描述

Hugging Face2024-06-21 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/tomg-group-umd/GenQA

下载链接

链接失效反馈

官方服务：

资源简介：

GenQA数据集包含超过1000万个经过清理和去重的指令样本，这些样本是通过精心设计的提示生成的。数据集的特征包括文本、提示、模板、索引和类别等字段。数据集分为多个部分，如代码、对话、通用、数学、mmlu、多项选择、写作、学术和任务等，每个部分都有详细的字节数和示例数。数据集适用于大规模语言模型微调的研究，但不适用于需要验证事实准确性的应用。数据集的创建目的是展示自主编写的指令数据集的有效性，并生成与商业指令集规模相当的研究指令数据集。

提供机构：

tomg-group-umd

原始信息汇总

数据集概述

数据集信息

特征

text: 包含对话内容和角色
- content: 字符串类型
- role: 字符串类型
prompt: 字符串类型
template: 字符串类型
idx: 整数类型
category: 字符串类型

数据分割

code: 868523270 字节，513483 样本
dialog: 2699180502 字节，819154 样本
general: 389512191 字节，304920 样本
math: 944242317 字节，515509 样本
mmlu: 4603359859 字节，2409841 样本
multiple_choice: 570290204 字节，372610 样本
writing: 2998330544 字节，932362 样本
academic: 8753888424 字节，4210076 样本
task: 2222907706 字节，1004179 样本

数据大小

下载大小: 10125117516 字节
数据集大小: 24050235017 字节

配置

default: 包含多个分割的数据文件路径

数据集详情

数据集描述

语言: 英语
许可证: Creative Commons NonCommercial (CC BY-NC 4.0)

用途

直接使用: 适用于工业规模微调实践的开放研究
超出范围使用: 不适用于需要验证事实准确性、关键决策或任何恶意或不道德活动的应用

数据集结构

字段:
- text: 包含训练文本（输入和输出）
- prompt: 指定指令生成的要求
- template: 可选的提示模板类型描述
- category: 将代码数据分为编码、库和 Markdown

数据集创建

创建理由: 展示自主编写指令数据集的有效性，并生成与商业指令集相当的研究指令数据集
源数据: 包含用户和助手之间的问答对模拟对话
数据收集和处理: 使用 Gemini 语言模型编写问题并去重，所有阶段使用 Python 完成

偏差、风险和限制

潜在事实不准确性: 数据集可能包含事实不准确性，未手动检查事实正确性