tomg-group-umd/GenQA
收藏Hugging Face2024-06-21 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/tomg-group-umd/GenQA
下载链接
链接失效反馈官方服务:
资源简介:
GenQA数据集包含超过1000万个经过清理和去重的指令样本,这些样本是通过精心设计的提示生成的。数据集的特征包括文本、提示、模板、索引和类别等字段。数据集分为多个部分,如代码、对话、通用、数学、mmlu、多项选择、写作、学术和任务等,每个部分都有详细的字节数和示例数。数据集适用于大规模语言模型微调的研究,但不适用于需要验证事实准确性的应用。数据集的创建目的是展示自主编写的指令数据集的有效性,并生成与商业指令集规模相当的研究指令数据集。
GenQA数据集包含超过1000万个经过清理和去重的指令样本,这些样本是通过精心设计的提示生成的。数据集的特征包括文本、提示、模板、索引和类别等字段。数据集分为多个部分,如代码、对话、通用、数学、mmlu、多项选择、写作、学术和任务等,每个部分都有详细的字节数和示例数。数据集适用于大规模语言模型微调的研究,但不适用于需要验证事实准确性的应用。数据集的创建目的是展示自主编写的指令数据集的有效性,并生成与商业指令集规模相当的研究指令数据集。
提供机构:
tomg-group-umd
原始信息汇总
数据集概述
数据集信息
特征
- text: 包含对话内容和角色
- content: 字符串类型
- role: 字符串类型
- prompt: 字符串类型
- template: 字符串类型
- idx: 整数类型
- category: 字符串类型
数据分割
- code: 868523270 字节,513483 样本
- dialog: 2699180502 字节,819154 样本
- general: 389512191 字节,304920 样本
- math: 944242317 字节,515509 样本
- mmlu: 4603359859 字节,2409841 样本
- multiple_choice: 570290204 字节,372610 样本
- writing: 2998330544 字节,932362 样本
- academic: 8753888424 字节,4210076 样本
- task: 2222907706 字节,1004179 样本
数据大小
- 下载大小: 10125117516 字节
- 数据集大小: 24050235017 字节
配置
- default: 包含多个分割的数据文件路径
数据集详情
数据集描述
- 语言: 英语
- 许可证: Creative Commons NonCommercial (CC BY-NC 4.0)
用途
- 直接使用: 适用于工业规模微调实践的开放研究
- 超出范围使用: 不适用于需要验证事实准确性、关键决策或任何恶意或不道德活动的应用
数据集结构
- 字段:
- text: 包含训练文本(输入和输出)
- prompt: 指定指令生成的要求
- template: 可选的提示模板类型描述
- category: 将代码数据分为编码、库和 Markdown
数据集创建
- 创建理由: 展示自主编写指令数据集的有效性,并生成与商业指令集相当的研究指令数据集
- 源数据: 包含用户和助手之间的问答对模拟对话
- 数据收集和处理: 使用 Gemini 语言模型编写问题并去重,所有阶段使用 Python 完成
偏差、风险和限制
- 潜在事实不准确性: 数据集可能包含事实不准确性,未手动检查事实正确性
推荐
- 使用注意事项: 用户应意识到潜在的事实不准确性,并在使用数据集时验证关键信息,减轻任何潜在偏差和错误



