TIGER-Lab/WebInstructSub

Name: TIGER-Lab/WebInstructSub
Creator: TIGER-Lab
Published: 2024-10-27 03:19:23
License: 暂无描述

Hugging Face2024-10-27 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/TIGER-Lab/WebInstructSub

下载链接

链接失效反馈

官方服务：

资源简介：

WebInstruct数据集是MAmmoTH2项目的一部分，主要用于通过指令调优提升大语言模型（LLM）的性能。该数据集主要来源于StackExchange和Socratic等论坛，包含高质量的问答对。数据集构建过程包括从Common Crawl中召回文档、提取问答对并进行质量优化。数据集包含多个字段，如原始问题、原始答案、优化后的问题和答案等。数据集的大小和来源也在README中进行了详细说明。

提供机构：

TIGER-Lab

原始信息汇总

数据集概述

数据集名称

WebInstruct

语言

英语（en）

许可证

Apache-2.0
CC BY-NC 4.0（仅适用于来自Socratic的数据）

大小分类

1M<n<10M

任务分类

问答（question-answering）

数据集特征

orig_question (字符串)
orig_answer (字符串)
question (字符串)
answer (字符串)
source (字符串)
index (整数64位)

数据集拆分

train
- 数据大小: 6215888891 字节
- 示例数量: 2335220
- 下载大小: 3509803840 字节

数据来源

MathStackExchange
ScienceStackExchange
Socratic

数据集构建

数据集通过从Common Crawl中召回文档，提取Q-A对，并对其进行质量精炼的三步流程构建。
总共产生了1000万个指令-响应对。

数据集用途

用于提升大型语言模型（LLM）通过指令调优的性能。

5,000+

优质数据集

54 个

任务类型

进入经典数据集